Leer archivos PDF en C#
El método PdfDocument.ExtractAllText
de la biblioteca de PDF IronPDF C# es perfecto para tareas estándar de lectura de texto en PDF. Este método gestiona sin problemas las discrepancias de espacios en blanco y codificación en los documentos PDF de origen.
PdfDocument.ExtractTextFromPage
lee el texto de páginas específicas de un PDF. En el ejemplo anterior, vemos que se utiliza de forma iterativa para recuperar contenido de texto de un rango específico de páginas.
IronPDF también puede extraer imágenes sin procesar de los PDF. Para esto, utiliza cualquiera de los métodos de la clase PdfDocument
a continuación:
ExtractAllImages
: devuelve todas las imágenes incrustadas en un PDF como objetosIronSoftware.Drawing.AnyBitmap
.ExtractAllRawImages
: recupera todas las imágenes incrustadas como una lista de bytes en bruto (byte []
).ExtractImagesFromPage
: extrae las imágenes contenidas en una página indexada.ExtractImagesFromPages
: igual queExtractImagesFromPage
, pero desde un rango de páginas específico o una lista de páginas individuales.-
ExtractRawImagesFromPage
yExtractRawImagesFromPages
: funcionan de la misma manera que los dos métodos anteriores, pero devuelven las imágenes extraídas como matrices de bytes en lugar de como objetosIronSoftware.Drawing.AnyBitmap
.
Cómo leer archivos PDF en C#
- Descargar la biblioteca IronPDF para C#
- Extraer imágenes o texto de un PDF
- Leer y encontrar palabras en documentos específicos
- Ver la salida PDF del documento original