Leer archivos PDF en C#

El método PdfDocument.ExtractAllText de la librería IronPDF C# PDF es perfecto para tareas de lectura de texto en PDF. Este método gestiona sin problemas las discrepancias de espacios en blanco y codificación en los documentos PDF de origen.

PdfDocument.ExtractTextFromPage lee el texto de páginas específicas de un PDF. En el ejemplo anterior, vemos que se utiliza de forma iterativa para recuperar contenido de texto de un rango específico de páginas.

IronPDF también puede extraer imágenes sin procesar de los PDF. Para ello, utilice cualquiera de los métodos de la clase PdfDocument que se indican a continuación:

  • ExtractAllImages: devuelve todas las imágenes incrustadas en un PDF como objetos IronSoftware.Drawing.AnyBitmap.
  • ExtractAllRawImages: recupera todas las imágenes incrustadas como una lista de bytes sin procesar.(byte[]).
  • ExtractImagesFromPage: extrae las imágenes contenidas en una página indexada.
  • ExtractImagesFromPages: igual que ExtractImagesFromPage, pero a partir de un rango de páginas específico o de una lista de páginas individuales.
  • ExtractRawImagesFromPage y ExtractRawImagesFromPages: funciona igual que los dos métodos anteriores, pero devuelve las imágenes extraídas como matrices de bytes en lugar de como objetos IronSoftware.Drawing.AnyBitmap.