Leer archivos PDF en C#

El método PdfDocument.ExtractAllText de la biblioteca PDF C# IronPDF es perfecto para tareas de lectura de texto PDF estándar. Este método maneja discrepancias de espacios y codificación dentro de documentos PDF de origen sin ningún problema.

PdfDocument.ExtractTextFromPage lee el texto de páginas específicas de un PDF. En el ejemplo de abajo, lo vemos usado de forma iterativa para recuperar contenido de texto de un rango específico de páginas.

IronPDF también puede extraer imágenes en bruto de PDFs. Para ello, utilice cualquiera de los métodos de la clase PdfDocument a continuación:

  • ExtractAllImages : devuelve todas las imágenes incrustadas en un PDF como objetos IronSoftware.Drawing.AnyBitmap.
  • ExtractAllRawImages : recupera todas las imágenes incrustadas como una lista de bytes sin procesar (byte[]).
  • ExtractImagesFromPage : extrae las imágenes contenidas en una página indexada.
  • ExtractImagesFromPages : igual que ExtractImagesFromPage, pero de un rango de páginas específico o una lista de páginas individuales.
  • ExtractRawImagesFromPage y ExtractRawImagesFromPages : funciona igual que los dos métodos anteriores, pero devuelve las imágenes extraídas como matrices de bytes en lugar de como objetos IronSoftware.Drawing.AnyBitmap.

Learn more about ExtractTextFromPage Method

¿Listo para empezar?
Nuget Descargas 17,803,474 | Versión: 2026.3 recién lanzado
Still Scrolling Icon

¿Aún desplazándote?

¿Quieres una prueba rápida? PM > Install-Package IronPdf
ejecutar una muestra Mira cómo tu HTML se convierte en PDF.