Cómo extraer texto e imágenes incrustados de PDFs en C#

Extraer texto e imágenes incrustados de archivos PDF en C#

This article was translated from English: Does it need improvement?
Translated
View the article in English

Extraiga contenido de texto e imágenes de documentos PDF en C# con sencillas llamadas a métodos. Recuperar contenido incrustado para editarlo, analizarlo o reutilizarlo en otras aplicaciones.

La extracción de texto e imágenes recupera contenido textual y elementos gráficos de documentos PDF. Acceda a los contenidos y reutilícelos para editar, buscar, convertir texto a otros formatos o guardar imágenes para su reutilización. Tanto si necesita parse PDF en C# para el análisis de datos, convertir contenido a formatos que permitan búsquedas o extraer elementos visuales para archivarlos, IronPDF proporciona herramientas de extracción completas.

Extraiga texto e imágenes con IronPDF. Guarde las imágenes extraídas en el disco o conviértalas a otro formato antes de incrustarlas en nuevos documentos. Esta flexibilidad permite flujos de trabajo que requieren la transformación de contenidos, como convertir PDF a HTML o reutilizar imágenes extraídas.

como-encabezamiento:2(Inicio rápido: Extraer texto e imágenes con IronPDF)

Extraiga texto e imágenes de PDF en unas pocas líneas de código. Esta guía rápida muestra cómo recuperar contenido incrustado de documentos PDF para su reutilización y análisis. Extraiga texto para editarlo o guarde imágenes para su uso posterior con la solución optimizada de IronPDF.

Nuget IconEmpieza a crear PDF con NuGet ahora:

  1. Instalar IronPDF con el gestor de paquetes NuGet

    PM > Install-Package IronPdf

  2. Copie y ejecute este fragmento de código.

    var pdf = new IronPdf.PdfDocument("sample.pdf");  
    string text = pdf.ExtractAllText();  
    var images = pdf.ExtractAllImages();
  3. Despliegue para probar en su entorno real

    Empieza a utilizar IronPDF en tu proyecto hoy mismo con una prueba gratuita
    arrow pointer


¿Cómo extraer texto de un PDF?

Extraer texto tanto de documentos PDF nuevos como existentes. Utilice el método ExtractAllText para extraer el texto incrustado en el documento. El método devuelve una cadena que contiene todo el texto del PDF. Las páginas están separadas por cuatro caracteres de nueva línea consecutivos. Este ejemplo utiliza un PDF de ejemplo extraído del sitio web de Wikipedia.

Cuando se trabaja con archivos PDF que contienen idiomas internacionales y caracteres UTF-8, IronPDF mantiene la codificación y la representación de caracteres adecuadas. De este modo, se garantiza la correcta visualización de scripts no latinos y caracteres especiales.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text.cs  
:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text.cs  
$vbLabelText   $csharpLabel
Vista en paralelo de la página de Wikipedia y el texto sin formato extraído mostrando el proceso de extracción de texto

¿Cómo puedo extraer texto con coordenadas precisas?

Recuperar las coordenadas de líneas de texto y caracteres dentro de cada página PDF. Seleccione una página del PDF y acceda a las propiedades Líneas y Caracteres. Las coordenadas incluyen los valores Superior, Derecha, Inferior e Izquierda que representan la posición del texto. Esta función conserva la disposición espacial y permite analizar la posición del texto.

Para los desarrolladores que necesiten leer archivos PDF en C# con conciencia posicional, la extracción de coordenadas proporciona datos para mantener la estructura del documento e implementar análisis de texto avanzados.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-by-line-character.cs  
:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-by-line-character.cs  
$vbLabelText   $csharpLabel
Pantalla dividida que muestra la página principal de Wikipedia y el archivo de texto extraído con coordenadas Y que muestran el contenido analizado

¿Cómo extraer imágenes de un PDF?

Utilice el método ExtractAllImages para extraer todas las imágenes incrustadas del documento. El método devuelve imágenes como una lista de objetos AnyBitmap. Utilizando el mismo documento, extrajimos imágenes y las exportamos a la carpeta "images". Esta funcionalidad permite archivar imágenes, migrar contenidos y rasterizar páginas PDF a imágenes para su posterior procesamiento.

Las imágenes extraídas mantienen la calidad original y pueden guardarse en varios formatos, como PNG, JPEG y BMP. Para flujos de trabajo de almacenamiento en la nube, integre esta funcionalidad con Azure Blob Storage para la gestión de imágenes.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-image.cs  
:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-image.cs  
$vbLabelText   $csharpLabel
Explorador de archivos mostrando 19 imágenes PNG extraídas en vista de miniaturas tras ejecutar la herramienta de extracción de imágenes

¿Cuáles son los diferentes métodos de extracción de imágenes?

Además del método ExtractAllImages, utilice los métodos ExtractAllBitmaps y ExtractAllRawImages para extraer información de imágenes. Mientras que ExtractAllBitmaps devuelve una lista de AnyBitmap, ExtractAllRawImages extrae todas las imágenes y las devuelve como matrices de bytes sin procesar (byte[]).

El método ExtractAllRawImages funciona bien cuando se procesan datos de imágenes en memoria o se integra con sistemas que requieren entradas de matrices de bytes. En el caso de exportar PDF a flujos de memoria, el formato de matriz de bytes sin procesar ofrece una flexibilidad óptima.


¿Cómo puedo extraer contenido de determinadas páginas PDF?

Extraer texto e imágenes de una o varias páginas especificadas. Utilice los métodos ExtractTextFromPage y ExtractTextFromPages para extraer texto de una o varias páginas. Para las imágenes, utilice los métodos ExtractImagesFromPage y ExtractImagesFromPages.

Este control granular ayuda a la hora de trabajar con documentos extensos en los que solo hay secciones específicas con contenido relevante. También admite funciones para dividir PDF y extraer páginas individuales para procesarlas por separado.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-single-multiple.cs  
:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-single-multiple.cs  
$vbLabelText   $csharpLabel

¿Cuándo debo extraer de páginas específicas en lugar de todas las páginas?

Extraer de páginas específicas cuando:

  • Trabajar con PDF de gran tamaño que contengan datos relevantes en determinadas secciones
  • Implementación de flujos de trabajo que gestionan páginas de forma independiente
  • Creación de aplicaciones que requieran la visualización o el procesamiento incremental de contenidos
  • Optimización del uso de memoria procesando sólo las páginas necesarias
  • Creación de funciones de búsqueda o indexación específicas de la página

¿Qué consideraciones de rendimiento debo tener en cuenta?

Tenga en cuenta estos factores de rendimiento al extraer contenido PDF:

  • Uso de memoria: Extraer páginas individualmente de documentos grandes para minimizar el consumo de memoria
  • Tiempo de procesamiento: Utilice el procesamiento en paralelo para extracciones de varias páginas cuando sea apropiado
  • Tamaño del archivo: Los PDF más grandes con imágenes de alta resolución requieren más tiempo de procesamiento
  • Almacenamiento: Prever un espacio en disco adecuado para extraer numerosas imágenes de alta resolución
  • Threading: IronPDF admite operaciones multihilo para mejorar el rendimiento en sistemas multinúcleo

Para obtener un rendimiento óptimo con los PDF en memoria, utilice operaciones de flujo de memoria para reducir la sobrecarga de E/S del disco.

Preguntas Frecuentes

¿Cómo extraer texto de documentos PDF en C#?

Utilice el método ExtractAllText de IronPDF para extraer texto incrustado de documentos PDF. El método devuelve una cadena que contiene todo el texto del PDF, con las páginas separadas por cuatro caracteres de nueva línea consecutivos. IronPDF mantiene la codificación adecuada para idiomas internacionales y caracteres UTF-8.

¿Puedo extraer imágenes de archivos PDF mediante programación?

Sí, IronPDF proporciona el método ExtractAllImages para recuperar elementos gráficos de documentos PDF. Puede guardar las imágenes extraídas en el disco o convertirlas a otros formatos antes de incrustarlas en nuevos documentos.

¿Cuáles son los principales casos de uso de la extracción de contenido PDF?

Las herramientas de extracción de IronPDF admiten varios flujos de trabajo, como el análisis sintáctico de PDF para el análisis de datos, la conversión de contenidos a formatos que permitan búsquedas, la extracción de elementos visuales para archivado y la reutilización de contenidos para su edición o transformación en otros formatos como HTML.

¿Cuántas líneas de código se necesitan para extraer el contenido de un PDF?

Con IronPDF, puede extraer texto e imágenes en unas pocas líneas de código. Simplemente cargue su documento PDF y llame a ExtractAllText() para la extracción de texto o a ExtractAllImages() para la extracción de imágenes.

¿Puedo extraer contenido de páginas específicas en lugar de todo el documento?

Sí, IronPDF le permite especificar páginas concretas de las que extraer texto e imágenes, lo que le proporciona un control preciso sobre qué contenido recuperar de sus documentos PDF.

Curtis Chau
Escritor Técnico

Curtis Chau tiene una licenciatura en Ciencias de la Computación (Carleton University) y se especializa en el desarrollo front-end con experiencia en Node.js, TypeScript, JavaScript y React. Apasionado por crear interfaces de usuario intuitivas y estéticamente agradables, disfruta trabajando con frameworks modernos y creando manuales bien ...

Leer más
¿Listo para empezar?
Nuget Descargas 17,012,929 | Versión: 2025.12 recién lanzado