Extraer texto e imágenes incrustados de archivos PDF en C#

Actualizado:enero 10, 2026

Translated

View the article in English

Extraiga contenido de texto e imágenes de documentos PDF en C# con sencillas llamadas a métodos. Recuperar contenido incrustado para editarlo, analizarlo o reutilizarlo en otras aplicaciones.

Su empresa gasta demasiado en suscripciones anuales para la seguridad y el cumplimiento de PDF. Considere IronSecureDoc, que ofrece soluciones para gestionar servicios SaaS como la firma digital, la redacción, el cifrado y la protección, todo por un pago único. Explore la documentación de IronSecureDoc

La extracción de texto e imágenes recupera contenido textual y elementos gráficos de documentos PDF. Acceda a los contenidos y reutilícelos para editar, buscar, convertir texto a otros formatos o guardar imágenes para su reutilización. Tanto si necesita parse PDF en C# para el análisis de datos, convertir contenido a formatos que permitan búsquedas o extraer elementos visuales para archivarlos, IronPDF proporciona herramientas de extracción completas.

Extraiga texto e imágenes con IronPDF. Guarde las imágenes extraídas en el disco o conviértalas a otro formato antes de incrustarlas en nuevos documentos. Esta flexibilidad permite flujos de trabajo que requieren la transformación de contenidos, como convertir PDF a HTML o reutilizar imágenes extraídas.

como-encabezamiento:2(Inicio rápido: Extraer texto e imágenes con IronPDF)

Extraiga texto e imágenes de PDF en unas pocas líneas de código. Esta guía rápida muestra cómo recuperar contenido incrustado de documentos PDF para su reutilización y análisis. Extraiga texto para editarlo o guarde imágenes para su uso posterior con la solución optimizada de IronPDF.

Instalar IronPDF con el gestor de paquetes NuGet
PM > Install-Package IronPdf

Copie y ejecute este fragmento de código.

var pdf = new IronPdf.PdfDocument("sample.pdf");  
string text = pdf.ExtractAllText();  
var images = pdf.ExtractAllImages();

Despliegue para probar en su entorno real
Empieza a utilizar IronPDF en tu proyecto hoy mismo con una prueba gratuita
Prueba gratuita de 30 días

Flujo de trabajo mínimo (5 pasos)

Descargar la biblioteca IronPDF C#
Prepara el documento PDF para la extracción de texto e imágenes
Utilice el método ExtractAllText para extraer texto
Utilizar el método ExtractAllImages para extraer imágenes
Especifica las páginas particulares de las que extraer texto e imágenes

¿Cómo extraer texto de un PDF?

Extraer texto tanto de documentos PDF nuevos como existentes. Utilice el método ExtractAllText para extraer el texto incrustado en el documento. El método devuelve una cadena que contiene todo el texto del PDF. Las páginas están separadas por cuatro caracteres de nueva línea consecutivos. Este ejemplo utiliza un PDF de ejemplo extraído del sitio web de Wikipedia.

Cuando se trabaja con archivos PDF que contienen idiomas internacionales y caracteres UTF-8, IronPDF mantiene la codificación y la representación de caracteres adecuadas. De este modo, se garantiza la correcta visualización de scripts no latinos y caracteres especiales.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text.cs

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text.cs

$vbLabelText $csharpLabel

¿Cómo puedo extraer texto con coordenadas precisas?

Recuperar las coordenadas de líneas de texto y caracteres dentro de cada página PDF. Seleccione una página del PDF y acceda a las propiedades Líneas y Caracteres. Las coordenadas incluyen los valores Superior, Derecha, Inferior e Izquierda que representan la posición del texto. Esta función conserva la disposición espacial y permite analizar la posición del texto.

Para los desarrolladores que necesiten leer archivos PDF en C# con conciencia posicional, la extracción de coordenadas proporciona datos para mantener la estructura del documento e implementar análisis de texto avanzados.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-by-line-character.cs

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-by-line-character.cs

$vbLabelText $csharpLabel

¿Cómo extraer imágenes de un PDF?

Utilice el método ExtractAllImages para extraer todas las imágenes incrustadas del documento. El método devuelve imágenes como una lista de objetos AnyBitmap. Utilizando el mismo documento, extrajimos imágenes y las exportamos a la carpeta "images". Esta funcionalidad permite archivar imágenes, migrar contenidos y rasterizar páginas PDF a imágenes para su posterior procesamiento.

Las imágenes extraídas mantienen la calidad original y pueden guardarse en varios formatos, como PNG, JPEG y BMP. Para flujos de trabajo de almacenamiento en la nube, integre esta funcionalidad con Azure Blob Storage para la gestión de imágenes.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-image.cs

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-image.cs

$vbLabelText $csharpLabel

¿Cuáles son los diferentes métodos de extracción de imágenes?

Además del método ExtractAllImages, utilice los métodos ExtractAllBitmaps y ExtractAllRawImages para extraer información de imágenes. Mientras que ExtractAllBitmaps devuelve una lista de AnyBitmap, ExtractAllRawImages extrae todas las imágenes y las devuelve como matrices de bytes sin procesar (byte[]).

El método ExtractAllRawImages funciona bien cuando se procesan datos de imágenes en memoria o se integra con sistemas que requieren entradas de matrices de bytes. En el caso de exportar PDF a flujos de memoria, el formato de matriz de bytes sin procesar ofrece una flexibilidad óptima.

¿Cómo puedo extraer contenido de determinadas páginas PDF?

Extraer texto e imágenes de una o varias páginas especificadas. Utilice los métodos ExtractTextFromPage y ExtractTextFromPages para extraer texto de una o varias páginas. Para las imágenes, utilice los métodos ExtractImagesFromPage y ExtractImagesFromPages.

Este control granular ayuda a la hora de trabajar con documentos extensos en los que solo hay secciones específicas con contenido relevante. También admite funciones para dividir PDF y extraer páginas individuales para procesarlas por separado.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-single-multiple.cs

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-single-multiple.cs

$vbLabelText $csharpLabel

¿Cuándo debo extraer de páginas específicas en lugar de todas las páginas?

Extraer de páginas específicas cuando:

Trabajar con PDF de gran tamaño que contengan datos relevantes en determinadas secciones
Implementación de flujos de trabajo que gestionan páginas de forma independiente
Creación de aplicaciones que requieran la visualización o el procesamiento incremental de contenidos
Optimización del uso de memoria procesando sólo las páginas necesarias
Creación de funciones de búsqueda o indexación específicas de la página

¿Qué consideraciones de rendimiento debo tener en cuenta?

Tenga en cuenta estos factores de rendimiento al extraer contenido PDF:

Uso de memoria: Extraer páginas individualmente de documentos grandes para minimizar el consumo de memoria
Tiempo de procesamiento: Utilice el procesamiento en paralelo para extracciones de varias páginas cuando sea apropiado
Tamaño del archivo: Los PDF más grandes con imágenes de alta resolución requieren más tiempo de procesamiento
Almacenamiento: Prever un espacio en disco adecuado para extraer numerosas imágenes de alta resolución
Threading: IronPDF admite operaciones multihilo para mejorar el rendimiento en sistemas multinúcleo

Para obtener un rendimiento óptimo con los PDF en memoria, utilice operaciones de flujo de memoria para reducir la sobrecarga de E/S del disco.

Preguntas Frecuentes

¿Cómo extraer texto de documentos PDF en C#?

Utilice el método ExtractAllText de IronPDF para extraer texto incrustado de documentos PDF. El método devuelve una cadena que contiene todo el texto del PDF, con las páginas separadas por cuatro caracteres de nueva línea consecutivos. IronPDF mantiene la codificación adecuada para idiomas internacionales y caracteres UTF-8.

¿Puedo extraer imágenes de archivos PDF mediante programación?

Sí, IronPDF proporciona el método ExtractAllImages para recuperar elementos gráficos de documentos PDF. Puede guardar las imágenes extraídas en el disco o convertirlas a otros formatos antes de incrustarlas en nuevos documentos.

¿Cuáles son los principales casos de uso de la extracción de contenido PDF?

Las herramientas de extracción de IronPDF admiten varios flujos de trabajo, como el análisis sintáctico de PDF para el análisis de datos, la conversión de contenidos a formatos que permitan búsquedas, la extracción de elementos visuales para archivado y la reutilización de contenidos para su edición o transformación en otros formatos como HTML.

¿Cuántas líneas de código se necesitan para extraer el contenido de un PDF?

Con IronPDF, puede extraer texto e imágenes en unas pocas líneas de código. Simplemente cargue su documento PDF y llame a ExtractAllText() para la extracción de texto o a ExtractAllImages() para la extracción de imágenes.

¿Puedo extraer contenido de páginas específicas en lugar de todo el documento?

Sí, IronPDF le permite especificar páginas concretas de las que extraer texto e imágenes, lo que le proporciona un control preciso sobre qué contenido recuperar de sus documentos PDF.

Curtis Chau

Chatea con el equipo de ingeniería ahora

Escritor Técnico

Curtis Chau tiene una licenciatura en Ciencias de la Computación (Carleton University) y se especializa en el desarrollo front-end con experiencia en Node.js, TypeScript, JavaScript y React. Apasionado por crear interfaces de usuario intuitivas y estéticamente agradables, disfruta trabajando con frameworks modernos y creando manuales bien ...

¿Listo para empezar?

Nuget Descargas 17,012,929 | Versión: 2025.12 recién lanzado

Ver Licencias

Destacado del Cliente:

Enfoque del Desarrollador:

Webinars:

En esta página

Extraer texto e imágenes incrustados de archivos PDF en C#

Empieza a crear PDF con NuGet ahora:

Instalar IronPDF con el gestor de paquetes NuGet

Copie y ejecute este fragmento de código.

Despliegue para probar en su entorno real

Flujo de trabajo mínimo (5 pasos)

¿Cómo extraer texto de un PDF?

¿Cómo puedo extraer texto con coordenadas precisas?

¿Cómo extraer imágenes de un PDF?

¿Cuáles son los diferentes métodos de extracción de imágenes?

¿Cómo puedo extraer contenido de determinadas páginas PDF?

¿Cuándo debo extraer de páginas específicas en lugar de todas las páginas?

¿Qué consideraciones de rendimiento debo tener en cuenta?

Preguntas Frecuentes

¿Cómo extraer texto de documentos PDF en C#?

¿Puedo extraer imágenes de archivos PDF mediante programación?

¿Cuáles son los principales casos de uso de la extracción de contenido PDF?

¿Cuántas líneas de código se necesitan para extraer el contenido de un PDF?

¿Puedo extraer contenido de páginas específicas en lugar de todo el documento?

En esta página

Extraer texto e imágenes incrustados de archivos PDF en C#

Empieza a crear PDF con NuGet ahora:

Instalar IronPDF con el gestor de paquetes NuGet

Copie y ejecute este fragmento de código.

Despliegue para probar en su entorno real

Flujo de trabajo mínimo (5 pasos)

¿Cómo extraer texto de un PDF?

¿Cómo puedo extraer texto con coordenadas precisas?

¿Cómo extraer imágenes de un PDF?

¿Cuáles son los diferentes métodos de extracción de imágenes?

¿Cómo puedo extraer contenido de determinadas páginas PDF?

¿Cuándo debo extraer de páginas específicas en lugar de todas las páginas?

¿Qué consideraciones de rendimiento debo tener en cuenta?

Preguntas Frecuentes

¿Cómo extraer texto de documentos PDF en C#?

¿Puedo extraer imágenes de archivos PDF mediante programación?

¿Cuáles son los principales casos de uso de la extracción de contenido PDF?

¿Cuántas líneas de código se necesitan para extraer el contenido de un PDF?

¿Puedo extraer contenido de páginas específicas en lugar de todo el documento?

Obtén tu GRATIS

Próximo paso: Comenzar prueba gratuita de 30 días

Próximo paso: Comenzar prueba gratuita de 30 días

Confiado por millones de ingenieros en todo el mundo