Saltar al pie de página
USANDO IRONPDF
C# Extraer Texto De PDF

C# Extraer Texto De PDF (Ejemplo de Código Tutorial)

Los archivos PDF (Formato de Documento Portable) juegan un papel vital en innumerables industrias, permitiendo a las empresas compartir, almacenar y gestionar documentos de manera segura. Para los desarrolladores, trabajar con PDFs a menudo implica crear, leer, convertir y extraer contenido para satisfacer las necesidades del cliente. Extraer texto de PDFs es esencial para tareas como análisis de datos, indexación de documentos, migración de contenido o habilitar funciones de accesibilidad. Bibliotecas modernas como IronPDF facilitan estas tareas más que nunca, ofreciendo potentes herramientas para manipular archivos PDF con mínimo esfuerzo.

Esta guía se centra en uno de los requisitos más comunes: extraer texto de un PDF en C#. Te guiaremos a través de la configuración de un proyecto en Visual Studio, la instalación de IronPDF y su uso para realizar la extracción de texto con ejemplos de código concisos. En el camino, destacaremos las características robustas de IronPDF, incluidas sus capacidades para crear, manipular y convertir archivos PDF utilizando .NET. Ya sea que estés construyendo aplicaciones con gran carga documental o simplemente necesites manejar PDFs de manera eficiente, este tutorial te iniciará.

1. Características de IronPDF

IronPDF es un robusto convertidor de PDF que puede realizar casi cualquier operación que puede hacer un navegador. Crear, leer y manipular documentos PDF es simple con la biblioteca .NET para desarrolladores. IronPDF convierte documentos HTML a PDF utilizando el motor de Chrome. IronPDF soporta componentes web como HTML, ASPX, Razor HTML y MVC View, entre otros. La aplicación Microsoft .NET es compatible con IronPDF (tanto aplicaciones web ASP.NET como aplicaciones Windows tradicionales). IronPDF también puede ser usado para crear un documento PDF visualmente atractivo.

Podemos crear un documento PDF a partir de HTML5, JavaScript, CSS e imágenes con IronPDF. Además, los archivos pueden tener cabeceras y pies de página. Gracias a IronPDF, podemos leer fácilmente un documento PDF. IronPDF también cuenta con un motor de conversión de PDF completo y un potente convertidor HTML a PDF que puede manejar documentos PDF.

  • Creación de PDF: Genera PDFs a partir de HTML, JavaScript, CSS, imágenes o URLs. Añade cabeceras, pies de página, marcadores, marcas de agua y otros elementos personalizados para mejorar el diseño.
  • Conversión HTML a PDF: Convierte HTML, Razor/MVC Views y archivos CSS de tipo multimedia directamente en formato PDF.
  • Características Interactivas de PDF: Crea, rellena y envía formularios PDF interactivos.
  • Extracción de Texto e Imágenes: Extrae texto o imágenes de documentos PDF existentes para procesamiento de datos o reutilización.
  • Manipulación de Documentos: Fusiona, divide, y reorganiza páginas en archivos PDF nuevos o existentes.
  • Manipulación de Imágenes y Páginas: Rastrear páginas PDF a imágenes y convertir imágenes a formato PDF.
  • Trabajar con credenciales de inicio de sesión personalizadas: IronPDF es capaz de crear un documento desde una URL. También soporta credenciales de red personalizadas, agentes de usuario, proxies, cookies, encabezados HTTP y variables de formulario para inicios de sesión detrás de formularios HTML de inicio de sesión.
  • Búsqueda y Accesibilidad: Busca texto dentro de documentos PDF y asegúrate de que cumplan con los estándares de accesibilidad.
  • Versatilidad de Conversión: Transforma PDFs en otros formatos como HTML y trabaja con archivos CSS para generar PDFs.
  • Funcionalidad Independiente: Opera independientemente sin requerir Adobe Acrobat u otras herramientas de terceros adicionales.

2. Creación de un nuevo proyecto en Visual Studio

Abre el software Visual Studio y ve al menú de Archivo. Selecciona "Nuevo Proyecto" y luego selecciona "Aplicación de Consola". En este artículo, vamos a usar una aplicación de consola para generar documentos PDF.

C# Extraer Texto de PDF (Ejemplo de Código Tutorial), Figura 1: Crea un nuevo proyecto en Visual Studio Crea un nuevo proyecto en Visual Studio

Introduce el nombre del proyecto y selecciona la ruta de archivo en el cuadro de texto apropiado. Luego, haz clic en el botón Crear y selecciona el .NET Framework requerido, como en la captura de pantalla a continuación.

C# Extraer Texto de PDF (Ejemplo de Código Tutorial), Figura 2: Configura nuevo proyecto en Visual Studio Configura nuevo proyecto en Visual Studio

El proyecto de Visual Studio ahora generará la estructura para la aplicación seleccionada, y si has seleccionado la consola, Windows, y Aplicación Web, abrirá el archivo program.cs donde puedes ingresar el código y construir/ejecutar la aplicación.

C# Extraer Texto de PDF (Ejemplo de Código Tutorial), Figura 3: Seleccionar .NET Core Seleccionar .NET Core

A continuación, podemos añadir la biblioteca para probar el código.

3. Instalar la biblioteca IronPDF

La Biblioteca IronPDF se puede descargar e instalar de cuatro maneras.

Estas son:

  • Usando Visual Studio.
  • Usando la línea de comandos de Visual Studio.
  • Descarga directa desde el sitio web de NuGet.
  • Descarga directa desde el sitio web de IronPDF.

3.1 Uso de Visual Studio

El software Visual Studio proporciona la opción de Gestor de Paquetes NuGet para instalar el paquete directamente en la solución. La captura de pantalla a continuación muestra cómo abrir el Administrador de Paquetes NuGet.

C# Extraer Texto de PDF (Ejemplo de Código Tutorial), Figura 4: Archivo program.cs de Visual Studio Archivo program.cs de Visual Studio

Proporciona el cuadro de búsqueda para mostrar la lista de paquetes del sitio web de NuGet. En el administrador de paquetes, necesitamos buscar la palabra clave "IronPDF", como en la captura de pantalla a continuación.

C# Extraer Texto de PDF (Ejemplo de Código Tutorial), Figura 5: Administrador de Paquetes NuGet Administrador de Paquetes NuGet

En la imagen de arriba, podemos ver la lista de los elementos de búsqueda relacionados. Necesitamos seleccionar la opción requerida para instalar el paquete en la solución.

3.2 Uso de la línea de comandos de Visual Studio

En Visual Studio, ve a Tools > NuGet Package Manager > Package Manager Console

Ingresa la siguiente línea en la pestaña de consola del gestor de paquetes:

Install-Package IronPdf

Ahora el paquete se descargará/instalará en el proyecto actual y estará listo para usar.

C# Extraer Texto de PDF (Ejemplo de Código Tutorial), Figura 6: Biblioteca IronPDF en el Administrador de Paquetes NuGet Biblioteca IronPDF en el Administrador de Paquetes NuGet

3.3 Descarga directa desde el sitio web de NuGet

La tercera forma es descargar el paquete NuGet de IronPDF directamente desde su sitio web.

  • Navega al paquete IronPDF en NuGet.
  • Seleccione la opción de descargar paquete desde el menú a la derecha.
  • Haga doble clic en el paquete descargado. Se instalará automáticamente.
  • A continuación, recarga la solución y empieza a usarla en el proyecto.

3.4 Descarga directa desde el sitio web de IronPDF

Visita el sitio oficial de IronPDF para descargar el último paquete directamente desde su sitio web. Una vez descargado, sigue los pasos a continuación para añadir el paquete al proyecto.

  • Haga clic derecho en el proyecto desde la ventana de la solución.
  • Luego, selecciona las opciones de referencia y navega a la ubicación de la referencia descargada.
  • Haz clic en Aceptar para agregar la referencia.

4. Extraer texto con IronPDF

El programa IronPDF nos permite realizar la extracción de texto del archivo PDF y convertir páginas PDF en objetos PDF. El siguiente es un ejemplo de cómo usar IronPDF para leer un PDF existente.

El primer enfoque es extraer texto de un PDF y el fragmento de código de ejemplo está a continuación.

using IronPdf;

// Load an existing PDF document from a file
var pdfDocument = PdfDocument.FromFile("result.pdf");

// Extract all text from the entire PDF document
string allText = pdfDocument.ExtractAllText();
using IronPdf;

// Load an existing PDF document from a file
var pdfDocument = PdfDocument.FromFile("result.pdf");

// Extract all text from the entire PDF document
string allText = pdfDocument.ExtractAllText();
Imports IronPdf

' Load an existing PDF document from a file
Private pdfDocument = PdfDocument.FromFile("result.pdf")

' Extract all text from the entire PDF document
Private allText As String = pdfDocument.ExtractAllText()
$vbLabelText   $csharpLabel

El método estático FromFile se utiliza para cargar el documento PDF desde un archivo existente y transformarlo en objetos PDFDocument, como se muestra en el código anterior. Podemos leer el texto y las imágenes accesibles en las páginas PDF usando este objeto. El objeto tiene un método llamado ExtractAllText que extrae todo el texto de todo el documento PDF, luego guarda el texto extraído en la cadena que podemos utilizar para el procesamiento.

A continuación se muestra el ejemplo de código para el segundo método que podemos utilizar para extraer texto de un archivo PDF, página por página.

using IronPdf;

// Load an existing PDF document from a file
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");

// Loop through each page of the PDF document
for (var index = 0; index < pdf.PageCount; index++)
{
    // Extract text from the current page
    string text = pdf.ExtractTextFromPage(index);
}
using IronPdf;

// Load an existing PDF document from a file
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");

// Loop through each page of the PDF document
for (var index = 0; index < pdf.PageCount; index++)
{
    // Extract text from the current page
    string text = pdf.ExtractTextFromPage(index);
}
Imports IronPdf

' Load an existing PDF document from a file
Private PdfDocument As using

' Loop through each page of the PDF document
For index = 0 To pdf.PageCount - 1
	' Extract text from the current page
	Dim text As String = pdf.ExtractTextFromPage(index)
Next index
$vbLabelText   $csharpLabel

En el código anterior, vemos que primero cargará todo el documento PDF y lo convertirá en un objeto PDF. Luego, obtenemos el recuento de páginas de todo el documento PDF utilizando una propiedad incorporada llamada PageCount, que recupera el número total de páginas disponibles en el documento PDF cargado. Utilizando el "bucle for" y la función ExtractTextFromPage nos permite pasar el número de página como un parámetro para extraer texto del documento cargado. Luego mantendrá el texto exacto en la variable de cadena. Asimismo, extraerá texto del PDF página por página con la ayuda del "for" o el "for each" loop.

5. Conclusión

IronPDF es una biblioteca PDF versátil y potente diseñada para hacer que trabajar con PDFs en aplicaciones .NET sea sin problemas. Sus características robustas permiten a los desarrolladores crear, manipular y extraer contenido de PDFs sin depender de dependencias de terceros como Adobe Reader. Una de las capacidades destacadas de IronPDF es su capacidad para extraer texto de documentos PDF. Esta característica es invaluable para automatizar tareas como análisis de datos, indexación de documentos, migración de contenido y habilitación de funciones de accesibilidad. Al permitir que los desarrolladores recuperen y procesen texto de manera programática, IronPDF simplifica los flujos de trabajo y abre nuevas posibilidades para manejar contenido PDF.

Con integración sencilla y soporte multiplataforma, IronPDF es una excelente opción para desarrolladores que buscan manejar documentos PDF de manera eficiente. Además, IronPDF ofrece una prueba gratuita, permitiéndote explorar su gama completa de características sin riesgo antes de comprometerte. Para obtener detalles de precios y conocer más sobre las opciones de licencia, visita la página de precios.

Preguntas Frecuentes

¿Cómo puedo extraer texto de un documento PDF usando C#?

Puedes extraer texto de un documento PDF en C# usando IronPDF. Primero, carga el PDF usando el método PdfDocument.FromFile, y luego aplica el método ExtractAllText para recuperar el texto del documento.

¿Qué pasos están involucrados en la configuración de IronPDF en un proyecto de Visual Studio?

Para configurar IronPDF en un proyecto de Visual Studio, puedes instalarlo a través del Gestor de Paquetes NuGet. Alternativamente, puedes usar la Línea de Comandos de Visual Studio o descargarlo directamente desde los sitios web de NuGet o IronPDF.

¿Qué características hacen de IronPDF una biblioteca PDF integral?

IronPDF ofrece una amplia gama de características, incluyendo creación de PDF, conversión de HTML a PDF, extracción de texto e imágenes, manipulación de documentos y soporte para formularios PDF interactivos.

¿Puede IronPDF usarse para convertir HTML a PDF en C#?

Sí, IronPDF puede convertir HTML, incluyendo Vistas Razor/MVC y archivos CSS de tipo multimedia, directamente en formato PDF usando su motor Chrome integrado.

¿Es IronPDF compatible con todos los tipos de aplicaciones .NET?

Sí, IronPDF es compatible tanto con aplicaciones web ASP.NET como con aplicaciones de Windows tradicionales, proporcionando versatilidad para los desarrolladores .NET.

¿Cómo facilita IronPDF la accesibilidad en los documentos PDF?

IronPDF mejora la accesibilidad permitiendo a los usuarios buscar texto dentro de documentos PDF y asegurando que cumplan con los estándares de accesibilidad.

¿Se requieren dependencias de terceros para IronPDF?

IronPDF opera de manera independiente y no requiere herramientas de terceros como Adobe Acrobat, permitiendo una manipulación de PDFs sin problemas dentro de tus aplicaciones .NET.

¿Cuáles son las ventajas de usar IronPDF para la extracción de texto de PDFs?

IronPDF agiliza los flujos de trabajo al permitir la extracción de texto programática, lo cual es útil para análisis de datos, indexación de documentos y migración de contenido.

¿Está disponible una versión de prueba para IronPDF?

Sí, IronPDF ofrece una prueba gratuita, permitiendo a los desarrolladores explorar sus características y capacidades antes de tomar una decisión de compra.

¿Cuál es la importancia de usar IronPDF para la gestión de PDFs en aplicaciones .NET?

IronPDF es crucial para la gestión de PDFs en aplicaciones .NET debido a su conjunto de características robustas, que incluyen creación de PDF, extracción de texto, y conversión de HTML a PDF, todo sin la necesidad de software externo como Adobe Acrobat.

¿Es el código de extracción de texto PDF en C# de este artículo compatible con .NET 10?

Sí. Los ejemplos PdfDocument.FromFile y ExtractText de este tutorial funcionan igual en .NET 10 que en versiones anteriores. Después de crear un proyecto .NET 10, instale el paquete IronPDF más reciente desde NuGet y podrá ejecutar el mismo código para leer archivos PDF y extraer texto en aplicaciones .NET 10 modernas.

Kye Stuart
Escritor Técnico

Kye Stuart fusiona la pasión por la codificación y la habilidad para escribir en Iron Software. Educado en Yoobee College en despliegue de software, ahora transforma conceptos tecnológicos complejos en contenido educativo claro. Kye valora el aprendizaje continuo y acepta nuevos desafíos tecnológicos.

<...
Leer más