USO DE IRONPDF

C# Extraer Texto De PDF (Tutorial De Ejemplo De Código)

Actualizado 27 de junio, 2022
Compartir:

Los archivos en formato de documento portátil se utilizan en diversas empresas. A la hora de elaborar documentos, los desarrolladores utilizan el formato PDF para ayudar a sus clientes. Gracias a las bibliotecas actuales, crear PDF nunca ha sido tan fácil. Debemos evaluar elementos como la construcción, la lectura y la conversión para determinar qué biblioteca comercial es mejor utilizar en un proyecto.

1. Características de IronPDF

IronPDF es un sólido conversor de PDF que puede realizar casi cualquier operación que pueda realizar un navegador. Crear, leer y manipular documentos PDF es sencillo con la biblioteca .NET para desarrolladores. IronPDF convierte documentos HTML a PDF utilizando el motor de Chrome. IronPDF es compatible con HTML, ASPX, Razor HTML y MVC View, entre otros componentes web. La aplicación Microsoft .NET es compatible con IronPDF (tanto aplicaciones web ASP.NET como aplicaciones Windows tradicionales). IronPDF también puede utilizarse para crear un documento PDF visualmente atractivo.

Podemos hacer un documento PDF a partir de HTML5, JavaScript, CSS e imágenes con IronPDF. Además, los archivos pueden tener cabeceras y pies de página. Gracias a IronPDF, podemos leer fácilmente un documento PDF. IronPDF también cuenta con un completo motor de conversión de PDF y un potente conversor de HTML a PDF que puede manejar documentos PDF.

  • Las fuentes que se pueden utilizar para crear un archivo PDF incluyen HTML, HTML5, ASPX y Vista Razor/MVC. No sólo podemos convertir archivos HTML a PDF, sino también convertir archivos de imagen a PDF.
  • IronPDF le permite crear documentos PDF interactivos, rellenar y enviar formularios interactivos, fusionar y dividir un documento PDF Extraiga texto e imágenes de archivos PDF, busque texto en un archivo PDF, rasterice páginas PDF a imágenes, convierta PDF a HTML e imprima documentos PDF.
  • IronPDF es capaz de crear un documento a partir de una URL. También admite credenciales de inicio de sesión de red personalizadas, agentes de usuario, proxies, cookies, cabeceras HTTP y variables de formulario para inicio de sesión tras formularios de inicio de sesión HTML.
  • IronPDF es un programa que le permite ver y rellenar documentos PDF.
  • Las imágenes pueden extraerse de los documentos con IronPDF.
  • IronPDF nos permite personalizar documentos con cabeceras, pies de página, texto, imágenes, marcadores, marcas de agua y mucho más.
  • Podemos unir y dividir páginas en un documento nuevo o existente utilizando IronPDF.
  • Sin un visor Acrobat, podemos convertir documentos en objetos PDF.
  • Un archivo CSS puede convertirse en un documento PDF.
  • Los archivos CSS de tipo multimedia pueden transformarse en documentos.

2. Creación de un nuevo proyecto en Visual Studio

Abra el software Visual Studio y vaya al menú Archivo. Seleccione "Nuevo proyecto" y, a continuación, "Aplicación de consola". En este artículo, vamos a utilizar una aplicación de consola para generar documentos PDF.

C# Extraer texto de PDF (Tutorial de ejemplo de código), Figura 1: Crear un nuevo proyecto en Visual Studio

Crea un nuevo proyecto en Visual Studio.

Introduzca el nombre del proyecto y seleccione la ruta del archivo en el cuadro de texto correspondiente. A continuación, haga clic en el botón Create y seleccione el .NET Framework necesario, como en la captura de pantalla siguiente.

C# Extraer texto de PDF (Tutorial de ejemplo de código), Figura 2: Configurar nuevo proyecto en Visual Studio

Configurar nuevo proyecto en Visual Studio

El proyecto de Visual Studio generará ahora la estructura para la aplicación seleccionada, y si ha seleccionado la Consola, Windows y Aplicación Web, abrirá el archivo program.cs donde podrá introducir el código y construir/ejecutar la aplicación.

C# Extraer Texto De PDF (Tutorial de ejemplo de código), Figura 3: Selección de .NET Core

**Selección de .NET Core

A continuación, podemos añadir la biblioteca para probar el código.

3. Instalar la biblioteca IronPDF

La biblioteca IronPDF puede descargarse e instalarse de cuatro maneras.

Estos son:

  • Utilización de Visual Studio.
  • Uso de la línea de comandos de Visual Studio.
  • Descarga directa desde el sitio web de NuGet.
  • Descarga directa desde el sitio web de IronPDF.

3.1 Utilización de Visual Studio

El software Visual Studio proporciona la opción NuGet Package Manager para instalar el paquete directamente en la solución. La siguiente captura de pantalla muestra cómo abrir el Gestor de paquetes NuGet.

C# Extraer texto de PDF (Tutorial de ejemplo de código), Figura 4: Archivo program.cs de Visual Studio

Archivo programa.cs de Visual Studio

Proporciona el cuadro de búsqueda para mostrar la lista de paquetes del sitio web de NuGet. En el gestor de paquetes, tenemos que buscar la palabra clave "IronPdf", como en la siguiente captura de pantalla.

C# Extraer texto de PDF (Tutorial de ejemplo de código), Figura 5: Gestor de paquetes NuGet

Gestor de paquetes NuGet

En la imagen anterior, podemos ver la lista de los elementos de búsqueda relacionados. Debemos seleccionar la opción necesaria para instalar el paquete en la solución.

3.2 Uso de la línea de comandos de Visual Studio

En Visual Studio, vaya a Herramientas > Gestor de paquetes NuGet > Consola del gestor de paquetes

Introduzca la siguiente línea en la pestaña de la consola del gestor de paquetes:

Install-Package IronPdf

Ahora el paquete se descargará/instalará en el proyecto actual y estará listo para su uso.

C# Extraer Texto De PDF (Tutorial de ejemplo de código), Figura 6: Librería IronPdf en NuGet Package Manager

Biblioteca IronPdf en el gestor de paquetes NuGet.

3.3 Descarga directa desde el sitio web de NuGet

La tercera forma es descargar el Paquete NuGet directamente desde el sitio web.

  • Navegue hasta el enlace.
  • Seleccione la opción de descarga de paquetes en el menú de la derecha.
  • Haga doble clic en el paquete descargado. Se instalará automáticamente.
  • A continuación, vuelva a cargar la solución y empiece a utilizarla en el proyecto.

3.4 Descarga directa desde el sitio web de IronPDF

Visite nuestro sitio web IronPDF para descargar el último paquete directamente del sitio web. Una vez descargado, sigue los pasos que se indican a continuación para añadir el paquete al proyecto.

  • Haga clic con el botón derecho del ratón en el proyecto de la ventana de la solución.
  • A continuación, seleccione las opciones de referencia y busque la ubicación de la referencia descargada.
  • A continuación, haga clic en Aceptar para añadir la referencia.

4. Extraer texto con IronPDF

El programa IronPDF nos permite realizar la extracción de texto del archivo PDF y convertir páginas PDF en objetos PDF. A continuación se muestra un ejemplo de cómo utilizar IronPDF para leer un PDF existente.

El primer método consiste en extraer texto de un PDF y el fragmento de código de ejemplo se muestra a continuación.

var pdfDocument = IronPdf.PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
var pdfDocument = IronPdf.PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Dim pdfDocument = IronPdf.PdfDocument.FromFile("result.pdf")
Dim AllText As String = pdfDocument.ExtractAllText()
VB   C#

En DesdeArchivo se utiliza para cargar el documento PDF a partir de un archivo existente y transformarlo en DocumentoPDF como se muestra en el código anterior. Podemos leer el texto y las imágenes accesibles en las páginas PDF utilizando este objeto. El objeto tiene un método llamado ExtraerTodoTexto que extrae todo el texto de todo el documento PDF, a continuación, mantiene el texto extraído en la cadena podemos utilizar la cadena para procesar.

A continuación se muestra el ejemplo de código para el segundo método que podemos utilizar para extraer texto de un archivo PDF, página por página.

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
	For index = 0 To pdf.PageCount - 1
		Dim PageNumber As Integer = index + 1
		Dim Text As String = pdf.ExtractTextFromPage(index)
	Next index
End Using
VB   C#

En el código anterior, vemos que primero cargará todo el documento PDF y lo convertirá en un objeto PDF. A continuación, obtenemos el recuento de páginas de todo el documento PDF mediante un método incorporado llamado CuentaPáginas y obtendrá el número total de páginas disponibles en el documento PDF cargado. Utilizando el "bucle for" y ExtraerTextoDePágina nos permite pasar el número de página como parámetro para extraer texto del documento cargado. A continuación, guardará el texto exacto en la variable de cadena. Asimismo, extraerá texto del PDF página por página con ayuda del bucle "for" o "for each".

5. Conclusión

IronPDF es una de las bibliotecas PDF más utilizadas. No depende de ninguna otra biblioteca de terceros. Es independiente y no necesita que Adobe Reader esté instalado en su máquina. Funciona en múltiples plataformas. El precio de lanzamiento de IronPDF es de $749. Existe la opción de pagar una cuota de un año por el soporte y las actualizaciones del producto, e IronPDF también ofrece cobertura de redistribución libre de derechos por un coste adicional. Para más información, visite nuestra página página de precios.

< ANTERIOR
Cómo generar PDF en ASP.NET usando C#
SIGUIENTE >
Cómo extraer datos de un PDF en C#

¿Listo para empezar? Versión: 2024.7 recién publicada

Descarga gratuita de NuGet Descargas totales: 9,974,197 Ver licencias >
123