USO DE IRONPDF

C# Convertir PDF a Texto (Ejemplo de Código)

Chipego
Chipego Kalinda
17 de julio, 2022
Actualizado 8 de febrero, 2024
Compartir:

Este artículo describe el proceso para que los desarrolladores .NET conviertan archivos PDF a formato TXT para un acceso más eficaz.

Temas tratados en el tutorial

  • IronPDF
  • Pasos para crear archivos PDF mediante programación
  • Paso 1: Crear un proyecto C
  • Paso 2: Instalar la biblioteca IronPDF

    • Método 1: Gestor de paquetes NuGet

    • Método 2: Consola del gestor de paquetes NuGet
  • Método 3: Utilizar el archivo DLL
  • Paso 3: Añadir el espacio de nombres IronPDF
  • Paso 4: Convertir PDF en texto
  • Salida
  • Conclusión

IronPDF

IronPDF es una biblioteca .NET para la generación de PDF. Es una biblioteca .NET nativa y no depende de DLL externas u otras herramientas. IronPDF es una biblioteca multiplataforma escrita en C# y .NET que ofrece toda la funcionalidad necesaria para trabajar con documentos PDF. Contiene renderizado de documentos, edición de formularios, extracción de texto, cifrado de archivos y otras funciones. Todas estas operaciones pueden realizarse a través de una API intuitiva que ha sido ampliamente probada en varias plataformas como Windows Forms, WPF, ASP.NET MVC, etc.

La versión actual de IronPDF proporciona un acceso sencillo a estas funciones:

Pasos para convertir un documento PDF en un archivo de texto

El primer paso es crear un proyecto C# en Visual Studio. Puede elegir cualquier plantilla de aplicación C# según sus necesidades. Para simplificar, este tutorial utilizará la plantilla Aplicación de consola. Puede utilizar un proyecto C# ya existente para convertir archivos PDF a TXT.

Paso 1: Crear un proyecto C&num

Cree un proyecto C# en Visual Studio o abra un proyecto existente. Se recomienda utilizar la última versión de Visual Studio para trabajar sin problemas. Siga los pasos indicados para crear un proyecto C# en Visual Studio.

  1. Abre Visual Studio.

  2. Seleccione la plantilla C# Console Application o abra un proyecto existente.

  3. Dé un nombre apropiado al proyecto.

  4. Seleccione la versión 6.0 de .NET Framework. Este es el marco más reciente y estable de .NET, pero puede elegir cualquier otro .NET Framework en función de sus necesidades.

Paso 2: Instalar la biblioteca IronPDF

IronPDF también cuenta con un sencillo proceso de instalación que acelera el tiempo de desarrollo y reduce la confusión. La biblioteca IronPDF ofrece múltiples formas de instalación:

  • Uso del gestor de paquetes NuGet
  • Uso de la consola del gestor de paquetes NuGet
  • Por archivo DLL

Método 1: Gestor de paquetes NuGet

Para utilizar el Gestor de paquetes NuGet, siga los pasos indicados para abrir la pestaña Gestor de paquetes.

Abra el proyecto de C# y haga clic en Herramientas > Administrador de paquetes NuGet > Administrar paquetes NuGet para la solución.

C# Convertir PDF a Texto (Ejemplo de Código), Figura 0: Navegar al Administrador de Paquetes NuGet

Navega al Administrador de Paquetes de NuGet

  • Ahora vaya a la pestaña Examinar y busque IronPDF.
  • Seleccione IronPDF de los resultados de búsqueda y haga clic en Instalar. Esto instalará la librería IronPDF permitiendo que el proyecto sea utilizado con la librería IronPDF.

    C# Convertir PDF a Texto (Ejemplo de Código), Figura 1: Paquete de IronPdf del resultado de búsqueda del Administrador de Paquetes NuGet

    Paquete IronPdf del resultado de búsqueda del Administrador de paquetes NuGet

Método 2: Consola del gestor de paquetes NuGet

La instalación de la biblioteca IronPDF con Package Manager Console es la forma más sencilla. Sigue estos sencillos pasos:

  • Abra la consola del gestor de paquetes.
  • Escribe la siguiente línea en la consola y pulsa intro. Esto instalará inmediatamente la biblioteca IronPDF.
Install-Package IronPdf

C# Convertir PDF a Texto (Ejemplo de Código), Figura 2: El progreso de la instalación mostrado en la IU de la Consola del Administrador de Paquetes NuGet

El progreso de la instalación mostrado en la interfaz de usuario de la consola del Administrador de paquetes NuGet

Método 3: Utilizar un archivo DLL

Puedes descargar el archivo DLL de IronPDF desde el sitio web de Iron Software. Una vez que la descarga esté completa, úsalo en tu proyecto como referencia.

Visite la guía de instalación de IronPDF para obtener una guía de instalación más detallada.

La instalación de la biblioteca IronPDF ha finalizado. Los siguientes pasos le guiarán para convertir un archivo PDF en un archivo de texto.

Paso 3: Añadir el espacio de nombres IronPDF

Para utilizar IronPDF, es necesario añadir el espacio de nombres IronPDF a cada archivo de código. Escriba la siguiente línea de código al principio de cada archivo de código relacionado. Le permitirá utilizar las características de IronPDF en su programa.

using IronPdf;
using IronPdf;
Imports IronPdf
$vbLabelText   $csharpLabel

Paso 4: Convertir el documento PDF en un archivo de texto

Ahora tenemos que convertir el archivo PDF en un archivo TXT o extraer sólo texto. Por lo tanto, escriba el siguiente código de ejemplo en su archivo de código:

using IronPdf;
using System.Drawing;

// Extracting image and text content from PDF Document

// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
using IronPdf;
using System.Drawing;

// Extracting image and text content from PDF Document

// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
Imports IronPdf
Imports System.Drawing

' Extracting image and text content from PDF Document

' Open a 128-bit encrypted PDF
Private PdfDocument As using
' Get all text to put in a search index
Private allText As String = pdf.ExtractAllText()
Console.WriteLine(allText)
$vbLabelText   $csharpLabel

Primero, abre el documento PDF usando la función FromFile de la clase PdfDocument. En los parámetros, pase el nombre del archivo y la contraseña (si la hay). Después de eso, utiliza la función ExtractAllText para extraer todo el texto del archivo PDF y almacenarlo en una variable llamada allText. A continuación, muestre el texto de salida en la consola

Salida

Convertir PDF a Texto con C# (Ejemplo de Código), Figura 3: El texto extraído del documento PDF

El texto extraído del documento PDF

Este es el texto de salida extraído por IronPDF. Es el mismo texto que se ve en el archivo PDF, lo que demuestra que la precisión de IronPDF es muy exacta.

Conclusión

Este artículo muestra cómo extraer fácilmente texto de archivos PDF utilizando la biblioteca PDF .NET de IronPDF. Esto se logró escribiendo sólo unas pocas líneas de código y con un alto porcentaje de precisión. Además, IronPDF también tiene muchas funciones útiles, como la conversión de HTML a PDF, herramientas de formateo de PDF y muchas más funciones básicas de PDF que son imprescindibles para la edición de PDF. IronPDF también elimina la dependencia de Adobe Acrobat.

IronPDF is free for development purposes and also offers a free trial for production testing. IronPDF ofrece una variedad de planes de precios que usted puede obtener de acuerdo a sus necesidades. El precio de IronPDF es relativamente inferior al de sus competidores. Con precios que varían de particulares a grandes empresas, resulta ser una compra atractiva con un rendimiento impresionante.

C# Convertir PDF a Texto (Ejemplo de Código), Figura 4: Los planes de precios para la Suite de Iron Software

Los planes de precios para la Suite de Iron Software

Además, Iron Software ofrece una suite de cinco paquetes de Iron Software por el precio de sólo dos. Por favor, visite los detalles de la licencia de Iron Software para más información.

Chipego
Ingeniero de software
Chipego tiene una habilidad natural para escuchar que le ayuda a comprender los problemas de los clientes y a ofrecer soluciones inteligentes. Se unió al equipo de Iron Software en 2023, después de estudiar una licenciatura en Tecnología de la Información. IronPDF e IronOCR son los dos productos en los que Chipego se ha centrado, pero su conocimiento de todos los productos crece día a día, a medida que encuentra nuevas formas de ayudar a los clientes. Disfruta de lo colaborativa que es la vida en Iron Software, con miembros del equipo de toda la empresa que aportan su variada experiencia para contribuir a soluciones eficaces e innovadoras. Cuando Chipego está lejos de su escritorio, a menudo se le puede encontrar disfrutando de un buen libro o jugando al fútbol.
< ANTERIOR
Guardar Matriz de Bytes en PDF C# (Ejemplo de Código)
SIGUIENTE >
Cómo escanear varias páginas en un archivo PDF