USO DE IRONPDF

C# Convertir PDF a Texto (Ejemplo de Código)

Actualizado 17 de julio, 2022
Compartir:

Este artículo describe el proceso para que los desarrolladores .NET conviertan archivos PDF a formato TXT para un acceso más eficaz.

Temas tratados en el tutorial

  • IronPDF
  • Pasos para crear archivos PDF mediante programación
  • Paso 1: Crear un proyecto C
  • Paso 2: Instalar la biblioteca IronPDF
    • Método 1: Gestor de paquetes NuGet
    • Método 2: Consola del gestor de paquetes NuGet
    • Método 3: Utilizar el archivo DLL
  • Paso 3: Añadir el espacio de nombres IronPDF
  • Paso 4: Convertir PDF en texto
    • Salida
  • Conclusión

IronPDF

IronPDF es una biblioteca .NET para la generación de PDF. Es una biblioteca .NET nativa y no depende de DLL externas u otras herramientas. IronPDF es una biblioteca multiplataforma escrita en C# y .NET que ofrece toda la funcionalidad necesaria para trabajar con documentos PDF. Contiene renderizado de documentos, edición de formularios, extracción de texto, cifrado de archivos y otras funciones. Todas estas operaciones pueden realizarse a través de una API intuitiva que ha sido ampliamente probada en varias plataformas como Windows Forms, WPF, ASP.NET MVC, etc.

La versión actual de IronPDF proporciona un acceso sencillo a estas funciones:

Pasos para convertir un documento PDF en un archivo de texto

El primer paso es crear un proyecto C# en Visual Studio. Puede elegir cualquier plantilla de aplicación C# según sus necesidades. Para simplificar, este tutorial utilizará la plantilla Aplicación de consola. Puede utilizar un proyecto C# ya existente para convertir archivos PDF a TXT.

Paso 1: Crear un proyecto C&num

Cree un proyecto C# en Visual Studio o abra un proyecto existente. Se recomienda utilizar la última versión de Visual Studio para trabajar sin problemas. Siga los pasos indicados para crear un proyecto C# en Visual Studio.

  1. Abre Visual Studio.
  2. Seleccione la plantilla C# Console Application o abra un proyecto existente.
  3. Dé un nombre apropiado al proyecto.
  4. Seleccione la versión 6.0 de .NET Framework. Este es el marco más reciente y estable de .NET, pero puede elegir cualquier otro .NET Framework en función de sus necesidades.

Paso 2: Instalar la biblioteca IronPDF

IronPDF también cuenta con un sencillo proceso de instalación que acelera el tiempo de desarrollo y reduce la confusión. La biblioteca IronPDF ofrece múltiples formas de instalación:

  • Uso del gestor de paquetes NuGet
  • Uso de la consola del gestor de paquetes NuGet
  • Por archivo DLL

Método 1: Gestor de paquetes NuGet

Para utilizar el Gestor de paquetes NuGet, siga los pasos indicados para abrir la pestaña Gestor de paquetes.

Abra el proyecto C# y haga clic en Herramientas > Administrador de paquetes NuGet > Administrar paquetes NuGet para la solución.

C# Convertir PDF en texto (ejemplo de código), Figura 0: Navegar hasta el gestor de paquetes NuGet

Navegue hasta el Gestor de paquetes NuGet.

  • Ahora vaya a la pestaña Examinar y busque IronPDF.
  • Seleccione IronPDF en los resultados de la búsqueda y haga clic en Instalar. Esto instalará la librería IronPDF permitiendo que el proyecto sea utilizado con la librería IronPDF.

    C# Convertir PDF a Texto (Ejemplo de código), Figura 1: Paquete IronPdf desde el resultado de la búsqueda del Gestor de Paquetes NuGet

    Paquete IronPdf del resultado de la búsqueda del Gestor de paquetes NuGet.

Método 2: Consola del gestor de paquetes NuGet

La instalación de la biblioteca IronPDF con Package Manager Console es la forma más sencilla. Sigue estos sencillos pasos:

  • Abra la consola del gestor de paquetes.
  • Escribe la siguiente línea en la consola y pulsa intro. Esto instalará inmediatamente la biblioteca IronPDF.
Install-Package IronPdf

C# Convertir PDF a Texto (Ejemplo de código), Figura 2: El progreso de la instalación mostrado en la interfaz de usuario de la consola de NuGet Package Manager

**El progreso de la instalación se muestra en la consola de NuGet Package Manager.

Método 3: Utilizar un archivo DLL

Puede descargar el Archivo DLL del sitio web de Iron Software. Una vez completada la descarga, utilícela en su proyecto como referencia.

Visite el página de instalación para obtener una guía de instalación más detallada.

La instalación de la biblioteca IronPDF ha finalizado. Los siguientes pasos le guiarán para convertir un archivo PDF en un archivo de texto.

Paso 3: Añadir el espacio de nombres IronPDF

Para utilizar IronPDF, es necesario añadir el espacio de nombres IronPDF a cada archivo de código. Escriba la siguiente línea de código al principio de cada archivo de código relacionado. Le permitirá utilizar las características de IronPDF en su programa.

using IronPdf;
using IronPdf;
Imports IronPdf
VB   C#

Paso 4: Convertir el documento PDF en un archivo de texto

Ahora tenemos que convertir el archivo PDF en un archivo TXT o extraer sólo texto. Por lo tanto, escriba el siguiente código de ejemplo en su archivo de código:

using IronPdf;
using System.Drawing;

//  Extraer contenido de imagen y texto de un documento PDF

//  Abrir un PDF cifrado de 128 bits
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//  Obtener todo el texto para ponerlo en un índice de búsqueda
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
using IronPdf;
using System.Drawing;

//  Extraer contenido de imagen y texto de un documento PDF

//  Abrir un PDF cifrado de 128 bits
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//  Obtener todo el texto para ponerlo en un índice de búsqueda
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
Imports IronPdf
Imports System.Drawing

'  Extraer contenido de imagen y texto de un documento PDF

'  Abrir un PDF cifrado de 128 bits
Private PdfDocument As using
'  Obtener todo el texto para ponerlo en un índice de búsqueda
Private allText As String = pdf.ExtractAllText()
Console.WriteLine(allText)
VB   C#

En primer lugar, abra el documento PDF con la función DesdeArchivo de la función DocumentoPdf clase. En los parámetros, pase el nombre del archivo y la contraseña (en su caso). A continuación, utilice la función ExtraerTodoTexto para extraer todo el texto del archivo PDF y almacenarlo en una variable llamada allText. A continuación, muestre el texto de salida en la consola

Salida

C# Convertir PDF a Texto (Ejemplo de código), Figura 3: El texto extraído del documento PDF

Texto extraído del documento PDF

Este es el texto de salida extraído por IronPDF. Es el mismo texto que se ve en el archivo PDF, lo que demuestra que la precisión de IronPDF es muy exacta.

Conclusión

Este artículo muestra cómo extraer fácilmente texto de archivos PDF utilizando la biblioteca PDF .NET de IronPDF. Esto se logró escribiendo sólo unas pocas líneas de código y con un alto porcentaje de precisión. Además, IronPDF también tiene muchas funciones útiles, como la conversión de HTML a PDF, herramientas de formateo de PDF y muchas más funciones básicas de PDF que son imprescindibles para la edición de PDF. IronPDF también elimina la dependencia de Adobe Acrobat.

IronPDF es gratuito para fines de desarrollo y también ofrece un prueba gratuita para las pruebas de producción. IronPDF ofrece una variedad de planes de precios que usted puede obtener de acuerdo a sus necesidades. El precio de IronPDF es relativamente inferior al de sus competidores. Con precios que varían de particulares a grandes empresas, resulta ser una compra atractiva con un rendimiento impresionante.

C# Convertir PDF a Texto (Ejemplo de código), Figura 4: Los planes de precios de la Suite de Iron Software

Los planes de precios de la Suite de Iron Software

Además, Iron Software ofrece una suite de cinco paquetes de Iron Software por el precio de sólo dos. Visite la página página de licencias para obtener más detalles.

< ANTERIOR
Guardar Matriz de Bytes en PDF C# (Ejemplo de Código)
SIGUIENTE >
Cómo escanear varias páginas en un archivo PDF

¿Listo para empezar? Versión: 2024.7 recién publicada

Descarga gratuita de NuGet Descargas totales: 9,974,197 Ver licencias >
123