Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
Este artículo describe el proceso para que los desarrolladores .NET conviertan archivos PDF a formato TXT para un acceso más eficaz.
Paso 2: Instalar la biblioteca IronPDF
Método 1: Gestor de paquetes NuGet
IronPDF es una biblioteca .NET para la generación de PDF. Es una biblioteca .NET nativa y no depende de DLL externas u otras herramientas. IronPDF es una biblioteca multiplataforma escrita en C# y .NET que ofrece toda la funcionalidad necesaria para trabajar con documentos PDF. Contiene renderizado de documentos, edición de formularios, extracción de texto, cifrado de archivos y otras funciones. Todas estas operaciones pueden realizarse a través de una API intuitiva que ha sido ampliamente probada en varias plataformas como Windows Forms, WPF, ASP.NET MVC, etc.
La versión actual de IronPDF proporciona un acceso sencillo a estas funciones:
*Campos de formulario PDF con plantillas y lógica de validación
*Extracción de texto a partir de PDF(OCR)
Formularios rellenables
Acceso de sólo lectura al interior del documento(vista, navegación, anotaciones):
Acceso a lametadatos y propiedades de los documentos (título, palabras clave, autor, tema):
IronPDF también contiene algunas clases auxiliares adicionales que ayudan conconvertir documentos HTML en archivos PDF con formato completo con extracción de texto. IronPDF proporciona API muy sencillas para convertir PDF en un archivo de texto.
Empecemos por cómo utilizar la biblioteca IronPDF para convertir un documento PDF en un archivo de texto.
El primer paso es crear un proyecto C# en Visual Studio. Puede elegir cualquier plantilla de aplicación C# según sus necesidades. Para simplificar, este tutorial utilizará la plantilla Aplicación de consola. Puede utilizar un proyecto C# ya existente para convertir archivos PDF a TXT.
Cree un proyecto C# en Visual Studio o abra un proyecto existente. Se recomienda utilizar la última versión de Visual Studio para trabajar sin problemas. Siga los pasos indicados para crear un proyecto C# en Visual Studio.
Abre Visual Studio.
Seleccione la plantilla C# Console Application o abra un proyecto existente.
Dé un nombre apropiado al proyecto.
IronPDF también cuenta con un sencillo proceso de instalación que acelera el tiempo de desarrollo y reduce la confusión. La biblioteca IronPDF ofrece múltiples formas de instalación:
Para utilizar el Gestor de paquetes NuGet, siga los pasos indicados para abrir la pestaña Gestor de paquetes.
Abra el proyecto C# y haga clic en Herramientas > Administrador de paquetes NuGet > Administrar paquetes NuGet para la solución.
Navegue hasta el Gestor de paquetes NuGet.
Seleccione IronPDF en los resultados de la búsqueda y haga clic en Instalar. Esto instalará la librería IronPDF permitiendo que el proyecto sea utilizado con la librería IronPDF.
Paquete IronPdf del resultado de la búsqueda del Gestor de paquetes NuGet.
La instalación de la biblioteca IronPDF con Package Manager Console es la forma más sencilla. Sigue estos sencillos pasos:
Install-Package IronPdf
**El progreso de la instalación se muestra en la consola de NuGet Package Manager.
Puede descargar elArchivo DLL IronPDF del sitio web de Iron Software. Una vez completada la descarga, utilícela en su proyecto como referencia.
Visite elGuía de instalación de IronPDF para obtener una guía de instalación más detallada.
La instalación de la biblioteca IronPDF ha finalizado. Los siguientes pasos le guiarán para convertir un archivo PDF en un archivo de texto.
Para utilizar IronPDF, es necesario añadir el espacio de nombres IronPDF a cada archivo de código. Escriba la siguiente línea de código al principio de cada archivo de código relacionado. Le permitirá utilizar las características de IronPDF en su programa.
using IronPdf;
using IronPdf;
Imports IronPdf
Paso 4: Convertir el documento PDF en un archivo de texto
Ahora tenemos que convertir el archivo PDF en un archivo TXT o extraer sólo texto. Por lo tanto, escriba el siguiente código de ejemplo en su archivo de código:
using IronPdf;
using System.Drawing;
// Extracting image and text content from PDF Document
// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
using IronPdf;
using System.Drawing;
// Extracting image and text content from PDF Document
// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
Imports IronPdf
Imports System.Drawing
' Extracting image and text content from PDF Document
' Open a 128-bit encrypted PDF
Private PdfDocument As using
' Get all text to put in a search index
Private allText As String = pdf.ExtractAllText()
Console.WriteLine(allText)
En primer lugar, abra el documento PDF con la funciónfunción `FromFile delclase `PdfDocument. En los parámetros, pase el nombre del archivo y la contraseña(en su caso). A continuación, utilice la funciónfunción "ExtraerTodoTexto para extraer todo el texto del archivo PDF y almacenarlo en una variable llamada allText
. A continuación, muestre el texto de salida en la consola
Texto extraído del documento PDF
Este es el texto de salida extraído por IronPDF. Es el mismo texto que se ve en el archivo PDF, lo que demuestra que la precisión de IronPDF es muy exacta.
Este artículo muestra cómo extraer fácilmente texto de archivos PDF utilizando la biblioteca PDF .NET de IronPDF. Esto se logró escribiendo sólo unas pocas líneas de código y con un alto porcentaje de precisión. Además, IronPDF también tiene muchas funciones útiles, como la conversión de HTML a PDF, herramientas de formateo de PDF y muchas más funciones básicas de PDF que son imprescindibles para la edición de PDF. IronPDF también elimina la dependencia de Adobe Acrobat.
IronPDF es gratuito para fines de desarrollo y también ofrece unprueba gratuita para las pruebas de producción. IronPDF ofrece una variedad de planes de precios que usted puede obtener de acuerdo a sus necesidades. El precio de IronPDF es relativamente inferior al de sus competidores. Con precios que varían de particulares a grandes empresas, resulta ser una compra atractiva con un rendimiento impresionante.
Los planes de precios de la Suite de Iron Software
Además, Iron Software ofrece una suite de cinco paquetes de Iron Software por el precio de sólo dos. Visite la páginaDetalles de las licencias de Iron Software para más información.
9 productos API .NET para sus documentos de oficina