C# Convertir PDF a Texto (Ejemplo de Código)
Este artículo describe el proceso para que los desarrolladores de .NET conviertan archivos PDF en formato TXT para un acceso más eficiente.
Cómo convertir un PDF en un archivo de texto con C#
- Descargar la biblioteca Convertir PDF a texto C#
- Crear un Nuevo Proyecto en Visual Studio
- Instalar Librería en tu Proyecto
- Abrir el documento PDF usando la función PdfDocument.FromFile
- Ver texto de salida extraído
Temas tratados en el tutorial
- IronPDF
- Pasos para Crear Archivos PDF Prográficamente
- Paso 1: Crear un Proyecto C#
- Paso 2: Instalar la Biblioteca IronPDF
- Método 1: Administrador de Paquetes NuGet
- Método 2: Consola del Administrador de Paquetes NuGet
- Método 3: Usando el Archivo DLL
- Paso 3: Agregar el Espacio de Nombres de IronPDF
- Paso 4: Convertir PDF a Texto
- Salida
- Conclusión
HierroPDF
IronPDF es una biblioteca .NET para la generación de PDF. Es una biblioteca nativa de .NET y no depende de DLL externas u otras herramientas. IronPDF es una biblioteca multiplataforma escrita en C# y .NET que ofrece todas las funcionalidades necesarias para trabajar con documentos PDF. Contiene renderizado de documentos, edición de formularios, extracción de texto, encriptación de archivos, así como otras características. Todas estas operaciones se pueden realizar a través de una API intuitiva que ha sido ampliamente probada en diversas plataformas como Windows Forms, WPF, ASP.NET MVC, etc.
La versión actual de IronPDF proporciona acceso sencillo a estas características:
- Generación de PDF
- Encriptación de PDF
- Campos de formulario PDF con plantillas y lógica de validación
- Extracción de texto de PDFs (OCR)
- Formularios rellenables
Acceso solo lectura a los internos del documento (vista, navegación, anotaciones):
Acceso a los metadatos y propiedades del documento (título, palabras clave, autor, tema):
IronPDF también contiene algunas clases auxiliares adicionales que ayudan convirtiendo documentos HTML en archivos PDF completamente formateados con extracción de texto. IronPDF proporciona API muy simples para convertir PDF a un archivo de texto.
Comencemos con cómo usar la biblioteca IronPDF para convertir un documento PDF a un archivo de texto.
Pasos para convertir un documento PDF en un archivo de texto
El primer paso es crear un proyecto C# en Visual Studio. Puedes elegir cualquier plantilla de Aplicación C# según tus necesidades. Para fines de simplicidad, este tutorial usará la plantilla de Aplicación de Consola. Puedes usar un proyecto C# ya existente para convertir archivos PDF a TXT.
Paso 1: Crear un proyecto C
Crea un proyecto C# en Visual Studio o abre un proyecto existente. Se recomienda la última versión de Visual Studio para un funcionamiento sin problemas. Sigue los pasos dados para crear un Proyecto C# en Visual Studio.
- Abre Visual Studio.
- Selecciona la plantilla de Aplicación de Consola de C# o abre un proyecto existente.
- Dale un nombre adecuado al proyecto.
- Selecciona la versión .NET Framework 6.0. Este es el framework más reciente y estable de .NET, pero puedes elegir cualquier otro Framework de .NET según tus necesidades.
Paso 2: Instalar la librería IronPDF
IronPDF también cuenta con un proceso de instalación fácil que acelera el tiempo de desarrollo y reduce la confusión. La biblioteca IronPDF ofrece múltiples formas de instalar:
- Usando el Administrador de Paquetes NuGet
- Usando la Consola del Administrador de Paquetes NuGet
- Con el Archivo DLL
Método 1: Gestor de paquetes NuGet
Para usar el Administrador de Paquetes NuGet, sigue los pasos dados para abrir la pestaña del Administrador de Paquetes.
Abre el proyecto C# y haz clic en Herramientas > Administrador de Paquetes NuGet > Administrar NuGet Packages para la solución.
Navegar al Administrador de Paquetes NuGet
- Ahora ve a la pestaña de Explorar y busca IronPDF.
- Selecciona IronPDF de los resultados de búsqueda y haz clic en Instalar. Esto instalará la biblioteca IronPDF permitiendo que el proyecto se use con la biblioteca IronPDF.
Paquete IronPdf del resultado de búsqueda del Administrador de Paquetes NuGet
Método 2: Consola del gestor de paquetes NuGet
La instalación de la biblioteca IronPDF con la Consola del Administrador de Paquetes es la manera más fácil. Sigue estos simples pasos:
- Abre la Consola del Administrador de Paquetes.
- Escribe la siguiente línea en la consola y presiona enter. Esto instalará inmediatamente la biblioteca IronPDF.
Install-Package IronPdf
El progreso de instalación mostrado en la UI de la Consola del Administrador de Paquetes NuGet
Método 3: Utilizar un archivo DLL
Puedes descargar el archivo DLL de IronPDF desde el sitio web de Iron Software. Una vez completada la descarga, úsalo en tu proyecto como referencia.
Visita la guía de instalación de IronPDF para una guía de instalación más detallada.
La instalación para la biblioteca IronPDF ahora está completa. Los siguientes pasos te guiarán para convertir un archivo PDF a un archivo de texto.
Paso 3: Añadir el espacio de nombres IronPDF
Para usar IronPDF, es necesario agregar el espacio de nombres IronPDF a cada archivo de código. Escribe la siguiente línea de código en la parte superior de cada archivo de código relacionado. Te permitirá usar las características de IronPDF en tu programa.
using IronPdf;using IronPdf;Imports IronPdfPaso 4: Convertir el documento PDF en un archivo de texto
Ahora tenemos que convertir el archivo PDF a un archivo TXT o extraer solo el texto. Entonces, escribe el siguiente código de ejemplo en tu archivo de código:
using IronPdf;
using System;
class Program
{
static void Main()
{
// Extracting image and text content from PDF Document
// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
// Display the extracted text in the console
Console.WriteLine(allText);
}
}using IronPdf;
using System;
class Program
{
static void Main()
{
// Extracting image and text content from PDF Document
// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
// Display the extracted text in the console
Console.WriteLine(allText);
}
}Imports IronPdf
Imports System
Friend Class Program
Shared Sub Main()
' Extracting image and text content from PDF Document
' Open a 128-bit encrypted PDF
Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
' Get all text to put in a search index
Dim allText As String = pdf.ExtractAllText()
' Display the extracted text in the console
Console.WriteLine(allText)
End Using
End Sub
End ClassPrimero, abre el documento PDF usando la función FromFile de la clase PdfDocument. En los parámetros, pasa el nombre del archivo y la contraseña (si la hay). Después de eso, usa la función ExtractAllText para extraer todo el texto del archivo PDF y almacenarlo en una variable llamada allText. A continuación, muestra el texto de salida en la consola.
Resultado
El texto extraído del documento PDF
Este es el texto de salida extraído por IronPDF. Es el mismo texto que se ve en el archivo PDF, mostrando que la precisión de IronPDF es muy precisa.
Conclusión
Este artículo muestra cómo extraer fácilmente texto de archivos PDF usando la biblioteca PDF .NET de IronPDF. Esto se logró con solo escribir unas pocas líneas de código y con un alto porcentaje de precisión. Además, IronPDF también tiene muchas características útiles como conversión de HTML a PDF, herramientas de formato de PDF y muchas más características básicas de PDF que son imprescindibles para la edición de PDF. IronPDF también elimina la dependencia de Adobe Acrobat.
IronPDF es gratuito para fines de desarrollo y también ofrece una prueba gratuita para pruebas de producción. IronPDF ofrece una variedad de planes de precios que puedes obtener según tus necesidades. El precio de IronPDF es relativamente significativamente menor que el de sus competidores. Con variación de precios desde individuos hasta grandes empresas, resulta ser una compra convincente con un rendimiento impresionante.
Los planes de precios para la Suite de Iron Software
Además, Iron Software ofrece un paquete de cinco paquetes de Iron Software por el precio de solo dos. Por favor visita los detalles de licencias de Iron Software para más información.
Preguntas Frecuentes
¿Cómo puedo convertir un documento PDF a texto en una aplicación C#?
Puedes usar IronPDF para convertir un documento PDF a texto en una aplicación C# utilizando el método PdfDocument.FromFile para cargar el PDF y luego llamando al método ExtractAllText para recuperar el contenido del texto.
¿Cuál es el proceso para configurar IronPDF en un proyecto C# de Visual Studio?
Para configurar IronPDF en un proyecto C# de Visual Studio, necesitas crear un nuevo proyecto, instalar IronPDF a través del Administrador de Paquetes NuGet, la Consola del Administrador de Paquetes, o añadiendo el DLL manualmente, y luego incluir el espacio de nombres IronPDF en tus archivos de código.
¿Puede IronPDF manejar archivos PDF encriptados?
Sí, IronPDF puede abrir y procesar archivos PDF encriptados, permitiéndote extraer contenido de texto de ellos.
¿Cuáles son los beneficios de convertir PDF a formato TXT?
Convertir PDF a formato TXT usando IronPDF permite una mejor accesibilidad y una manipulación más fácil de los datos de texto, lo cual es beneficioso para aplicaciones que requieren procesamiento o búsqueda de texto.
¿Cómo asegura IronPDF la precisión en la extracción de texto de los PDFs?
IronPDF asegura una alta precisión en la extracción de texto manteniendo la integridad del texto tal como aparece en el PDF, proporcionando un resultado fiable para un procesamiento posterior.
¿Hay una prueba gratuita disponible para probar la librería IronPDF?
Sí, IronPDF ofrece una prueba gratuita para fines de desarrollo y prueba, permitiéndote evaluar sus características y capacidades antes de realizar una compra.
¿Qué hace a IronPDF una opción adecuada para el desarrollo multiplataforma?
IronPDF está escrito en C# y .NET, lo que lo hace una opción adecuada para el desarrollo multiplataforma sin la necesidad de herramientas externas adicionales.
¿Se puede usar IronPDF para propósitos diferentes a la extracción de texto?
Sí, IronPDF ofrece una variedad de características más allá de la extracción de texto, incluyendo generación de PDF, encriptación de documentos, manejo de formularios y conversión de HTML a PDF.
¿Qué tan bien soporta IronPDF for .NET 10 para la conversión de PDF a texto?
IronPDF es totalmente compatible con .NET 10, lo que lo permite desde el primer momento sin necesidad de ninguna configuración especial. Al usar IronPDF en .NET 10 para convertir archivos PDF a texto, se beneficia de mejoras de rendimiento como la reducción de las asignaciones de montón y mejoras en el tiempo de ejecución que permiten una extracción más rápida y un uso más eficiente de la memoria.
¿Qué plataformas y tipos de proyectos son compatibles al utilizar IronPDF con .NET 10?
IronPDF for .NET 10 es compatible con una amplia variedad de plataformas, como Windows (10+, Server), macOS, Linux y entornos de contenedores. Funciona con proyectos de consola, escritorio (WPF, MAUI) y web (MVC, Blazor) y es compatible con lenguajes como C#, F# y VB.NET.






