USO DE IRONPDF

Cómo leer un PDF línea por línea en C#

Actualizado abril 29, 2024
Compartir:

Puede que piense que los PDF son documentos estáticos, pero cada vez son más dinámicos. Con la ayuda de los PDF, puede crear un documento interactivo y compartible. Puede comprender la estructura del PDF leyendo la "Referencia del formato de documento portátil" en el SDK de Acrobat en el sitio web de Adobe. Las dos razones más comunes para hacer PDFs mediante programación son:

  1. Para boletines y otras publicaciones digitales que requieren gráficos y formatos que no pueden realizarse con PDF listos para imprimir.

  2. Para crear interactividad en libros electrónicos o revistas digitales.

    Leer archivos PDF mediante programación es una tarea difícil porque extraer texto de un archivo PDF no es sencillo. La estructura del PDF es compleja, sobre todo porque también puede incluir imágenes. Entonces, ¿cuál es la solución si los desarrolladores necesitan obtener texto de archivos PDF línea por línea sin utilizar Adobe Acrobat? La respuesta es la biblioteca PDF IronPDF C#. En este tutorial se explica cómo leer archivos PDF mediante programación en C# utilizando la biblioteca IronPDF C#.

Cómo leer un PDF línea por línea en C#

El contenido de este artículo es el siguiente:

  1. IronPDF: Una biblioteca PDF en C#

  2. Pasos para leer documentos PDF

  3. Crear un proyecto C# en Visual Studio

  4. Instale la biblioteca IronPDF con el gestor de paquetes NuGet

  5. Escribir código para leer archivos PDF

  6. Conclusión: la mejor biblioteca para leer PDF

IronPDF: Una biblioteca C# PDF

IronPDF es una biblioteca PDF .NET que ofrece a los desarrolladores una forma sencilla y potente de generar y leer archivos PDF. Se ha diseñado desde cero para que sea compatible con .NET Core, ASP.NET Core y .NET Standard.

IronPDF proporciona a los desarrolladores ricas API para crear, manipular y generar archivos PDF. Los desarrolladores pueden crear mediante programación un nuevo archivo PDF o abrir uno existente utilizando su intuitiva API. La biblioteca admite varios documentos, como imágenes, vídeos, documentos de texto y gráficos vectoriales generados en el documento PDF.

Veamos cómo leer archivos PDF línea por línea con IronPDF.

Crear un proyecto C&num en Visual Studio

Utilizaré Visual Studio 2022 para crear el proyecto C#. Cualquier versión que tengas debería funcionar, pero se recomienda usar la más reciente para una mejor experiencia. IronPDF funciona bien con la última versión del framework de Microsoft, .NET 6. Si necesita mayor compatibilidad y estabilidad, se aconseja utilizar este framework.

A continuación, siga estos pasos para crear un proyecto C# en Microsoft Visual Studio:

  1. Abre Visual Studio 2022.

  2. Haga clic en el botón "Crear un nuevo proyecto" situado en la parte inferior.

  3. Seleccione la plantilla "Aplicación de consola" para este tutorial. Puede utilizar cualquier plantilla según sus necesidades.

  4. Dé un nombre apropiado al proyecto.

  5. Seleccione el .NET Framework 6 porque es el más reciente y tiene soporte ampliado.

  6. Haga clic en el botón "Crear".

    Siguiendo los pasos anteriores, podrá crear fácilmente un proyecto C# en Visual Studio. Ahora es el momento de instalar la biblioteca IronPDF. Puede utilizar un proyecto existente para utilizarlo con la biblioteca IronPDF. Debe abrir una asignación e instalar la biblioteca. En la siguiente sección, aprenderemos a instalar la biblioteca IronPDF.

Instalación de la biblioteca IronPDF

IronPDF admite la instalación de una biblioteca IronPDF de múltiples maneras. IronPDF es una biblioteca que permite su uso en diversos escenarios. Puede instalar el programa con NuGet Package y luego aprovecharlo a través de la consola del gestor de paquetes. Simplemente ejecute el siguiente comando, y la biblioteca IronPDF se instalará en su proyecto:

Install-Package IronPDF

También puede obtener la biblioteca IronPDF C# descargando y extrayendo un archivo ZIP a cualquier carpeta de su disco duro; no requiere instalación. En primer lugar, abra el proyecto de Visual Studio en el que desea instalar IronPDF. Una vez en el IDE, haga clic en Referencias del proyecto en el Explorador de soluciones y haga clic en Añadir referencia. Busque y seleccione el zip "IronPDF" que descargamos anteriormente. Haga clic en el botón "Aceptar" y IronPDF se añadirá como referencia en el proyecto.

Ahora, nuestro proyecto está listo para IronPDF. Empecemos a escribir código para leer documentos PDF línea por línea.

Escribir código para leer un archivo PDF

A continuación le mostraré cómo leer un archivo PDF con sólo dos líneas de código. Las funciones de IronPDF son excelentes y muy eficaces. Veamos un ejemplo de código:

using IronPdf;
using System.Drawing;
//Select the Desired PDF File
using PdfDocument PDF = PdfDocument.FromFile("test.pdf");
//Using ExtractAllText() method, extract every single text from an pdf
string line = PDF.ExtractAllText();
//Get all Images
IEnumerable<Image> AllImages = PDF.ExtractAllImages();
//View text in an Label or textbox
Console.WriteLine(line);
using IronPdf;
using System.Drawing;
//Select the Desired PDF File
using PdfDocument PDF = PdfDocument.FromFile("test.pdf");
//Using ExtractAllText() method, extract every single text from an pdf
string line = PDF.ExtractAllText();
//Get all Images
IEnumerable<Image> AllImages = PDF.ExtractAllImages();
//View text in an Label or textbox
Console.WriteLine(line);
Imports IronPdf
Imports System.Drawing
'Select the Desired PDF File
Private PdfDocument As using
'Using ExtractAllText() method, extract every single text from an pdf
Private line As String = PDF.ExtractAllText()
'Get all Images
Private AllImages As IEnumerable(Of Image) = PDF.ExtractAllImages()
'View text in an Label or textbox
Console.WriteLine(line)
VB   C#

El código anterior nos ayuda a leer el archivo PDF. En el parámetro de "FromFile", damos la ruta del archivo PDF de entrada. A continuación, la función ExtractAllText extrae el texto de todas las páginas del PDF de prueba. Podemos guardar el texto en un archivo de texto o mostrarlo en la consola. Puede ver más tutoriales en Sitio web de IronPDF. Podemos escribir la siguiente función en forma de función para usarla en cualquier parte del programa, así:

private void Extract()
{
    // Select the Desired PDF File
    using PdfDocument PDF = PdfDocument.FromFile("any.pdf");
    //Using ExtractAllText() method, extract every single text from an pdf
    string line = PDF.ExtractAllText();
    //View text in the console
    Console.WriteLine(line);
}
private void Extract()
{
    // Select the Desired PDF File
    using PdfDocument PDF = PdfDocument.FromFile("any.pdf");
    //Using ExtractAllText() method, extract every single text from an pdf
    string line = PDF.ExtractAllText();
    //View text in the console
    Console.WriteLine(line);
}
Private Sub Extract()
	' Select the Desired PDF File
	Using PDF As PdfDocument = PdfDocument.FromFile("any.pdf")
		'Using ExtractAllText() method, extract every single text from an pdf
		Dim line As String = PDF.ExtractAllText()
		'View text in the console
		Console.WriteLine(line)
	End Using
End Sub
VB   C#

Veamos la salida generada por IronPDF.

Texto de salida

Cómo leer un PDF línea por línea en C#: Figura 1

IronPDF extrae el texto perfectamente, sin errores. Los resultados son de primera clase.

Conclusión: La mejor biblioteca para leer PDF

Muchos desarrolladores utilizan diferentes bibliotecas de lectura de PDF en su software u otros programas. Existen múltiples bibliotecas para manipular y leer archivos PDF. Sin embargo, IronPDF es la mejor biblioteca para todas las operaciones que implican PDFs.

Muchos sectores y ámbitos utilizan programas de generación de PDF para generar e imprimir documentos PDF. Muchas bibliotecas del mercado, como la biblioteca PDF Sharp y muchas otras bibliotecas .NET, le permiten crear PDF rápidamente con su contenido. Pero, la mejor biblioteca para la generación programática de PDF es IronPDF. IronPDF ofrece muchas funciones, como cifrado, protección por contraseña y conversión de formatos de MS Office a PDF. Con IronPDF, puede crear fácilmente documentos PDF utilizando estas potentes herramientas.

IronPDF es una biblioteca gratuita, pero hay que pagar para utilizarla comercialmente. Hay disponible un periodo de prueba de 30 días en el que se puede probar en producción. IronPDF está disponible a un precio muy asequible, y actualmente también puede adquirir un juego completo de 5 programas diferentes por el precio de sólo dos. Encontrará toda la información sobre el plan de precios en la página de licencias de IronPDF.

< ANTERIOR
Cómo usar C# para convertir PDF a mapa de bits
SIGUIENTE >
Cómo crear una aplicación de informes en C#

¿Listo para empezar? Versión: 2024.9 acaba de salir

Descarga gratuita de NuGet Descargas totales: 10,591,670 View Licenses >