COMPARACIóN DE PRODUCTOS

itext7 Extraer texto de PDF vs IronPDF (Tutorial de ejemplo de código)

Actualizado 2 de febrero, 2023
Compartir:

En este tutorial, aprenderemos a leer datos de PDF (Formato de documento portátil) en C# con ejemplos que utilizan dos herramientas diferentes.

Hay muchas bibliotecas/lectores en línea que pueden extraer texto e imágenes de los PDF. Extraeremos información de un archivo PDF utilizando las dos mejores y más útiles bibliotecas con servicios relevantes hasta la fecha. También compararemos ambas bibliotecas para averiguar cuál de las dos es mejor.

Compararemos iText 7 y IronPDF. Antes de seguir adelante, presentaremos ambas bibliotecas.

iText 7

La biblioteca iText 7 es la última versión de iTextSharp. Se utiliza tanto en aplicaciones .NET como Java. Está equipado con un motor de documentos (como Adobe Acrobat Reader)Además, el programa ofrece funciones de programación de alto y bajo nivel, un receptor de eventos y funciones de edición de PDF. iText 7 puede crear, editar y mejorar páginas de documentos PDF sin ningún error. Otras funciones son añadir contraseñas, crear estrategias de codificación y guardar opciones de permiso en un documento PDF. También se utiliza para añadir o cambiar contenido o imágenes de lienzo, añadir elementos PDF [diccionarios, etc.]También puedes crear marcas de agua y marcadores, cambiar el tamaño de las fuentes y firmar datos confidenciales.

iText 7 nos permite crear aplicaciones personalizadas de procesamiento de PDF para aplicaciones web, móviles, de escritorio, en el núcleo o en la nube en .NET.

IronPDF

IronPDF es una biblioteca desarrollada por Iron Software que ayuda a los ingenieros de software de C# y Java a crear, editar y extraer contenido PDF. Se suele utilizar para generar PDF a partir de HTML, de páginas web o de imágenes. Sirve para leer PDF y extraer su texto. Otras funciones son la adición de encabezados/pies de página, firmas, archivos adjuntos, contraseñas y preguntas de seguridad. Ofrece una optimización total del rendimiento gracias a sus funciones multihilo y asíncronas.

IronPDF tiene compatibilidad multiplataforma con .NET 5, .NET 6 y .NET 7, .NET Core, Standard y Framework. También es compatible con Windows, macOS, Linux, Docker, Azure y AWS.

Veamos ahora una demostración de ambos.

Extraer texto de un archivo PDF con iText 7

Utilizaremos el siguiente archivo PDF para extraer texto del PDF.

Extracción de texto de PDF: iText vs IronPDF - Figura 1: Archivo PDF

IronPDF

Escriba el siguiente código fuente para extraer texto utilizando iText 7.

//asignar la ubicación del PDF a una cadena y crear un nuevo StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
 var pageText = new StringBuilder();
//leer PDF usando new PdfDocument y new PdfReader...
 using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
    {
      var pageNumbers = document.GetNumberOfPages();
       for (int page = 1; page <= pageNumbers; page++)
        {
//new LocationTextExtractionStrategy crea un nuevo renderizador de extracción de texto
    LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
     PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
     parser.ProcessPageContent(document.GetFirstPage());
     pageText.Append(strategy.GetResultantText());
         }
            Console.WriteLine(pageText.ToString());
     }
//asignar la ubicación del PDF a una cadena y crear un nuevo StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
 var pageText = new StringBuilder();
//leer PDF usando new PdfDocument y new PdfReader...
 using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
    {
      var pageNumbers = document.GetNumberOfPages();
       for (int page = 1; page <= pageNumbers; page++)
        {
//new LocationTextExtractionStrategy crea un nuevo renderizador de extracción de texto
    LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
     PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
     parser.ProcessPageContent(document.GetFirstPage());
     pageText.Append(strategy.GetResultantText());
         }
            Console.WriteLine(pageText.ToString());
     }
'asignar la ubicación del PDF a una cadena y crear un nuevo StringBuilder...
Dim pdfPath As String = "D:/TestDocument.pdf"
 Dim pageText = New StringBuilder()
'leer PDF usando new PdfDocument y new PdfReader...
 Using document As New PdfDocument(New PdfReader(pdfPath))
	  Dim pageNumbers = document.GetNumberOfPages()
	   For page As Integer = 1 To pageNumbers
'new LocationTextExtractionStrategy crea un nuevo renderizador de extracción de texto
	Dim strategy As New LocationTextExtractionStrategy()
	 Dim parser As New PdfCanvasProcessor(strategy)
	 parser.ProcessPageContent(document.GetFirstPage())
	 pageText.Append(strategy.GetResultantText())
	   Next page
			Console.WriteLine(pageText.ToString())
 End Using
VB   C#
Extracting Text from PDF: iText vs IronPDF - Figure 2: Salida de texto extraído

Salida de texto extraído

Ahora, vamos a extraer texto de un PDF utilizando IronPDF.

Extraer texto de documentos PDF con IronPDF

El siguiente código fuente muestra el ejemplo de extracción de texto de un PDF utilizando IronPDF.

var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
Dim pdf = PdfDocument.FromFile("D:/TestDocument.pdf")
Dim text As String = pdf.ExtractAllText()
Console.WriteLine(text)
VB   C#
Extracting Text from PDF: iText vs IronPDF - Figure 3: Texto extraído con IronPDF

Texto extraído con IronPDF

Comparación

Con IronPDF, se necesitan dos líneas para extraer texto de los PDF. Con iText 7, en cambio, tenemos que escribir unas 10 líneas de código para la misma tarea.

IronPDF proporciona cómodos métodos de extracción de texto desde el primer momento; pero iText 7 requiere que escribamos nuestra propia lógica para realizar la misma tarea.

IronPDF es eficiente tanto en términos de rendimiento como de legibilidad del código.

Ambas bibliotecas son iguales en términos de precisión, ya que ambas proporcionan un resultado preciso al 100%.

Conclusión

iText 7 está disponible para uso comercial sólo. IronPDF es gratuito para el desarrollo, y también proporciona un prueba gratuita para uso comercial.

Para una comparación más detallada de IronPDF e iText 7, lea esto entrada del blog.

< ANTERIOR
Comparación de productos con IronPDF
SIGUIENTE >
Comparación entre IronPDF y PDFium.NET

¿Listo para empezar? Versión: 2024.7 recién publicada

Descarga gratuita de NuGet Descargas totales: 9,974,197 Ver licencias >
123