COMPARACIóN DE PRODUCTOS

itext7 Extraer texto de PDF vs IronPDF (Tutorial de ejemplo de código)

Publicado en 2 de febrero, 2023
Compartir:

En este tutorial, aprenderemos a leer datos de un PDF(Formato de documento portátil) en C# con ejemplos que utilizan dos herramientas diferentes.

Hay muchas bibliotecas/lectores en línea que pueden extraer texto e imágenes de los PDF. Extraeremos información de un archivo PDF utilizando las dos mejores y más útiles bibliotecas con servicios relevantes hasta la fecha. También compararemos ambas bibliotecas para averiguar cuál de las dos es mejor.

Compararemos iText 7 y IronPDF. Antes de seguir adelante, presentaremos ambas bibliotecas.

iText 7

La biblioteca iText 7 es la última versión de iTextSharp. Se utiliza tanto en aplicaciones .NET como Java. Está equipado con un motor de documentos(como Adobe Acrobat Reader)Además, el programa ofrece funciones de programación de alto y bajo nivel, un receptor de eventos y funciones de edición de PDF. iText 7 puede crear, editar y mejorar páginas de documentos PDF sin ningún error. Otras funciones incluyen la adición de contraseñas, la creación de estrategias de codificación y el almacenamiento de opciones de permiso en un documento PDF. También se utiliza para añadir o cambiar contenido o imágenes de lienzo, añadir elementos PDF [diccionarios, etc.]También puedes crear marcas de agua y marcadores, cambiar el tamaño de las fuentes y firmar datos confidenciales.

iText 7 nos permite crear aplicaciones personalizadas de procesamiento de PDF para aplicaciones web, móviles, de escritorio, en el núcleo o en la nube en .NET.

IronPDF

IronPDF es una biblioteca desarrollada por Iron Software que ayuda a los ingenieros de software de C# y Java a crear, editar y extraer contenido PDF. Se suele utilizar para generar PDF a partir de HTML, de páginas web o de imágenes. Sirve para leer PDF y extraer su texto. Otras funciones son la adición de encabezados/pies de página, firmas, archivos adjuntos, contraseñas y preguntas de seguridad. Ofrece una optimización total del rendimiento gracias a sus funciones multihilo y asíncronas.

IronPDF tiene compatibilidad multiplataforma con .NET 5, .NET 6 y .NET 7, .NET Core, Standard y Framework. También es compatible con Windows, macOS, Linux, Docker, Azure y AWS.

Veamos ahora una demostración de ambos.

Extraer texto de un archivo PDF con iText 7

Utilizaremos el siguiente archivo PDF para extraer texto del PDF.

Extracción de texto de PDF: iText vs IronPDF - Figura 1: Archivo PDF

IronPDF

Escriba el siguiente código fuente para extraer texto utilizando iText 7.

//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
 var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
 using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
    {
      var pageNumbers = document.GetNumberOfPages();
       for (int page = 1; page <= pageNumbers; page++)
        {
//new LocationTextExtractionStrategy creates a new text extraction renderer
    LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
     PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
     parser.ProcessPageContent(document.GetFirstPage());
     pageText.Append(strategy.GetResultantText());
         }
            Console.WriteLine(pageText.ToString());
     }
//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
 var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
 using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
    {
      var pageNumbers = document.GetNumberOfPages();
       for (int page = 1; page <= pageNumbers; page++)
        {
//new LocationTextExtractionStrategy creates a new text extraction renderer
    LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
     PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
     parser.ProcessPageContent(document.GetFirstPage());
     pageText.Append(strategy.GetResultantText());
         }
            Console.WriteLine(pageText.ToString());
     }
'assign PDF location to a string and create new StringBuilder...
Dim pdfPath As String = "D:/TestDocument.pdf"
 Dim pageText = New StringBuilder()
'read PDF using new PdfDocument and new PdfReader...
 Using document As New PdfDocument(New PdfReader(pdfPath))
	  Dim pageNumbers = document.GetNumberOfPages()
	   For page As Integer = 1 To pageNumbers
'new LocationTextExtractionStrategy creates a new text extraction renderer
	Dim strategy As New LocationTextExtractionStrategy()
	 Dim parser As New PdfCanvasProcessor(strategy)
	 parser.ProcessPageContent(document.GetFirstPage())
	 pageText.Append(strategy.GetResultantText())
	   Next page
			Console.WriteLine(pageText.ToString())
 End Using
VB   C#
Extracción de texto de PDF: iText vs IronPDF - Figura 2: Salida de texto extraído

Salida de texto extraído

Ahora, vamos a extraer texto de un PDF utilizando IronPDF.

Extraer texto de documentos PDF con IronPDF

El siguiente código fuente muestra el ejemplo de extracción de texto de un PDF utilizando IronPDF.

var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
Dim pdf = PdfDocument.FromFile("D:/TestDocument.pdf")
Dim text As String = pdf.ExtractAllText()
Console.WriteLine(text)
VB   C#
Extracción de texto de PDF: iText vs IronPDF - Figura 3: Texto extraído usando IronPDF

Texto extraído con IronPDF

Comparación

Con IronPDF, se necesitan dos líneas para extraer texto de los PDF. Con iText 7, en cambio, tenemos que escribir unas 10 líneas de código para la misma tarea.

IronPDF proporciona cómodos métodos de extracción de texto desde el primer momento; pero iText 7 requiere que escribamos nuestra propia lógica para realizar la misma tarea.

IronPDF es eficiente tanto en términos de rendimiento como de legibilidad del código.

Ambas bibliotecas son iguales en términos de precisión, ya que ambas proporcionan un resultado preciso al 100%.

Conclusión

iText 7 está disponible para uso comercial sólo. IronPDF es gratuito para el desarrollo y también proporciona un prueba gratuita para uso comercial.

Para una comparación más detallada de IronPDF e iText 7, lea esto entrada de blog sobre IronPDF vs. iText 7.

< ANTERIOR
Comparación de productos con IronPDF
SIGUIENTE >
Comparación entre IronPDF y PDFium.NET

¿Listo para empezar? Versión: 2024.12 acaba de salir

Descarga gratuita de NuGet Descargas totales: 11,622,374 Ver licencias >