COMPARACIóN DE PRODUCTOS

Cómo leer documentos PDF en C# con iTextSharp:

Jordi Bardia

19 de febrero, 2025

Manejar PDFs es una tarea común en el desarrollo de C#, desde extraer texto hasta modificar documentos. iText 7 ha sido durante mucho tiempo una biblioteca de referencia para esto, pero su sintaxis compleja y su pronunciada curva de aprendizaje pueden ralentizar el desarrollo.

IronPDF ofrece una alternativa más simple y eficiente. Con una API intuitiva, conversión de HTML a PDF incorporada y una extracción de texto más sencilla, IronPDF agiliza el manejo de PDF con menos código. En este artículo, compararemos iText 7 e IronPDF, demostrando por qué IronPDF es la opción más inteligente para los desarrolladores de C#.

Entendiendo iText 7: ¡Una visión general

iText 7 (originalmente iTextSharp) es una potente biblioteca de código abierto para trabajar con PDFs en .NET. Proporciona una amplia funcionalidad para crear, modificar, cifrar y extraer contenido de documentos PDF. Muchos desarrolladores confían en él para automatizar flujos de trabajo de documentos, generar informes y manejar tareas de procesamiento de PDF a gran escala.

Una de las mayores fortalezas de iText 7 es su control detallado sobre las estructuras PDF. Admite anotaciones, campos de formulario, marcas de agua y firmas digitales, lo que lo convierte en una herramienta robusta para la manipulación avanzada de documentos. Además, está bien documentado y es ampliamente utilizado, con un sólido respaldo de la comunidad y muchos recursos de terceros disponibles.

Instalando iText 7

Para instalar iText 7 en un proyecto .NET, puedes usar el Administrador de paquetes NuGet en Visual Studio:

Usando la Consola del Administrador de Paquetes NuGet:

Install-Package itext7

Install-Package itext7

'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package itext7

Sin embargo, iText 7 viene con desafíos. Su API compleja requiere más código para tareas comunes como la extracción de texto o la fusión de PDFs. Carece de soporte integrado para la conversión de HTML a PDF, lo que hace que los flujos de trabajo de web a documento sean más difíciles. Además, su licencia AGPL requiere que las empresas adquieran una licencia comercial para evitar los requisitos de distribución de código abierto.

Para los desarrolladores que buscan una API más simplificada y de alto nivel con características modernas, IronPDF ofrece una alternativa convincente.

Presentamos IronPDF: ¡Una Solución Superior

IronPDF es una biblioteca .NET diseñada para hacer la extracción de PDF, manipulación, y generación simples y eficientes. A diferencia de iText 7, que requiere una codificación extensa para muchas operaciones, IronPDF permite a los desarrolladores leer, editar y modificar archivos PDF con un esfuerzo mínimo.

Para la extracción de PDF, IronPDF facilita la extracción de texto, imágenes y datos estructurados de archivos PDF con solo unas pocas líneas de código, lo que simplifica la optimización de tus tareas de extracción de texto con facilidad. Cuando se trata de la manipulación de PDF, IronPDF admite la fusión, la división, la incorporación de marcas de agua y la edición de PDFs sin requerir operaciones complejas de bajo nivel.

Además, IronPDF incluye la conversión nativa de HTML a PDF, lo que facilita la generación de PDF a partir de páginas web o contenido HTML existente. También admite la renderización de JavaScript, firmas digitales y encriptación, proporcionando un conjunto de herramientas completo para aplicaciones modernas.

Con una API más limpia, mejor documentación y soporte comercial, IronPDF es una alternativa amigable para los desarrolladores que simplifica el manejo de PDFs en C#. En las siguientes secciones, compararemos cómo ambas bibliotecas manejan tareas clave de PDF y por qué IronPDF ofrece una mejor experiencia para los desarrolladores de C#.

Instalación

Para poner en funcionamiento IronPDF en tus proyectos de C#, es tan fácil como ejecutar la siguiente línea en el Administrador de Paquetes NuGet:

Install-Package IronPdf

:----

O, alternativamente, yendo a Herramientas > Administrador de paquetes NuGet > Administrar paquetes NuGet para la solución, y buscando IronPDF. Pantalla del Administrador de Paquetes NuGet de IronPDF

A continuación, simplemente haga clic en "Instalar" y IronPDF se añadirá a su proyecto en poco tiempo!

IronPDF vs iText 7 en el Procesamiento de PDF: Comparación de Código

Usar IronPDF para extraer texto

IronPDF simplifica la extracción de texto de PDF, la manipulación y la lectura con una API mucho más amigable para desarrolladores. A diferencia de iText 7, que requiere operaciones de bajo nivel, IronPDF permite la extracción de texto en solo unas pocas líneas de código.

Para demostrar la poderosa herramienta de extracción de texto de IronPDF en acción, tomaré el siguiente documento PDF y extraeré el contenido de su interior.

PDF de muestra para extracción de texto

Ejemplo de Código

using IronPdf;
class Program
{
    static void Main()
    {
        string pdfPath = "sample.pdf";

        var pdf = new PdfDocument(pdfPath);

        string extractedText = pdf.ExtractAllText();

        Console.WriteLine(extractedText);
    }
}

using IronPdf;
class Program
{
    static void Main()
    {
        string pdfPath = "sample.pdf";

        var pdf = new PdfDocument(pdfPath);

        string extractedText = pdf.ExtractAllText();

        Console.WriteLine(extractedText);
    }
}

Imports IronPdf
Friend Class Program
	Shared Sub Main()
		Dim pdfPath As String = "sample.pdf"

		Dim pdf = New PdfDocument(pdfPath)

		Dim extractedText As String = pdf.ExtractAllText()

		Console.WriteLine(extractedText)
	End Sub
End Class

Salida

Salida de consola de IronPDF

Explicación:

IronPDF simplifica la extracción de texto de PDF con su API de alto nivel, eliminando la necesidad de operaciones de bajo nivel. En solo unas pocas líneas de código, IronPDF puede extraer eficientemente todo el texto de un documento PDF, a diferencia de bibliotecas como iText 7, que a menudo requieren iteración manual de páginas y manejo complejo.

En el ejemplo, la clase PdfDocument carga el PDF y el método ExtractAllText() extrae rápidamente todo el texto, optimizando el proceso. Esta es una ventaja importante sobre iText 7, donde tendrías que manejar manualmente páginas y elementos de texto individuales.

Expansión de IronPDF para otras tareas:

Basándose en el ejemplo básico de extracción de texto, la API de alto nivel de IronPDF simplifica otras tareas comunes de PDF, todo mientras mantiene la facilidad de uso y eficiencia:

Extracción de texto de páginas específicas: Si necesita extraer texto de una página o rango específico, IronPDF le permite hacerlo fácilmente. Por ejemplo, para extraer texto de la primera página:

var pdf = new PdfDocument("sample.pdf");

string pageText = pdf.Pages[0].Text;

Console.WriteLine(pageText);

var pdf = new PdfDocument("sample.pdf");

string pageText = pdf.Pages[0].Text;

Console.WriteLine(pageText);

Dim pdf = New PdfDocument("sample.pdf")

Dim pageText As String = pdf.Pages(0).Text

Console.WriteLine(pageText)

Manipulación de PDF: Después de extraer texto o datos de varios PDFs, es posible que desee combinarlos en un solo documento. IronPDF hace que fusionar varios PDFs sea sencillo:

var pdf1 = new PdfDocument("file1.pdf");
var pdf2 = new PdfDocument("file2.pdf");
var combinedPdf = PdfDocument.Merge(pdf1, pdf2);

combinedPdf.SaveAs("combined_output.pdf");

var pdf1 = new PdfDocument("file1.pdf");
var pdf2 = new PdfDocument("file2.pdf");
var combinedPdf = PdfDocument.Merge(pdf1, pdf2);

combinedPdf.SaveAs("combined_output.pdf");

Dim pdf1 = New PdfDocument("file1.pdf")
Dim pdf2 = New PdfDocument("file2.pdf")
Dim combinedPdf = PdfDocument.Merge(pdf1, pdf2)

combinedPdf.SaveAs("combined_output.pdf")

Conversión de PDF a HTML: Si necesitas convertir un PDF de nuevo a HTML para su extracción o manipulación posterior, IronPDF ofrece esta funcionalidad también:

 var pdf = new PdfDocument("sample.pdf");

 string htmlContent = pdf.ToHtmlString();

 var pdf = new PdfDocument("sample.pdf");

 string htmlContent = pdf.ToHtmlString();

Dim pdf = New PdfDocument("sample.pdf")

 Dim htmlContent As String = pdf.ToHtmlString()

Con IronPDF, la extracción de texto es solo el comienzo. La sencilla y poderosa API de la biblioteca se extiende a una amplia gama de tareas de manipulación de PDF, todo en un formato intuitivo y fácil de integrar en su flujo de trabajo.

Leer PDFs con iText 7

iText 7 requiere trabajar con lectores de PDF, flujos y procesamiento de datos a nivel de bytes. Extraer texto no es sencillo, ya que implica iterar a través de las páginas del PDF y manejar diversas estructuras manualmente. En este ejemplo de código, usaremos el mismo documento PDF que en la sección de IronPDF.

using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;

class Program
{
    static void Main()
    {

        string pdfPath = "sample.pdf";
        string extractedText = ExtractTextFromPdf(pdfPath);
        Console.WriteLine(extractedText);
    }

    static string ExtractTextFromPdf(string pdfPath)
    {
        using (PdfReader reader = new PdfReader(pdfPath))
        using (iText.Kernel.Pdf.PdfDocument pdfDoc = new iText.Kernel.Pdf.PdfDocument(reader))
        {
            string text = "";
            for (int i = 1; i <= pdfDoc.GetNumberOfPages(); i++)
            {
                text += PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(i)) + Environment.NewLine;
            }
            return text;
        }
    }
}

using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;

class Program
{
    static void Main()
    {

        string pdfPath = "sample.pdf";
        string extractedText = ExtractTextFromPdf(pdfPath);
        Console.WriteLine(extractedText);
    }

    static string ExtractTextFromPdf(string pdfPath)
    {
        using (PdfReader reader = new PdfReader(pdfPath))
        using (iText.Kernel.Pdf.PdfDocument pdfDoc = new iText.Kernel.Pdf.PdfDocument(reader))
        {
            string text = "";
            for (int i = 1; i <= pdfDoc.GetNumberOfPages(); i++)
            {
                text += PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(i)) + Environment.NewLine;
            }
            return text;
        }
    }
}

Imports iText.Kernel.Pdf
Imports iText.Kernel.Pdf.Canvas.Parser

Friend Class Program
	Shared Sub Main()

		Dim pdfPath As String = "sample.pdf"
		Dim extractedText As String = ExtractTextFromPdf(pdfPath)
		Console.WriteLine(extractedText)
	End Sub

	Private Shared Function ExtractTextFromPdf(ByVal pdfPath As String) As String
		Using reader As New PdfReader(pdfPath)
		Using pdfDoc As New iText.Kernel.Pdf.PdfDocument(reader)
			Dim text As String = ""
			Dim i As Integer = 1
			Do While i <= pdfDoc.GetNumberOfPages()
				text &= PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(i)) & Environment.NewLine
				i += 1
			Loop
			Return text
		End Using
		End Using
	End Function
End Class

Salida

Salida de consola de iText 7

Explicación:

El PdfReader carga el archivo PDF para lectura.
El objeto PdfDocument permite iterar a través de las páginas.
PdfTextExtractor.GetTextFromPage() recupera texto de cada página.
El texto final se almacena en una cadena y se muestra.
Este método funciona, pero requiere iteración manual y puede ser engorroso para documentos estructurados o PDFs escaneados.

Comparación entre iText 7 e IronPDF

Mientras que iText 7 requiere una codificación detallada para realizar operaciones PDF, IronPDF simplifica estas tareas con métodos directos. Por ejemplo, extraer texto de un PDF con iText 7 implica múltiples pasos y extenso código, mientras que IronPDF lo logra en solo unas pocas líneas. Además, el soporte de IronPDF para la conversión de HTML a PDF es más robusto, manejando HTML, CSS y JavaScript complejos sin problemas.

$Tabla resumen de la biblioteca C\#$

Conclusiones Clave

IronPDF simplifica las tareas de lectura y manipulación de PDF con una API más intuitiva y optimizada, requiriendo menos código para realizar operaciones comunes.
La extracción de texto de IronPDF es mucho más fácil de implementar que el proceso de iteración más complejo de iTextSharp, ahorrando tiempo a los desarrolladores.
La licencia perpetua de IronPDF es mucho más amigable para los negocios, ofreciendo menos restricciones en comparación con la licencia AGPL de iTextSharp.
IronPDF tiene una mejor documentación que es más accesible para una resolución rápida de problemas, lo que lo hace ideal para los desarrolladores que quieren soluciones rápidas sin tener que pasar por recursos excesivos.

Optimizando su flujo de trabajo con IronPDF

IronPDF ofrece un conjunto de potentes características que van más allá de la simple lectura de PDF. Estas características lo convierten en una solución robusta para desarrolladores que buscan optimizar sus flujos de trabajo con PDF. Aquí está cómo IronPDF puede mejorar su proceso de desarrollo:

1. Extracción de texto de archivos PDF

IronPDF permite la extracción fácil de texto de archivos PDF, lo que lo hace ideal para flujos de trabajo que involucran análisis de documentos, extracción de datos o indexación de contenido. Con IronPDF, puedes extraer texto rápidamente de archivos PDF y usarlo en tus aplicaciones sin tener que lidiar con una interpretación compleja.

2. Creación de PDF

IronPDF facilita la generación de archivos PDF desde cero, ya sea que estés creando informes, facturas u otros tipos de documentos. La herramienta también admite la conversión de HTML a PDF, lo que le permite aprovechar el contenido web existente y generar PDFs bien formateados. Esto es perfecto para escenarios en los que necesitas convertir páginas web o contenido HTML dinámico en archivos PDF descargables.

3. Funciones avanzadas de PDF

Más allá de la extracción básica de texto y la creación de PDF, IronPDF admite funciones avanzadas como completar formularios PDF, agregar anotaciones y manipular el contenido del documento. Estas capacidades son útiles en industrias como la legal, financiera o educativa, donde los formularios y la retroalimentación son una parte regular del flujo de trabajo.

4. Procesamiento por lotes

IronPDF es adecuado para procesar grandes cantidades de archivos PDF. Ya sea que estés extrayendo información de cientos de documentos o convirtiendo múltiples archivos HTML a PDFs, IronPDF puede automatizar estas tareas y manejarlas de manera eficiente, ahorrando tanto tiempo como esfuerzo.

5. Automatización y Eficiencia

IronPDF simplifica las tareas de manipulación de PDF que a menudo consumen mucho tiempo y son repetitivas. Al automatizar tareas como la extracción de texto de PDF, el llenado de formularios o la conversión por lotes, los desarrolladores pueden enfocarse en aspectos más complejos de sus proyectos mientras dejan que IronPDF se encargue del trabajo pesado.

Soporte técnico y recursos comunitarios

Para garantizar que los desarrolladores puedan aprovechar al máximo IronPDF, la herramienta cuenta con un sólido soporte y recursos comunitarios:

Soporte Técnico: IronPDF ofrece soporte directo a través de correo electrónico y un sistema de tickets, proporcionando asistencia para cualquier desafío técnico o de implementación.
Recursos Comunitarios: El sitio web de IronPDF incluye documentación extensa, tutoriales y publicaciones en el blog. Los desarrolladores también pueden encontrar soluciones y compartir conocimientos a través de GitHub y Stack Overflow, donde la comunidad discute activamente las mejores prácticas y consejos para la resolución de problemas.

Conclusión

En este artículo, hemos explorado las capacidades de IronPDF como una potente y fácil de usar librería de manejo de PDF para desarrolladores .NET. Lo comparamos con iText 7, destacando cómo IronPDF simplifica tareas complejas, como la extracción de texto y la manipulación de PDF. La API limpia y las funciones avanzadas de IronPDF, que incluyen edición, marca de agua y firmas digitales, lo convierten en una solución superior para los flujos de trabajo modernos de PDF.

A diferencia de iText 7, que requiere una codificación complicada para tareas comunes de PDF, IronPDF le permite realizar operaciones complejas con un código mínimo, ahorrando tiempo y esfuerzo a los desarrolladores. Ya sea que estés trabajando con documentos escaneados, generando PDFs a partir de HTML o agregando marcas de agua personalizadas, IronPDF ofrece una forma intuitiva y eficiente de manejarlo todo.

Si estás buscando optimizar tus flujos de trabajo con PDF y aumentar la productividad en tus proyectos de C#, IronPDF es la elección ideal.

Le invitamos a descargar IronPDF y probarlo por usted mismo. Con una prueba gratuita disponible, puedes experimentar de primera mano lo fácil que es integrar IronPDF en tus aplicaciones y comenzar a beneficiarte de sus potentes características hoy.

Haz clic a continuación para comenzar tu prueba gratuita:

Comience su prueba gratuita con IronPDF
Obtenga más información sobre las características y precios de IronPDF
¡No esperes más! Desbloquea el potencial de un manejo fluido de PDFs con IronPDF.

Jordi Bardia

Chatea con el equipo de ingeniería ahora

Ingeniero de software

Jordi es más competente en Python, C# y C++, cuando no está aprovechando sus habilidades en Iron Software; está programando juegos. Compartiendo responsabilidades en las pruebas de productos, el desarrollo de productos y la investigación, Jordi añade un inmenso valor a la mejora continua de los productos. La variada experiencia le mantiene desafiado y comprometido, y dice que es uno de sus aspectos favoritos de trabajar con Iron Software. Jordi creció en Miami, Florida, y estudió Informática y Estadística en la Universidad de Florida.

< ANTERIOR
Cómo añadir números de página en PDF con iTextSharp en C#

SIGUIENTE >
Alternativas a iTextSharp Read PDF (Tutorial para desarrolladores)