Saltar al pie de página
USANDO IRONPDF

Tutorial de C#: Construye un Visor de Contenido de Texto PDF con IronPDF (Windows Forms)

En la era digital actual, los archivos PDF son parte integral de muchos flujos de trabajo en educación, negocios y uso personal. Son un formato estándar para compartir y presentar datos diversos, incluidos textos, imágenes y tablas.

Si bien mostrar documentos PDF completos con fidelidad visual completa dentro de una aplicación de C# Windows Forms puede involucrar componentes de renderización dedicados, los desarrolladores a menudo tienen otras necesidades. A veces, el objetivo es leer texto de PDF en C#, extraer datos o mostrar el contenido textual de un PDF para una revisión rápida, indexación o accesibilidad.

Este artículo lo guiará en la creación de una aplicación que se enfoque en esta tarea específica: construir un visor simple de contenido de texto de PDF en C# usando IronPDF, una potente biblioteca .NET. Aprenderás a usar IronPDF para cargar un PDF y extraer y mostrar su contenido textual de manera efectiva en una aplicación de Windows Forms.

¿Qué es IronPDF?

IronPDF es una biblioteca C# integral que permite a los desarrolladores .NET crear, editar y procesar archivos PDF dentro de sus aplicaciones. Permite a los usuarios convertir HTML, imágenes y SVG a documentos PDF, y lo que es importante para este tutorial, leer y extraer contenido de PDFs existentes. IronPDF está diseñado para facilitar su uso y ofrece una amplia gama de funciones para manipular archivos PDF.

Requisitos para crear un visor de texto PDF

Para crear esta aplicación de visualización de texto PDF en C#, necesitarás:

  • Visual Studio: Un entorno de desarrollo integrado (IDE) para crear aplicaciones de Windows Forms.
  • IronPDF: Un paquete NuGet que proporciona la funcionalidad para leer, crear y manipular documentos PDF, incluida la extracción de texto.

Ilustración que muestra el concepto de conversión de HTML a PDF IronPDF también puede crear PDFs desde HTML, una característica separada de la extracción de texto mostrada en este tutorial.

Pasos para crear un visor de contenido de texto PDF en C# con IronPDF

Paso 1: Crear una nueva aplicación Windows Forms en Visual Studio

Para comenzar, inicie Visual Studio y haga clic en "Crear un nuevo proyecto". Seleccione "Windows Forms App (.NET Framework)" o una plantilla similar de .NET de la lista.

Diálogo de nuevo proyecto en Visual Studio Creación de Nuevo Proyecto en Visual Studio

A continuación, proporcione un nombre para su proyecto (por ejemplo, CSharpPdfTextReader) y haga clic en el botón Crear. Esto configurará un nuevo proyecto de aplicación de Windows Forms.

Paso 2: Instalar la librería IronPDF

Uso de la interfaz gráfica de NuGet Package Manager

  1. En el Explorador de Soluciones, haga clic derecho en su proyecto y seleccione "Administrar Paquetes NuGet..."
  2. Vaya a la pestaña "Examinar" y busque "IronPDF".
  3. Seleccione el paquete IronPdf y haga clic en "Instalar".

Administrador de Paquetes NuGet en Visual Studio buscando IronPDF Instalación de IronPDF a través del Administrador de Paquetes NuGet

Uso de la consola del gestor de paquetes NuGet

Alternativamente, abra la Consola del Administrador de Paquetes (Herramientas > Administrador de Paquetes NuGet > Consola del Administrador de Paquetes) y ejecute el comando:

Install-Package IronPdf

Esto descargará e instalará IronPDF y sus dependencias en su proyecto.

Paso 3: Añadir un RichTextBox al formulario para mostrar texto

Usaremos un control RichTextBox para mostrar el contenido de texto extraído del PDF. Un RichTextBox es adecuado para mostrar texto con formato, aunque para este tutorial, su función principal es presentar el texto simple extraído por IronPDF. Muestra eficazmente la información textual sin intentar reproducir el diseño visual original del PDF.

Para agregar un RichTextBox:

  1. Abra su formulario en vista Diseñador.
  2. Vaya a la Caja de Herramientas (Ver > Caja de Herramientas).
  3. Encuentra RichTextBox bajo "Controles Comunes", arrástrelo a su formulario.
  4. Ajuste su tamaño y posición según sea necesario. En la ventana de Propiedades, puede establecer su Nombre (por ejemplo, pdfDataRichTextBox) y establecer su propiedad Dock en Fill si desea que ocupe la mayor parte del formulario.

Visor PDF Aplicación de Windows Formas en C# (Tutorial), Figura 4: Acceso a RickTextBox en Form1 Agregando un RichTextBox a Form1 para mostrar texto extraído de PDF

Paso 4: Añadir un botón para seleccionar el archivo PDF

Agregue un control Button a su formulario. Los usuarios harán clic en este botón para abrir un cuadro de diálogo de archivos y seleccionar un archivo PDF para la extracción de texto.

  1. Arrastre un Button desde la Caja de Herramientas a su formulario.
  2. En la ventana de Propiedades, configure su Nombre (por ejemplo, openBtn) y Text (por ejemplo, "Abrir PDF y Mostrar Texto").

Visor PDF Aplicación de Windows Formas en C# (Tutorial), Figura 5: Agregar un nuevo Botón a Form1 Agregando un Botón a Form1 para iniciar la selección de PDF

Paso 5: Añadir código C# para cargar PDF y extraer texto

Haga doble clic en el botón que acaba de agregar ("Abrir PDF y Mostrar Texto") para crear su controlador de eventos Click en Form1.cs.

Primero, asegúrese de tener el espacio de nombres de IronPDF importado en la parte superior de su archivo Form1.cs:

using IronPdf;
using System; // For EventArgs, Exception
using System.Windows.Forms; // For OpenFileDialog, MessageBox, DialogResult, etc.
using IronPdf;
using System; // For EventArgs, Exception
using System.Windows.Forms; // For OpenFileDialog, MessageBox, DialogResult, etc.
Imports IronPdf
Imports System ' For EventArgs, Exception
Imports System.Windows.Forms ' For OpenFileDialog, MessageBox, DialogResult, etc.
$vbLabelText   $csharpLabel

Ahora, implemente el controlador de eventos para el clic del botón. Este código hará lo siguiente:

  1. Pedir al usuario que seleccione un archivo PDF.
  2. Usar IronPDF para cargar el PDF seleccionado.
  3. Usar el método ExtractAllText() de IronPDF para obtener todo el texto del PDF.
  4. Mostrar este texto extraído en el RichTextBox.
private void openBtn_Click(object sender, EventArgs e)
{
    // Create an OpenFileDialog to open PDF files
    var openFileDialog = new OpenFileDialog
    {
        Filter = "PDF files (*.pdf)|*.pdf|All files (*.*)|*.*", // Filter to show only PDFs
        Title = "Select a PDF file to extract text from" // Dialog title
    };

    // Show dialog and check if the user selected a file
    if (openFileDialog.ShowDialog() == DialogResult.OK)
    {
        try
        {
            // It's recommended to set your license key once at application startup.
            // License.LicenseKey = "YourIronPdfLicenseKey"; 
            // If no key is set, IronPDF runs in trial mode (watermarks on output, time limits).
            // For text extraction, the trial is fully functional for development.

            // Load the selected PDF using IronPDF
            var pdf = PdfDocument.FromFile(openFileDialog.FileName);

            // Extract all text content from the PDF using IronPDF
            string extractedText = pdf.ExtractAllText();

            // Display the extracted text in the RichTextBox
            // (Assuming your RichTextBox is named pdfDataRichTextBox, change if different)
            pdfDataRichTextBox.Text = extractedText; 
        }
        catch (Exception ex)
        {
            // Show error message if an exception occurs
            MessageBox.Show("An error occurred while processing the PDF file: " + ex.Message, "Error", MessageBoxButtons.OK, MessageBoxIcon.Error);
        }
    }
}
private void openBtn_Click(object sender, EventArgs e)
{
    // Create an OpenFileDialog to open PDF files
    var openFileDialog = new OpenFileDialog
    {
        Filter = "PDF files (*.pdf)|*.pdf|All files (*.*)|*.*", // Filter to show only PDFs
        Title = "Select a PDF file to extract text from" // Dialog title
    };

    // Show dialog and check if the user selected a file
    if (openFileDialog.ShowDialog() == DialogResult.OK)
    {
        try
        {
            // It's recommended to set your license key once at application startup.
            // License.LicenseKey = "YourIronPdfLicenseKey"; 
            // If no key is set, IronPDF runs in trial mode (watermarks on output, time limits).
            // For text extraction, the trial is fully functional for development.

            // Load the selected PDF using IronPDF
            var pdf = PdfDocument.FromFile(openFileDialog.FileName);

            // Extract all text content from the PDF using IronPDF
            string extractedText = pdf.ExtractAllText();

            // Display the extracted text in the RichTextBox
            // (Assuming your RichTextBox is named pdfDataRichTextBox, change if different)
            pdfDataRichTextBox.Text = extractedText; 
        }
        catch (Exception ex)
        {
            // Show error message if an exception occurs
            MessageBox.Show("An error occurred while processing the PDF file: " + ex.Message, "Error", MessageBoxButtons.OK, MessageBoxIcon.Error);
        }
    }
}
Private Sub openBtn_Click(ByVal sender As Object, ByVal e As EventArgs)
	' Create an OpenFileDialog to open PDF files
	Dim openFileDialog As New OpenFileDialog With {
		.Filter = "PDF files (*.pdf)|*.pdf|All files (*.*)|*.*",
		.Title = "Select a PDF file to extract text from"
	}

	' Show dialog and check if the user selected a file
	If openFileDialog.ShowDialog() = DialogResult.OK Then
		Try
			' It's recommended to set your license key once at application startup.
			' License.LicenseKey = "YourIronPdfLicenseKey"; 
			' If no key is set, IronPDF runs in trial mode (watermarks on output, time limits).
			' For text extraction, the trial is fully functional for development.

			' Load the selected PDF using IronPDF
			Dim pdf = PdfDocument.FromFile(openFileDialog.FileName)

			' Extract all text content from the PDF using IronPDF
			Dim extractedText As String = pdf.ExtractAllText()

			' Display the extracted text in the RichTextBox
			' (Assuming your RichTextBox is named pdfDataRichTextBox, change if different)
			pdfDataRichTextBox.Text = extractedText
		Catch ex As Exception
			' Show error message if an exception occurs
			MessageBox.Show("An error occurred while processing the PDF file: " & ex.Message, "Error", MessageBoxButtons.OK, MessageBoxIcon.Error)
		End Try
	End If
End Sub
$vbLabelText   $csharpLabel

Desglose del Código:

  • openFileDialog: Un cuadro de diálogo estándar para selección de archivos, filtrado para archivos PDF.
  • PdfDocument.FromFile(openFileDialog.FileName): Este método de IronPDF carga el PDF elegido en un objeto PdfDocument.
  • pdf.ExtractAllText(): Esta es la función clave de IronPDF para este tutorial. Lee todo el PDF y extrae todo el contenido de texto discernible en una sola cadena. Esto es increíblemente útil para escenarios de analizar texto de PDF en C#.
  • pdfDataRichTextBox.Text = extractedText;: El texto extraído se asigna a la propiedad Text de su RichTextBox (asegúrese de que el nombre pdfDataRichTextBox coincida con el nombre que dio a su control RichTextBox).

Esto demuestra cómo IronPDF simplifica la lectura de texto de PDF en C#, permitiendo a los desarrolladores acceder al contenido de PDF de manera programática con un esfuerzo mínimo.

Paso 6: Cree y ejecute su aplicación de visor de texto PDF en C#

  1. En Visual Studio, vaya al menú "Compilar" y seleccione "Compilar Solución".
  2. Una vez que la compilación sea exitosa, presione "F5" o haga clic en el botón "Iniciar" para ejecutar la aplicación.

Aparecerá la ventana de su aplicación. Haga clic en el botón "Abrir PDF y Mostrar Texto", seleccione un archivo PDF de su computadora y haga clic en "Abrir".

Visor PDF Aplicación de Windows Formas en C# (Tutorial), Figura 6: Ejecutar la Aplicación Ejecutando la Aplicación Visor de Texto PDF en C#

El RichTextBox mostrará entonces el contenido de texto extraído del archivo PDF seleccionado.

Visor PDF Aplicación de Windows Formas en C# (Tutorial), Figura 7: Mostrar el contenido del texto después de seleccionar un archivo PDF Contenido de texto extraído del PDF y mostrado en el RichTextBox

Para información sobre cómo renderizar visualmente PDFs en aplicaciones MAUI (que es diferente del enfoque de extracción de texto de este tutorial), puede explorar "Visualización de PDF en Tutorial de MAUI".

Conclusión: Acceder al contenido de texto PDF de forma sencilla con C# e IronPDF

Siguiendo estos pasos, ha creado una aplicación de Windows Forms en C# que extrae y muestra efectivamente el contenido de texto de archivos PDF usando IronPDF. Este enfoque es valioso cuando necesita acceder al texto dentro de los PDFs de manera programática para su visualización, análisis o procesamiento adicional en sus aplicaciones .NET.

IronPDF proporciona capacidades robustas para la extracción de texto de PDF en C#, y es solo una parte de su conjunto de características integral. También puede usar IronPDF para tareas más avanzadas como búsqueda de texto dentro de PDFs, agregar anotaciones, imprimir documentos PDF, cifrado y descifrado de PDF, y editar formularios PDF.

Recuerde, este tutorial se centró en un caso de uso específico: hacer que el texto de PDF sea accesible en una aplicación de C#. Puede adaptar y expandir esta base para cumplir con requisitos más complejos.

Si está interesado en explorar el potencial completo de IronPDF:

  • Sumérjase en la documentación de IronPDF para guías detalladas y ejemplos.
  • Para usar IronPDF en sus aplicaciones de producción sin limitaciones de prueba, se requiere una clave de licencia. Puede comprar una licencia desde el sitio web de IronPDF. Las licencias comienzan desde $799.
  • También puede evaluar la versión comercial completa con una prueba gratuita.

Preguntas Frecuentes

¿Cómo puedo extraer texto de un PDF en una aplicación C#?

Puedes usar el método ExtractAllText() de IronPDF para extraer eficientemente todo el contenido de texto discernible de un documento PDF en tu aplicación C#.

¿Qué herramientas necesito para crear un visor de texto PDF en C#?

Para crear un visor de texto PDF en C#, necesitas Visual Studio como tu entorno de desarrollo y la librería IronPDF, que puedes instalar a través del administrador de paquetes NuGet.

¿Cómo muestro el texto extraído de un PDF en una aplicación de Windows Forms?

Puedes usar un control RichTextBox en tu aplicación de Windows Forms para mostrar el contenido de texto extraído de un PDF, lo que permite la visualización de texto con formato.

¿Cuál es el proceso para seleccionar un archivo PDF en una aplicación C#?

Para seleccionar un archivo PDF, añade un control de Botón a tu formulario que abre un cuadro de diálogo de archivo. Esto permite a los usuarios navegar y seleccionar el archivo PDF que desean procesar.

¿Cómo puedo manejar errores durante el procesamiento de PDF en C#?

Puedes manejar errores encapsulando tu código de procesamiento de PDF dentro de un bloque try-catch, y mostrar mensajes de error usando MessageBox.Show si ocurren excepciones.

¿Qué capacidades adicionales proporciona IronPDF?

IronPDF ofrece capacidades más allá de la extracción de texto, incluyendo la conversión de HTML a PDF, añadir anotaciones, buscar texto, encriptar y desencriptar PDFs, imprimir y editar formularios PDF.

¿Cómo configuro un nuevo proyecto de Windows Forms en Visual Studio para el procesamiento de PDF?

En Visual Studio, selecciona 'Crear un nuevo proyecto' y elige 'Aplicación Windows Forms (.NET Framework)'. Nombra tu proyecto y haz clic en 'Crear' para configurar el proyecto para el procesamiento de PDF.

¿Qué pasos se requieren para ejecutar la aplicación visor de texto PDF en C#?

Selecciona 'Construir Solución' desde el menú Construcción en Visual Studio, luego presiona F5 o haz clic en 'Iniciar' para ejecutar la aplicación. Usa el botón para seleccionar un archivo PDF y mostrar su texto.

¿Puede Usarse IronPDF para la Conversión de HTML a PDF?

Sí, IronPDF puede convertir HTML a PDF usando métodos como RenderHtmlAsPdf para cadenas HTML o RenderHtmlFileAsPdf para archivos HTML.

¿Cuáles son algunos escenarios comunes de resolución de problemas en la extracción de texto de PDF?

Problemas comunes incluyen el manejo de fuentes no estándar o PDFs encriptados. Asegúrate de que el archivo PDF no esté protegido por contraseña y verifica la compatibilidad de fuentes si falla la extracción de texto.

¿IronPDF es compatible con .NET 10?

Sí, IronPDF es compatible con .NET 10 junto con versiones anteriores (como .NET 9, 8, 7, 6, .NET Core, .NET Standard y .NET Framework), lo que significa que puede crear su visor de texto de Windows Forms usando IronPDF en un proyecto .NET 10 sin problemas de compatibilidad.

Curtis Chau
Escritor Técnico

Curtis Chau tiene una licenciatura en Ciencias de la Computación (Carleton University) y se especializa en el desarrollo front-end con experiencia en Node.js, TypeScript, JavaScript y React. Apasionado por crear interfaces de usuario intuitivas y estéticamente agradables, disfruta trabajando con frameworks modernos y creando manuales bien ...

Leer más