C# Leer PDF Tutorial

Hoy veremos una forma sencilla de leer contenido PDF y extraer texto en su formato original, de documentos enteros o de páginas específicas, todo dentro de su proyecto C#.


Primer paso

1. Instalar IronPDF

Su primer paso para leer un archivo PDF en C# será instalar IronPDF, una biblioteca PDF en C# que le ofrece capacidades completas de generación, edición y manipulación de sus documentos en .NET.

Puede descargar el software o acceder a través del Página NuGet. IronPDF es gratuito para el desarrollo y puede utilizarlo en su proyecto durante este tutorial.

Install-Package IronPdf

Tutorial

2. Leer archivo PDF en C#

Al abrir IronPDF, puede ver que la biblioteca tiene una gran funcionalidad para facilitar el trabajo con PDF. No dude en explorar todas las clases y funciones.

Usando esta librería de C#, podemos leer archivos PDF, extraer contenido, e incluso extraer imágenes originales y de alta calidad. Vea en los ejemplos siguientes las muchas formas en que podemos utilizar distintas funciones para satisfacer nuestras necesidades de lectura de PDF en un entorno .NET.

/**
Read PDF File
anchor-read-pdf-file-in-c-num
**/
using IronPdf;
using System.Collections.Generic;
using System.Drawing;
using System.Linq;
using System.Windows.Forms;

namespace readpdf
{
    public partial class Form1 : Form
    {
        public Form1()
        {
            InitializeComponent();

            //Seleccione el archivo PDF deseado
            using PdfDocument PDF = PdfDocument.FromFile("any.pdf");

            //Usando el método ExtractAllText(), extrae cada texto de un pdf
            string AllText = PDF.ExtractAllText();
            //Ver texto en una etiqueta o cuadro de texto
            label2.Text = AllText;

            //Obtener todas las imágenes
            IEnumerable<Image> AllImages = PDF.ExtractAllImages();
            //Ver imagen en un PictureBox
            pictureBox1.Image = AllImages.First();

            //Else Combinar ambas funcionalidades usando PageCount
            for (var index = 0; index < PDF.PageCount; index++)
            {
                int PageNumber = index + 1;
                string Text = PDF.ExtractTextFromPage(index);
                IEnumerable<Image> Images = PDF.ExtractImagesFromPage(index);
            }

        }
    }
}
/**
Read PDF File
anchor-read-pdf-file-in-c-num
**/
using IronPdf;
using System.Collections.Generic;
using System.Drawing;
using System.Linq;
using System.Windows.Forms;

namespace readpdf
{
    public partial class Form1 : Form
    {
        public Form1()
        {
            InitializeComponent();

            //Seleccione el archivo PDF deseado
            using PdfDocument PDF = PdfDocument.FromFile("any.pdf");

            //Usando el método ExtractAllText(), extrae cada texto de un pdf
            string AllText = PDF.ExtractAllText();
            //Ver texto en una etiqueta o cuadro de texto
            label2.Text = AllText;

            //Obtener todas las imágenes
            IEnumerable<Image> AllImages = PDF.ExtractAllImages();
            //Ver imagen en un PictureBox
            pictureBox1.Image = AllImages.First();

            //Else Combinar ambas funcionalidades usando PageCount
            for (var index = 0; index < PDF.PageCount; index++)
            {
                int PageNumber = index + 1;
                string Text = PDF.ExtractTextFromPage(index);
                IEnumerable<Image> Images = PDF.ExtractImagesFromPage(index);
            }

        }
    }
}
'''
'''Read PDF File
'''anchor-read-pdf-file-in-c-num
'''*
Imports IronPdf
Imports System.Collections.Generic
Imports System.Drawing
Imports System.Linq
Imports System.Windows.Forms

Namespace readpdf
	Partial Public Class Form1
		Inherits Form

		Public Sub New()
			InitializeComponent()

			'Seleccione el archivo PDF deseado
			Using PDF As PdfDocument = PdfDocument.FromFile("any.pdf")
	
				'Usando el método ExtractAllText(), extrae cada texto de un pdf
				Dim AllText As String = PDF.ExtractAllText()
				'Ver texto en una etiqueta o cuadro de texto
				label2.Text = AllText
	
				'Obtener todas las imágenes
				Dim AllImages As IEnumerable(Of Image) = PDF.ExtractAllImages()
				'Ver imagen en un PictureBox
				pictureBox1.Image = AllImages.First()
	
				'Else Combinar ambas funcionalidades usando PageCount
				For index = 0 To PDF.PageCount - 1
					Dim PageNumber As Integer = index + 1
					Dim Text As String = PDF.ExtractTextFromPage(index)
					Dim Images As IEnumerable(Of Image) = PDF.ExtractImagesFromPage(index)
				Next index
	
			End Using
		End Sub
	End Class
End Namespace
VB   C#

3. Salida PDF

Hemos utilizado un formulario en C# para mostrarle el resultado perfecto de la lectura del contenido del PDF. Con este enfoque, se trata de simplificar y utilizar la menor cantidad de código posible para satisfacer las necesidades de su proyecto.

~ PDF ~

~ C# Form ~


Acceso rápido a la biblioteca

Documentación de la biblioteca

La documentación de la biblioteca IronPDF está disponible en la práctica Referencia de la API para que pueda explorarla y compartirla.

Documentación de la biblioteca