Leer archivos PDF en C#

VB C#

using IronPdf;
using IronSoftware.Drawing;
using System.Collections.Generic;

// Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
var pdf = PdfDocument.FromFile("encrypted.pdf", "password");

// Get all text to put in a search index
string text = pdf.ExtractAllText();

// Get all Images
var allImages = pdf.ExtractAllImages();

// Or even find the precise text and images for each page in the document
for (var index = 0 ; index < pdf.PageCount ; index++)
{
    int pageNumber = index + 1;
    text = pdf.ExtractTextFromPage(index);
    List<AnyBitmap> images = pdf.ExtractBitmapsFromPage(index);
    //...
}

Imports IronPdf
Imports IronSoftware.Drawing
Imports System.Collections.Generic

' Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private pdf = PdfDocument.FromFile("encrypted.pdf", "password")

' Get all text to put in a search index
Private text As String = pdf.ExtractAllText()

' Get all Images
Private allImages = pdf.ExtractAllImages()

' Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim pageNumber As Integer = index + 1
	text = pdf.ExtractTextFromPage(index)
	Dim images As List(Of AnyBitmap) = pdf.ExtractBitmapsFromPage(index)
	'...
Next index

Install-Package IronPdf

Leer archivos PDF en C#

El método PdfDocument.ExtractAllText de la biblioteca PDF para C# IronPDF es perfecto para tareas básicas de lectura de texto en PDF. Este método maneja discrepancias de espacios y codificación dentro de documentos PDF de origen sin ningún problema.

PdfDocument.ExtractTextFromPage lee el texto de páginas específicas de un PDF. En el ejemplo de abajo, lo vemos usado de forma iterativa para recuperar contenido de texto de un rango específico de páginas.

IronPDF también puede extraer imágenes en bruto de PDFs. Para esto, utilice cualquiera de los métodos de la clase PdfDocument a continuación:

ExtractAllImages: devuelve todas las imágenes incrustadas en un PDF como objetos IronSoftware.Drawing.AnyBitmap.
ExtractAllRawImages: recupera todas las imágenes incrustadas como una lista de bytes sin procesar (byte[]).
ExtractImagesFromPage: extrae las imágenes contenidas en una página indexada.
ExtractImagesFromPages: igual que ExtractImagesFromPage, pero de un rango específico de páginas o de una lista de páginas individuales.
ExtractRawImagesFromPage y ExtractRawImagesFromPages: funcionan igual que los dos métodos anteriores, pero devuelven las imágenes extraídas como matrices de bytes en lugar de como objetos IronSoftware.Drawing.AnyBitmap.