Ler arquivos PDF em C#

VB C#

using IronPdf;
using IronSoftware.Drawing;
using System.Collections.Generic;

// Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
var pdf = PdfDocument.FromFile("encrypted.pdf", "password");

// Get all text to put in a search index
string text = pdf.ExtractAllText();

// Get all Images
var allImages = pdf.ExtractAllImages();

// Or even find the precise text and images for each page in the document
for (var index = 0 ; index < pdf.PageCount ; index++)
{
    int pageNumber = index + 1;
    text = pdf.ExtractTextFromPage(index);
    List<AnyBitmap> images = pdf.ExtractBitmapsFromPage(index);
    //...
}

Imports IronPdf
Imports IronSoftware.Drawing
Imports System.Collections.Generic

' Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private pdf = PdfDocument.FromFile("encrypted.pdf", "password")

' Get all text to put in a search index
Private text As String = pdf.ExtractAllText()

' Get all Images
Private allImages = pdf.ExtractAllImages()

' Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim pageNumber As Integer = index + 1
	text = pdf.ExtractTextFromPage(index)
	Dim images As List(Of AnyBitmap) = pdf.ExtractBitmapsFromPage(index)
	'...
Next index

Install-Package IronPdf

Ler arquivos PDF em C#

O método PdfDocument.ExtractAllText da biblioteca IronPDF C# PDF é perfeito para tarefas de leitura de texto de PDF puro. Este método lida com discrepâncias de espaços em branco e codificação em documentos PDF de origem sem qualquer problema.

PdfDocument.ExtractTextFromPage lê o texto de páginas específicas de um PDF. No exemplo abaixo, vemos seu uso iterativo para recuperar conteúdo de texto de um intervalo específico de páginas.

O IronPDF também pode extrair imagens brutas de PDFs. Para isso, use um dos métodos da classe PdfDocument abaixo:

ExtractAllImages: retorna todas as imagens incorporadas em um PDF como objetos IronSoftware.Drawing.AnyBitmap.
ExtractAllRawImages: recupera todas as imagens incorporadas como uma lista de bytes brutos (byte[]).
ExtractImagesFromPage: extrai as imagens contidas em uma página indexada.
ExtractImagesFromPages: o mesmo que ExtractImagesFromPage, mas de um intervalo de páginas específico ou de uma lista de páginas individuais.
ExtractRawImagesFromPage e ExtractRawImagesFromPages: funciona como os dois métodos anteriores, mas retorna imagens extraídas como arrays de bytes em vez de objetos IronSoftware.Drawing.AnyBitmap.