Ler arquivos PDF em C#

O método PdfDocument.ExtractAllText da biblioteca IronPDF C# para PDF é perfeito para tarefas básicas de leitura de texto em PDF. Este método lida com discrepâncias de espaços em branco e codificação em documentos PDF de origem sem qualquer problema.

PdfDocument.ExtractTextFromPage lê o texto de páginas específicas de um PDF. No exemplo abaixo, vemos seu uso iterativo para recuperar conteúdo de texto de um intervalo específico de páginas.

O IronPDF também pode extrair imagens brutas de PDFs. Para isso, utilize um dos métodos da classe PdfDocument abaixo:

  • ExtractAllImages : retorna todas as imagens incorporadas em um PDF como objetos IronSoftware.Drawing.AnyBitmap.
  • ExtractAllRawImages : recupera todas as imagens incorporadas como uma lista de bytes brutos (byte[]).
  • ExtractImagesFromPage : extrai as imagens contidas em uma página indexada.
  • ExtractImagesFromPages : igual a ExtractImagesFromPage, mas de um intervalo de páginas específico ou de uma lista de páginas individuais.
  • ExtractRawImagesFromPage e ExtractRawImagesFromPages : funcionam da mesma forma que os dois métodos anteriores, mas retornam as imagens extraídas como matrizes de bytes em vez de objetos IronSoftware.Drawing.AnyBitmap.

Learn more about ExtractTextFromPage Method

Pronto para começar?
Nuget Downloads 18,318,263 | Versão: 2026.4 acaba de ser lançado
Still Scrolling Icon

Ainda está rolando a tela?

Quer provas rápidas? PM > Install-Package IronPdf
executar um exemplo Veja seu HTML se transformar em um PDF.