Ler arquivos PDF em C#

A extração de texto e imagens pode facilitar a migração de dados na transição de um formato de documento para outro. O conteúdo extraído pode ser preservado em um formato mais acessível e editável, reduzindo o risco de perda de dados.

Imagens e textos incorporados podem ser extraídos independentemente do documento PDF. O texto extraído estará em formato de string normal, enquanto as imagens extraídas estarão em formato de buffer de imagem e poderão então ser exportadas ou processadas posteriormente.

Use o método extractText para extrair texto e o método extractRawImages para extrair imagens de um documento PDF.

Segue um exemplo corrigido e comentado de como você pode fazer isso:

No código C# acima:

  • Utilizamos a biblioteca IronPDF para carregar um documento PDF.
  • O método ExtractText() é invocado para recuperar o texto do PDF. Este texto é exibido no console. O método ExtractImages() é usado para extrair imagens, que estão armazenadas em matrizes de bytes. Em seguida, cada imagem é salva no sistema de arquivos com um nome de arquivo específico.

Para obter instruções mais detalhadas sobre como usar esses métodos, visite a Documentação do IronPDF .

Saiba mais sobre como ler textos em PDF com o IronPDF.

Pronto para começar?
Versão: 2026.4 acaba de ser lançado
Still Scrolling Icon

Ainda está rolando a tela?

Quer provas rápidas?
executar um exemplo Veja seu HTML se transformar em um PDF.