Ler arquivos PDF em C#
A extração de texto e imagens pode facilitar a migração de dados na transição de um formato de documento para outro. O conteúdo extraído pode ser preservado em um formato mais acessível e editável, reduzindo o risco de perda de dados.
Imagens e textos incorporados podem ser extraídos independentemente do documento PDF. O texto extraído estará em formato de string normal, enquanto as imagens extraídas estarão em formato de buffer de imagem e poderão então ser exportadas ou processadas posteriormente.
Use o método extractText para extrair texto e o método extractRawImages para extrair imagens de um documento PDF.
Segue um exemplo corrigido e comentado de como você pode fazer isso:
No código C# acima:
- Utilizamos a biblioteca IronPDF para carregar um documento PDF.
- O método
ExtractText()é invocado para recuperar o texto do PDF. Este texto é exibido no console. O métodoExtractImages()é usado para extrair imagens, que estão armazenadas em matrizes de bytes. Em seguida, cada imagem é salva no sistema de arquivos com um nome de arquivo específico.
Para obter instruções mais detalhadas sobre como usar esses métodos, visite a Documentação do IronPDF .

