Ler arquivos PDF em C#

import {PdfDocument} from "@ironsoftware/ironpdf";

(async () => {
    // Extracting Image and Text content from Pdf Documents
    // Import existing PDF document
    const pdf = await PdfDocument.fromHtml("old_report.pdf");
    
    // Get all text to put in a search index
    const text = await pdf.extractText();
    
    // Get all Images
    const imagesBuffer = await pdf.extractRawImages();
    
    const pageCount = await pdf.getPageCount()
    // Or even find the precise text and images for each page in the document
    for (let index = 0; index < pageCount; index++) {
        text = await pdf.extractText([index]);
        imagesBuffer = await pdf.extractRawImages([index]);
    }
})();

Ler arquivos PDF em C#

A extração de texto e imagens pode facilitar a migração de dados na transição de um formato de documento para outro. O conteúdo extraído pode ser preservado em um formato mais acessível e editável, reduzindo o risco de perda de dados.

Imagens e textos incorporados podem ser extraídos independentemente do documento PDF. O texto extraído estará em formato de string normal, enquanto as imagens extraídas estarão em formato de buffer de imagem e poderão então ser exportadas ou processadas posteriormente.

Use o método extractText para extrair texto e o método extractRawImages para extrair imagens de um documento PDF.

Segue um exemplo corrigido e comentado de como você pode fazer isso:

No código C# acima:

Utilizamos a biblioteca IronPDF para carregar um documento PDF.
O método ExtractText() é invocado para recuperar texto do PDF. Este texto é exibido no console.
O método ExtractImages() é usado para extrair imagens, que são armazenadas em arrays de bytes. Em seguida, cada imagem é salva no sistema de arquivos com um nome de arquivo específico.

Para obter instruções mais detalhadas sobre como usar esses métodos, visite a Documentação do IronPDF .

Saiba mais sobre como ler textos em PDF com o IronPDF.