Odczytywanie plików PDF w języku C#

import {PdfDocument} from "@ironsoftware/ironpdf";

(async () => {
    // Extracting Image and Text content from Pdf Documents
    // Import existing PDF document
    const pdf = await PdfDocument.fromHtml("old_report.pdf");
    
    // Get all text to put in a search index
    const text = await pdf.extractText();
    
    // Get all Images
    const imagesBuffer = await pdf.extractRawImages();
    
    const pageCount = await pdf.getPageCount()
    // Or even find the precise text and images for each page in the document
    for (let index = 0; index < pageCount; index++) {
        text = await pdf.extractText([index]);
        imagesBuffer = await pdf.extractRawImages([index]);
    }
})();

Odczytywanie plików PDF w języku C#

Wyodrębnianie tekstu i obrazów może ułatwić migrację danych podczas przechodzenia z jednego formatu dokumentu na inny. Wyodrębniona zawartość może być zachowana w bardziej dostępnym i edytowalnym formacie, co zmniejsza ryzyko utraty danych.

Osadzone obrazy i tekst mogą być wyodrębniane niezależnie od dokumentu PDF. Wyodrębniony tekst będzie w formie normalnego ciągu znaków, podczas gdy wyodrębnione obrazy będą w formacie bufora obrazów i mogą zostać wyeksportowane lub dalej przetwarzane.

Użyj metody extractText, aby wyodrębnić tekst, oraz metody extractRawImages, aby wyodrębnić obrazy z dokumentu PDF.

Oto poprawiony i skomentowany przykład, jak można to zrobić:

W powyższym kodzie C#:

Używamy biblioteki IronPDF, aby załadować dokument PDF.
Metoda ExtractText() jest wywoływana, aby pobrać tekst z PDF. Ten tekst jest wyprowadzany do konsoli.
Metoda ExtractImages() jest używana do wyodrębniania obrazów, które są przechowywane w tablicach bajtów. Każdy obraz jest następnie zapisywany w systemie plików z określoną nazwą pliku.

Aby uzyskać bardziej szczegółowe instrukcje dotyczące korzystania z tych metod, odwiedź Dokumentację IronPDF.

Poznaj więcej na temat odczytywania tekstu PDF za pomocą IronPDF