PDF-Dateien in C# lesen

import {PdfDocument} from "@ironsoftware/ironpdf";

(async () => {
    // Extracting Image and Text content from Pdf Documents
    // Import existing PDF document
    const pdf = await PdfDocument.fromHtml("old_report.pdf");
    
    // Get all text to put in a search index
    const text = await pdf.extractText();
    
    // Get all Images
    const imagesBuffer = await pdf.extractRawImages();
    
    const pageCount = await pdf.getPageCount()
    // Or even find the precise text and images for each page in the document
    for (let index = 0; index < pageCount; index++) {
        text = await pdf.extractText([index]);
        imagesBuffer = await pdf.extractRawImages([index]);
    }
})();

PDF-Dateien in C# lesen

Das Extrahieren von Text und Bildern kann die Datenmigration beim Übergang von einem Dokumentformat in ein anderes erleichtern. Die extrahierten Inhalte können in einem besser zugänglichen und bearbeitbaren Format gespeichert werden, wodurch das Risiko von Datenverlusten verringert wird.

Eingebettete Bilder und Texte können unabhängig vom PDF-Dokument extrahiert werden. Der extrahierte Text liegt als normaler String vor, während die extrahierten Bilder im Image-Buffer-Format vorliegen und anschließend exportiert oder weiterverarbeitet werden können.

Verwenden Sie die Methode extractText zum Extrahieren von Text und die Methode extractRawImages zum Extrahieren von Bildern aus einem PDF-Dokument.

Hier ist ein korrigiertes und kommentiertes Beispiel, wie Sie das machen könnten:

Im obigen C#-Code:

Wir verwenden die IronPDF-Bibliothek, um ein PDF-Dokument zu laden.
Die Methode ExtractText() wird aufgerufen, um Text aus der PDF-Datei abzurufen. Dieser Text wird in der Konsole ausgegeben.
Die Methode ExtractImages() wird zum Extrahieren von Bildern verwendet, die in Byte-Arrays gespeichert sind. Jedes Bild wird anschließend unter einem festgelegten Dateinamen im Dateisystem gespeichert.

Für detailliertere Anweisungen zur Anwendung dieser Methoden besuchen Sie die IronPDF-Dokumentation .

Erfahren Sie mehr über das Lesen von PDF-Texten mit IronPDF