PDF-Dateien in C# lesen
Das Extrahieren von Text und Bildern kann die Datenmigration beim Übergang von einem Dokumentformat in ein anderes erleichtern. Die extrahierten Inhalte können in einem besser zugänglichen und bearbeitbaren Format gespeichert werden, wodurch das Risiko von Datenverlusten verringert wird.
Eingebettete Bilder und Texte können unabhängig vom PDF-Dokument extrahiert werden. Der extrahierte Text liegt als normaler String vor, während die extrahierten Bilder im Image-Buffer-Format vorliegen und anschließend exportiert oder weiterverarbeitet werden können.
Verwenden Sie die Methode extractText zum Extrahieren von Text und die Methode extractRawImages zum Extrahieren von Bildern aus einem PDF-Dokument.
Hier ist ein korrigiertes und kommentiertes Beispiel, wie Sie das machen könnten:
Im obigen C#-Code:
- Wir verwenden die IronPDF-Bibliothek, um ein PDF-Dokument zu laden.
- Die Methode
ExtractText()wird aufgerufen, um Text aus der PDF-Datei abzurufen. Dieser Text wird in der Konsole ausgegeben. - Die Methode
ExtractImages()wird zum Extrahieren von Bildern verwendet, die in Byte-Arrays gespeichert sind. Jedes Bild wird anschließend unter einem festgelegten Dateinamen im Dateisystem gespeichert.
Für detailliertere Anweisungen zur Anwendung dieser Methoden besuchen Sie die IronPDF-Dokumentation .

