Text aus PDF extrahieren

Als Teil von IronPDFs umfangreicher Sammlung von PDF-Erstellungs- und Bearbeitungsfunktionen erleichtert IronPDf auch die granulare Verarbeitung des Inhalts eines PDF-Dokuments durch seine Inhaltsextraktionsmethoden.

Die Methode extractAllText ist für alle PdfDocument-Objekte verfügbar. Der String, den extractAllText zurückgibt, enthält den gesamten Text, der auf jeder Seite der PDF-Datei enthalten ist.

Diese Methode ist eine bequeme Methode zur Extraktion von Text auf Dokumentenebene aus PDF-Dateien mit vielen Seiten. So extrahieren Sie Text auf Seitenebene(d.h. nur von einer bestimmten Anzahl von Seiten)verwenden Sie stattdessen die Methode extractTextFromPage.

Das folgende kurze Codeschnipsel zieht den Text von der ersten Seite eines PDF-Dokuments.

PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));  
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
JAVA