Text aus PDF extrahieren

Als Teil von IronPDFs umfangreicher Sammlung von PDF-Erstellungs- und Bearbeitungsfunktionen erleichtert IronPDF auch die granulare Verarbeitung des Inhalts eines PDF-Dokuments durch seine Inhaltsextraktionsmethoden.

Auf allen PdfDocument-Objekten ist die extractAllText-Methode verfügbar. Der String, den extractAllText zurückgibt, enthält den gesamten Text, der auf jeder Seite im PDF enthalten ist.

Diese Methode ist eine bequeme Methode zur Extraktion von Text auf Dokumentenebene aus PDF-Dateien mit vielen Seiten. Um Text auf Seitenebene zu extrahieren (d. h., nur von einem bestimmten Satz von Seiten), verwenden Sie stattdessen die extractTextFromPage-Methode.

Das folgende kurze Codeschnipsel zieht den Text von der ersten Seite eines PDF-Dokuments.

PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));  
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));  
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
JAVA