Text aus PDF extrahieren
Als Teil von IronPDFs umfangreicher Sammlung von PDF-Erstellungs- und Bearbeitungsfunktionen erleichtert IronPDF auch die granulare Verarbeitung des Inhalts eines PDF-Dokuments durch seine Inhaltsextraktionsmethoden.
Auf allen PdfDocument
-Objekten ist die extractAllText
-Methode verfügbar. Der String
, den extractAllText
zurückgibt, enthält den gesamten Text, der auf jeder Seite im PDF enthalten ist.
Diese Methode ist eine bequeme Methode zur Extraktion von Text auf Dokumentenebene aus PDF-Dateien mit vielen Seiten. Um Text auf Seitenebene zu extrahieren (d. h., nur von einem bestimmten Satz von Seiten), verwenden Sie stattdessen die extractTextFromPage
-Methode.
Das folgende kurze Codeschnipsel zieht den Text von der ersten Seite eines PDF-Dokuments.
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
Wie extrahiere ich Text aus PDF in Java?
- Installieren Sie die IronPDF Java-Bibliothek für die Textextraktion aus PDF
- Importieren von PDF-Zieldokumenten oder Rendern von URLs in Java
- Verwenden Sie die
extractAllText
-Methode, um Text aus PDF zu extrahieren. - Verwenden Sie die Methode
extractTextFromPage
, um die Extraktion auf einer bestimmten Seite durchzuführen - Extrahieren von Text ohne Beeinträchtigung der Original-PDF-Datei