Text aus PDF extrahieren
Als Teil von IronPDFs umfangreicher Sammlung von PDF-Erstellungs- und Bearbeitungsfunktionen erleichtert IronPDF auch die granulare Verarbeitung des Inhalts eines PDF-Dokuments durch seine Inhaltsextraktionsmethoden.
Auf allen PdfDocument-Objekten ist die extractAllText-Methode verfügbar. Der String, den extractAllText zurückgibt, enthält den gesamten Text, der auf jeder Seite im PDF enthalten ist.
Diese Methode ist eine bequeme Methode zur Extraktion von Text auf Dokumentenebene aus PDF-Dateien mit vielen Seiten. Um Text auf Seitenebene zu extrahieren (d. h., nur von einem bestimmten Satz von Seiten), verwenden Sie stattdessen die extractTextFromPage-Methode.
Das folgende kurze Codeschnipsel zieht den Text von der ersten Seite eines PDF-Dokuments.
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());Wie extrahiere ich Text aus PDF in Java?
- Installieren Sie die IronPDF Java-Bibliothek für die Textextraktion aus PDF
- Importieren von PDF-Zieldokumenten oder Rendern von URLs in Java
- Verwenden Sie die
extractAllText-Methode, um Text aus PDF zu extrahieren. - Verwenden Sie die Methode
extractTextFromPage, um die Extraktion auf einer bestimmten Seite durchzuführen - Extrahieren von Text ohne Beeinträchtigung der Original-PDF-Datei




