Text aus PDF extrahieren

PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
String text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);

Text aus PDF extrahieren

Als Teil von IronPDFs umfangreicher Sammlung von Funktionen zur Erstellung und Bearbeitung von PDFs erleichtert IronPDF auch die granulare Verarbeitung des Inhalts eines PDF-Dokuments durch seine Inhaltsextraktionsmethoden.

Für alle PdfDocument-Objekte ist die extractAllText-Methode verfügbar. Der Wert String, den extractAllText zurückgibt, enthält den gesamten Text aller Seiten im PDF.

Diese Methode ist eine bequeme Möglichkeit, Dokumentenebenen-Text-Extraktion aus PDFs mit vielen Seiten durchzuführen. Um Text auf Seitenebene zu extrahieren (d. h. nur aus einer bestimmten Gruppe von Seiten), verwenden Sie stattdessen die Methode extractTextFromPage.

Das kurze Code-Beispiel unten zieht den Text von der ersten Seite eines PDF-Dokuments.

Wie extrahiere ich Text aus PDF in Java?

Installieren Sie IronPDF for Java Library für PDF Textextraktion
Ziel-PDF-Dokument importieren oder von URL in Java rendern
Nutzen Sie die extractAllText-Methode, um Text aus PDF-Dateien zu extrahieren
Verwenden Sie die Methode extractTextFromPage, um die Extraktion auf einer bestimmten Seite durchzuführen
Extrahieren von Text ohne Beeinträchtigung der Original-PDF-Datei

Explore the extractAllText Method in IronPDF Java Docs