Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
Dieser Artikel wird einen PDF-Parser in Java mithilfe der IronPDF-Bibliothek auf effiziente Weise erstellen.
IronPDF for Java ist eine Java-PDF-Bibliothek, die das Erstellen, Lesen und Manipulieren von PDF-Dokumenten mit Leichtigkeit und Genauigkeit ermöglicht. Es baut auf dem Erfolg von IronPDF for .NET auf und bietet effiziente Funktionalität für verschiedene Plattformen. IronPDF for Java nutzt dieIronPdfEngine
die schnell und auf Leistung optimiert ist.
Mit IronPDF können Sietext und Bilder aus PDF-Dateien extrahieren und sie ermöglicht außerdemerstellung von PDFs aus verschiedenen Quellen dazu gehören HTML-Strings, Dateien, URLs und Bilder. Außerdem können Sie leicht neue Inhalte hinzufügen,signaturen mit IronPDF einfügenundmetadaten in PDF-Dokumente einbetten. IronPDF wurde speziell für Java 8+, Scala und Kotlin entwickelt und ist mit Windows-, Linux- und Cloud-Plattformen kompatibel.
fromFile
methodeextractAllText
methoderenderUrlAsPdf
methode zum Rendern einer PDF-Datei aus einer URLextractAllImages
methodeUm ein PDF-Parsing-Projekt in Java zu erstellen, benötigen Sie die folgenden Tools:
Java-IDE: Sie können jede Java-unterstützte IDE verwenden. Es gibt mehrere Java-IDEs, die für die Entwicklung verfügbar sind. Hier wird dieses Tutorial verwendenIntelliJ IDE. Sie können NetBeans, Eclipse, etc. verwenden.
Maven-Projekt: Maven ist ein Abhängigkeitsmanager und ermöglicht die Kontrolle über das Java-Projekt. Maven für Java kann heruntergeladen werden vondie offizielle Maven-Website. IntelliJ Java IDE verfügt über integrierte Unterstützung für Maven.
IronPDF - Sie können IronPDF for Java auf verschiedene Arten herunterladen und installieren.
pom.xml
-Datei eines Maven-Projekts. :ProductInstall
Besuchen Sie dieMaven-Repository-Website für das neueste IronPDF for Java-Paket.
Ein direkter Download von Iron Softwareoffizielle Download-Seite.
pom.xml
hinzu: <dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-simple</artifactId>
<version>2.0.5</version>
</dependency>
Sobald alle Voraussetzungen installiert sind, ist der erste Schritt, die notwendigen IronPDF-Pakete zu importieren, um mit einem PDF-Dokument zu arbeiten. Fügen Sie den folgenden Code oben in die Datei Main.java
ein:
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
Für einige in IronPDF verfügbare Methoden ist eine Lizenz erforderlich. Sie können eine Lizenz erwerben oder IronPDF in einer kostenlosen Testversion ausprobieren. Sie können die Taste wie folgt einstellen:
License.setLicenseKey("YOUR-KEY");
Um ein bestehendes Dokument für die Inhaltsextraktion zu analysieren, der/die/daspdfDocumentDie Klasse wird verwendet.
Es ist statischvonDatei
Die Methode wird verwendet, um eine PDF-Datei von einem bestimmten Pfad mit einem bestimmten Dateinamen in einem Java-Programm zu analysieren. Der Code lautet wie folgt:
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
Geparstes Dokument
IronPDF for Java bietet eine einfache Methode zurextrahieren von Text aus PDF-Dokumenten. Das folgende Codeschnipsel dient zum Extrahieren von Textdaten aus einer PDF-Datei (siehe unten):
String extracted_text = parsedDocument.extractAllText();
Der obige Code erzeugt die unten angegebene Ausgabe:
Output
IronPDF for Java ist nicht nur in der Lage, bestehende PDF-Dateien zu analysieren, sondern kann auch neue Dateien erstellen und analysieren, um Inhalte zu extrahieren. Hier wird dieses Tutorial ein erstellenPDF-Datei von einer URL abrufen und Inhalt daraus extrahieren. Das folgende Beispiel zeigt, wie Sie diese Aufgabe erfüllen können:
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extracted_text = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extracted_text);
}
}
Die Ausgabe lautet wie folgt:
Output
IronPDF bietet auch eine einfache Option zuralle Bilder aus den geparsten Dokumenten extrahieren. Hier wird im Tutorial das vorhergehende Beispiel verwendet, um zu sehen, wie einfach die Bilder aus den PDF-Dateien extrahiert werden können.
import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
Die[extractAllImages
](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages())Methode gibt eine Liste von BufferedImages
zurück. Jedes "BufferedImage" kann dann mit der Methode "ImageIO.write" als PNG-Bild an einem Ort gespeichert werden. In der geparsten PDF-Datei befinden sich 34 Bilder, und jedes Bild ist perfekt extrahiert.
Extrahierte Bilder
Das Extrahieren von Inhalten aus tabellarischen Begrenzungen in einer PDF-Datei wird mit nur einer einzigen Codezeile einfach gemacht, indem der[methode extractAllText
](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()). Der folgende Codeschnipsel zeigt, wie man Text aus einer Tabelle in einer PDF-Datei extrahiert:
Tabelle in PDF
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
Die Ausgabe lautet wie folgt:
Output
Dieser Artikel zeigte, wie man ein bestehendes PDF-Dokument analysiert oder eine neue PDF-Parser-Datei aus einer URL erstellt, um Daten daraus in Java mit IronPDF zu extrahieren. Nach dem Öffnen der Datei können tabellarische Daten, Bilder und Text aus der PDF extrahiert werden. Der extrahierte Text kann auch in eine Textdatei eingefügt werden, um später verwendet zu werden.
Ausführlichere Informationen zur programmgesteuerten Arbeit mit PDF-Dateien in Java finden Sie unterBeispiele für die Erstellung von PDF-Dateien.
Die IronPDF for Java Bibliothek ist kostenlos für Entwicklungszwecke mit einerkostenlose Testversion verfügbar. Für die kommerzielle Nutzung kann es jedoch seinlizenziert durch IronSoftwarebeginnend mit $749.
9 .NET API-Produkte für Ihre Bürodokumente