import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
// Apply your license key
License.setLicenseKey("YOUR-LICENSE-KEY");
// Set a log path
Settings.setLogPath(Paths.get("C:/tmp/IronPdfEngine.log"));
// Render the HTML as a PDF. Stored in myPdf as type PdfDocument;
PdfDocument myPdf = PdfDocument.renderHtmlAsPdf("<h1> ~Hello World~ </h1> Made with IronPDF!");
// Save the PdfDocument to a file
myPdf.saveAs(Paths.get("html_saved.pdf"));
Wie man PDFs in Java analysiert (Tutorial für Entwickler)
Kannapat Udonpant
8. Mai 2023
Aktualisiert 15. September 2024
Teilen Sie:
Dieser Artikel wird einen PDF-Parser in Java mithilfe der IronPDF-Bibliothek auf effiziente Weise erstellen.
IronPDF - Java PDF-Bibliothek
IronPDF for Java ist eine Java-PDF-Bibliothek, die die Erstellung, das Lesen und die Bearbeitung von PDF-Dokumenten mit Leichtigkeit und Präzision ermöglicht. Es baut auf dem Erfolg von IronPDF for .NET auf und bietet effiziente Funktionalität für verschiedene Plattformen. IronPDF for Java verwendet den IronPdfEngine, der schnell und für die Leistung optimiert ist.
PDF-Datei-Parser mit IronPDF in Java-Programm erstellen
Voraussetzungen
Um ein PDF-Parsing-Projekt in Java zu erstellen, benötigen Sie die folgenden Tools:
Java IDE: Sie können jede Java-unterstützte IDE verwenden. Es gibt mehrere Java-IDEs, die für die Entwicklung verfügbar sind. Hier in diesem Tutorial wird die IntelliJ IDE verwendet. Sie können NetBeans, Eclipse, etc. verwenden.
Maven-Projekt: Maven ist ein Abhängigkeitsmanager und ermöglicht die Kontrolle über das Java-Projekt. Maven für Java kann von der offiziellen Maven-Website heruntergeladen werden. IntelliJ Java IDE verfügt über integrierte Unterstützung für Maven.
IronPDF - Sie können IronPDF für Java auf verschiedene Weisen herunterladen und installieren.
Hinzufügen der IronPDF-Abhängigkeit in der pom.xml-Datei in einem Maven-Projekt.
Installieren Sie IronPDF mit Hilfe der JAR-Datei manuell in Ihrer einfachen Java-Anwendung.
Slf4j-Simple: Diese Abhängigkeit ist ebenfalls erforderlich, um Inhalte in ein bestehendes Dokument einzufügen. Es kann über den Maven-Abhängigkeitsmanager in IntelliJ hinzugefügt werden, oder es kann direkt von der Maven-Website heruntergeladen werden. Fügen Sie die folgende Abhängigkeit zur pom.xml-Datei hinzu:
Sobald alle Voraussetzungen installiert sind, ist der erste Schritt, die notwendigen IronPDF-Pakete zu importieren, um mit einem PDF-Dokument zu arbeiten. Fügen Sie folgenden Code am Anfang der Datei Main.java hinzu:
Für einige in IronPDF verfügbare Methoden ist eine Lizenz erforderlich. Sie können eine Lizenz erwerben oder IronPDF in einer kostenlosen Testversion ausprobieren. Sie können die Taste wie folgt einstellen:
License.setLicenseKey("YOUR-KEY");
License.setLicenseKey("YOUR-KEY");
JAVA
Schritt 1: Ein bestehendes PDF-Dokument analysieren
Um ein bestehendes Dokument für die Inhaltsextraktion zu analysieren, wird die PdfDocument-Klasse verwendet. Die statische fromFile-Methode wird verwendet, um eine PDF-Datei aus einem bestimmten Pfad mit einem bestimmten Dateinamen in einem Java-Programm zu parsen. Der Code lautet wie folgt:
Schritt 2: Extrahieren von Textdaten aus der geparsten PDF-Datei
IronPDF for Java bietet eine einfache Methode zum Extrahieren von Text aus PDF-Dokumenten. Das folgende Codeschnipsel dient zum Extrahieren von Textdaten aus einer PDF-Datei (siehe unten):
Der obige Code erzeugt die unten angegebene Ausgabe:
Ausgabe
Schritt 3: Extrahieren von Textdaten aus URLs oder HTML-Strings
IronPDF for Java ist nicht nur in der Lage, bestehende PDF-Dateien zu analysieren, sondern kann auch neue Dateien erstellen und analysieren, um Inhalte zu extrahieren. Hier wird in diesem Tutorial eine PDF-Datei aus einer URL erstellt und deren Inhalt extrahiert. Das folgende Beispiel zeigt, wie Sie diese Aufgabe erfüllen können:
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extracted_text = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extracted_text);
}
}
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extracted_text = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extracted_text);
}
}
JAVA
Die Ausgabe lautet wie folgt:
Ausgabe
Schritt 4: Bilder aus geparstem PDF-Dokument extrahieren
IronPDF bietet auch eine einfache Möglichkeit, alle Bilder aus analysierten Dokumenten zu extrahieren. Hier wird im Tutorial das vorhergehende Beispiel verwendet, um zu sehen, wie einfach die Bilder aus den PDF-Dateien extrahiert werden können.
import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
JAVA
Die [extractAllImages](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages())-Methode gibt eine Liste von BufferedImages zurück. Jedes BufferedImage kann dann als PNG-Bild an einem Speicherort mithilfe der ImageIO.write Methode gespeichert werden. In der geparsten PDF-Datei befinden sich 34 Bilder, und jedes Bild ist perfekt extrahiert.
Extrahierte Bilder
Schritt 5: Daten aus Tabellen in PDF-Dateien extrahieren
Das Extrahieren von Inhalten aus tabellarischen Grenzen in einer PDF-Datei wird mit nur einer einzigen Codezeile unter Verwendung der [extractAllText-Methode](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText() vereinfacht. Der folgende Codeschnipsel zeigt, wie man Text aus einer Tabelle in einer PDF-Datei extrahiert:
Dieser Artikel zeigte, wie man ein bestehendes PDF-Dokument analysiert oder eine neue PDF-Parser-Datei aus einer URL erstellt, um Daten daraus in Java mit IronPDF zu extrahieren. Nach dem Öffnen der Datei können tabellarische Daten, Bilder und Text aus der PDF extrahiert werden. Der extrahierte Text kann auch in eine Textdatei eingefügt werden, um später verwendet zu werden.
Für ausführlichere Informationen darüber, wie man programmgesteuert mit PDF-Dateien in Java arbeitet, besuchen Sie bitte diese Beispiele zur Erstellung von PDF-Dateien.
Bevor er Software-Ingenieur wurde, promovierte Kannapat an der Universität Hokkaido in Japan im Bereich Umweltressourcen. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Abteilung für Bioproduktionstechnik ist. Im Jahr 2022 wechselte er mit seinen C#-Kenntnissen zum Engineering-Team von Iron Software, wo er sich auf IronPDF konzentriert. Kannapat schätzt an seiner Arbeit, dass er direkt von dem Entwickler lernt, der den Großteil des in IronPDF verwendeten Codes schreibt. Neben dem kollegialen Lernen genießt Kannapat auch den sozialen Aspekt der Arbeit bei Iron Software. Wenn er nicht gerade Code oder Dokumentationen schreibt, kann man Kannapat normalerweise beim Spielen auf seiner PS5 oder beim Wiedersehen mit The Last of Us antreffen.
< PREVIOUS Arbeiten mit Maven-Projekten in IntelliJ