VERWENDUNG VON IRONPDF FOR JAVA

Wie man PDFs in Java analysiert (Tutorial für Entwickler)

Aktualisiert 15. September 2024
Teilen Sie:

Dieser Artikel wird einen PDF-Parser in Java mithilfe der IronPDF-Bibliothek auf effiziente Weise erstellen.

IronPDF - Java PDF-Bibliothek

IronPDF ist eine Java-PDF-Bibliothek, die das Erstellen, Lesen und Manipulieren von PDF-Dokumenten mit Leichtigkeit und Genauigkeit ermöglicht. Es baut auf dem Erfolg von IronPDF for .NET auf und bietet effiziente Funktionalität für verschiedene Plattformen. IronPDF for Java nutzt die IronPdfEngine, das schnell und für Leistung optimiert ist.

Mit IronPDF können Sie PDF-Seiten parsen und Text, Bilder und andere Objekte aus PDF-Dateien extrahieren. Es ermöglicht auch das Erstellung von PDFs aus HTML-Strings, Dateien, URLs und Bildern sowie der Konvertierung zwischen verschiedenen Dateiformaten. Zusätzlich können Sie problemlos neue Inhalte hinzufügen, Signaturen hinzufügenund Metadaten hinzufügen zu bestehenden PDF-Dokumenten. IronPDF wurde speziell für Java 8+, Scala und Kotlin entwickelt und ist mit Windows-, Linux- und Cloud-Plattformen kompatibel.

PDF-Datei-Parser mit IronPDF in Java-Programm erstellen

Voraussetzungen

Um ein PDF-Parsing-Projekt in Java zu erstellen, benötigen Sie die folgenden Tools:

  1. Java-IDE: Sie können jede Java-unterstützte IDE verwenden. Es gibt mehrere Java-IDEs, die für die Entwicklung verfügbar sind. Hier wird dieses Tutorial verwenden IntelliJ IDE. Sie können NetBeans, Eclipse, etc. verwenden.

  2. Maven-Projekt: Maven ist ein Abhängigkeitsmanager und ermöglicht die Kontrolle über das Java-Projekt. Maven für Java kann heruntergeladen werden von hier. IntelliJ Java IDE verfügt über integrierte Unterstützung für Maven.

  3. IronPDF - Sie können IronPDF for Java auf verschiedene Arten herunterladen und installieren.

    • Hinzufügen der IronPDF-Abhängigkeit in die pom.xml-Datei eines Maven-Projekts.
        :ProductInstall
  • Besuchen Sie die Maven-Website und laden Sie das neueste IronPDF-Paket für Java herunter, das Sie von Maven-Repository-Website.

    • Ein direkter Download von der IronPDF-Website über diese Download-Link.

    • Installieren Sie IronPDF mit Hilfe der JAR-Datei manuell in Ihrer einfachen Java-Anwendung.
  1. Slf4j-Simple: Diese Abhängigkeit wird auch benötigt, um Inhalte in ein bestehendes Dokument zu stempeln. Es kann mit dem Maven-Abhängigkeitsmanager in IntelliJ hinzugefügt werden, oder es kann direkt von der Maven-Website heruntergeladen werden. Fügen Sie die folgende Abhängigkeit zur pom.xml Datei hinzu:
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
XML

Hinzufügen der erforderlichen Importe

Sobald alle Voraussetzungen installiert sind, ist der erste Schritt, die notwendigen IronPDF-Pakete zu importieren, um mit einem PDF-Dokument zu arbeiten. Fügen Sie den folgenden Code oben in die Datei Main.java ein:

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
JAVA

Lizenzschlüssel

Für einige in IronPDF verfügbare Methoden ist eine Lizenz erforderlich. Sie können eine Lizenz erwerben oder IronPDF in einer kostenlosen Testversion ausprobieren. Sie können die Taste wie folgt einstellen:

License.setLicenseKey("YOUR-KEY");
JAVA

Schritt 1: Ein bestehendes PDF-Dokument analysieren

Um ein bestehendes Dokument für die Inhaltsextraktion zu analysieren, der/die/das pdfDocument Die Klasse wird verwendet. Es ist statisch vonDatei Die Methode wird verwendet, um eine PDF-Datei von einem bestimmten Pfad mit einem bestimmten Dateinamen in einem Java-Programm zu analysieren. Der Code lautet wie folgt:

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
JAVA

Wie man PDF in Java parst (Entwickler-Tutorial), Abbildung 1: Geparstes Dokument

Geparstes Dokument

Schritt 2: Extrahieren von Textdaten aus der geparsten PDF-Datei

IronPDF for Java bietet eine einfache Methode zur extrahieren von Text aus PDF-Dokumenten. Das folgende Codeschnipsel dient zum Extrahieren von Textdaten aus einer PDF-Datei (siehe unten):

String extracted_text = parsedDocument.extractAllText();
JAVA

Der obige Code erzeugt die unten angegebene Ausgabe:

Wie man PDF in Java analysiert (Entwickler-Tutorial), Abbildung 2: Ausgabe

Output

Schritt 3: Extrahieren von Textdaten aus URLs oder HTML-Strings

IronPDF for Java ist nicht nur auf bestehende PDFs beschränkt, sondern kann auch eine neue Datei erstellen und analysieren, um Inhalte zu extrahieren. Hier wird dieses Tutorial ein erstellen PDF-Datei von URL und extrahieren dann den Inhalt daraus. Das folgende Beispiel zeigt, wie Sie diese Aufgabe erfüllen können:

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extracted_text = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extracted_text);
    }
}
JAVA

Die Ausgabe lautet wie folgt:

So parsen Sie PDF in Java (Entwickler-Tutorial), Abbildung 3: Ausgabe

Output

Schritt 4: Bilder aus geparstem PDF-Dokument extrahieren

IronPDF bietet auch eine einfache Option zur alle Bilder extrahieren aus dem geparsten Dokument. Hier wird im Tutorial das vorhergehende Beispiel verwendet, um zu sehen, wie einfach die Bilder aus den PDF-Dateien extrahiert werden können.

import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public static void main(String[] args) throws IOException {
    License.setLicenseKey("YOUR-KEY");

    PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

    try {
        List<BufferedImage> images = parsedDocument.extractAllImages();
        System.out.println("Number of images extracted from the website: " + images.size());

        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
        }
    } catch (Exception exception) {
        System.out.println("Failed to extract images from the website");
        exception.printStackTrace();
    }
}
JAVA

Die [extractAllImages](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages()) Methode gibt eine Liste von BufferedImages zurück. Jedes "BufferedImage" kann dann mit der Methode "ImageIO.write" als PNG-Bild an einem Ort gespeichert werden. In der geparsten PDF-Datei befinden sich 34 Bilder, und jedes Bild ist perfekt extrahiert.

Wie man PDF in Java parst (Entwickler-Tutorial), Abbildung 4: Extrahierte Bilder

Extrahierte Bilder

Schritt 5: Daten aus Tabellen in PDF-Dateien extrahieren

Das Extrahieren von Inhalten aus tabellarischen Begrenzungen in einer PDF-Datei wird mit nur einer einzigen Codezeile einfach gemacht, indem der [extrahiereAllText](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) methode. Der folgende Codeschnipsel zeigt, wie man Text aus einer Tabelle in einer PDF-Datei extrahiert:

PDF in Java parsen (Entwickler-Tutorial), Abbildung 5: Tabelle im PDF

Tabelle in PDF

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
JAVA

Die Ausgabe lautet wie folgt:

Anleitung zum Parsen von PDF in Java (Entwickler-Tutorial), Abbildung 6: Ausgabe

Output

Schlussfolgerung

Dieser Artikel zeigte, wie man ein bestehendes PDF-Dokument analysiert oder eine neue PDF-Parser-Datei aus einer URL erstellt, um Daten daraus in Java mit IronPDF zu extrahieren. Nach dem Öffnen der Datei können tabellarische Daten, Bilder und Text aus der PDF extrahiert werden. Der extrahierte Text kann auch in eine Textdatei eingefügt werden, um später verwendet zu werden.

Ausführlichere Informationen darüber, wie man in Java programmatisch mit PDF-Dateien arbeitet, finden Sie hier Beispiele zur Erstellung von PDF-Dateien.

Die IronPDF for Java Bibliothek ist kostenlos für Entwicklungszwecke mit einer kostenloser Test. Für die kommerzielle Nutzung kann es jedoch sein lizenziertbeginnend mit $749.

< PREVIOUS
Arbeiten mit Maven-Projekten in IntelliJ
NÄCHSTES >
Wie man PDF-Berichte in Java erzeugt

Sind Sie bereit, loszulegen? Version: 2024.9 gerade veröffentlicht

Gratis Maven Download Lizenzen anzeigen >