VERWENDUNG VON IRONPDF FOR JAVA

Wie extrahiert man Daten aus PDF in Java?

Aktualisiert 1. September 2024
Teilen Sie:

Dieses Tutorial zeigt Ihnen, wie Sie verwenden IronPDF for Java um Daten aus einer PDF-Datei zu extrahieren. Das Einrichten der Umgebung, das Importieren der Bibliothek, das Lesen der Eingabedatei und das Extrahieren der benötigten Daten werden alle mit Codebeispielen erklärt.

2. IronPDF for Java PDF-Bibliothek

IronPDF ist eine Softwarebibliothek, die Entwicklern die Möglichkeit bietet, PDFs zu erzeugen, zu bearbeiten und Daten aus PDF-Dateien extrahieren innerhalb ihrer Java-Anwendungen. Sie ermöglicht es Ihnen pDFs aus HTML erstellen, Bilder und mehr, sowie zusammenführen, geteilt, und bestehende PDFs bearbeiten. IronPDF bietet auch die Möglichkeit, PDFs zu sichern mit passwortschutz und digitale Signaturen hinzufügen, unter anderem Funktionen.

IronPDF for Java wird von Iron Software entwickelt und gepflegt. Eine der am besten bewerteten Funktionen ist die Extraktion von Text und Daten aus PDF-Dateien sowie aus HTML und URLs.

3. Voraussetzungen

Um IronPDF zum Extrahieren von Daten aus PDF-Dateien zu verwenden, müssen Sie die folgenden Voraussetzungen erfüllen:

  1. Java-Installation: Vergewissern Sie sich, dass Java auf Ihrem System installiert ist und der Pfad in den Umgebungsvariablen festgelegt ist. Wenn Sie Java noch nicht installiert haben, lesen Sie diese Download-Link von der Java-Website für Anweisungen.

  2. Java IDE: Sie müssen eine Java IDE wie Eclipse oder IntelliJ installiert haben. Sie können Eclipse von dieser Seite herunterladen download-Link und IntelliJ von diesem download-Link.

  3. IronPDF-Bibliothek: Laden Sie die IronPDF-Bibliothek herunter und fügen Sie sie als Abhängigkeit zu Ihrem Projekt hinzu. Besuchen Sie die IronPDF-Website für Anweisungen zur Einrichtung.

  4. Maven-Installation: Maven sollte installiert und in Ihre IDE integriert sein, bevor Sie mit dem PDF-Konvertierungsprozess beginnen. Siehe hierzu Installationsanleitung beim Installieren und Integrieren von Maven.

4. IronPDF for Java Installation

Die Installation von IronPDF for Java ist einfach und unkompliziert, sofern alle Voraussetzungen erfüllt sind. In dieser Anleitung wird JetBrains' IntelliJ IDEA verwendet, um die Installation zu demonstrieren und Beispielcode auszuführen.

Das ist zu tun:

Öffnen Sie IntelliJ IDEA: Starten Sie JetBrains IntelliJ IDEA auf Ihrem System.

Erstellen Sie ein Maven-Projekt: Erstellen Sie in IntelliJ IDEA ein neues Maven-Projekt. Dadurch wird eine geeignete Umgebung für die Installation von IronPDF for Java geschaffen.

So extrahieren Sie Daten aus PDF in Java, Abbildung 1: Neues Maven-Projekt in IntelliJ

Neues Maven-Projekt in IntelliJ

Es erscheint ein neues Fenster. Geben Sie den Namen des Projekts ein und klicken Sie auf Fertig stellen.

Wie man Daten aus PDF in Java extrahiert, Abbildung 2: Nennen Sie das Maven-Projekt und klicken Sie auf Fertigstellen

Benennen Sie das Maven-Projekt und klicken Sie auf Fertigstellen

Ein neues Projekt mit einer pom.xml wird geöffnet, sobald Sie auf Fertig stellen klicken. Dies wird verwendet, um IronPDF Java Maven-Abhängigkeiten hinzuzufügen.

Wie man Daten aus PDFs in Java extrahiert, Abbildung 3: Die pom.xml-Datei

Die pom.xml-Datei

Fügen Sie die folgenden Abhängigkeiten in die Datei pom.xml ein oder Sie können die JAR-Datei von den folgenden link.

<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2024.9.1</version>
</dependency>

Sobald Sie die Abhängigkeiten in die Datei pom.xml eingefügt haben, erscheint ein kleines Symbol in der rechten oberen Ecke der Datei.

Wie man Daten aus PDF in Java extrahiert, Abbildung 4: Klicken Sie auf das schwebende Symbol, um die Maven-Abhängigkeiten automatisch zu installieren

Klicken Sie auf das schwebende Symbol, um die Maven-Abhängigkeiten automatisch zu installieren

Installieren Sie die Maven-Abhängigkeiten von IronPDF for Java, indem Sie auf diese Schaltfläche klicken. Je nach Geschwindigkeit Ihrer Internetverbindung sollte dies nur ein paar Minuten dauern.

5. Daten extrahieren

IronPDF ist eine Java-Bibliothek zum Erstellen, Bearbeiten und Extrahieren von Daten aus PDF-Dokumenten. Es bietet eine einfache API, um Text aus PDF-Dateien, URLs und Tabellen zu extrahieren.

5.1. Daten aus PDF-Dokumenten extrahieren

Mit IronPDF for Java können Sie problemlos Textdaten aus PDF-Dokumenten extrahieren. Nachfolgend finden Sie den Beispielcode für die Extraktion von Daten aus einer PDF-Datei.

Datenextraktion aus PDF in Java, Abbildung 5: PDF-Eingabe

PDF-Eingang

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}
JAVA

Der Quellcode erzeugt die unten angegebene Ausgabe:

> Text extracted from the PDF:
> 
> CRAFT-ARENA
> 
> Muhammad Waleed Butt
> 
> Hassan Khan
> 
> ABOUT US
> 
> Craft-Arena is a partnership￾based business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.

5.2. Daten aus URLs extrahieren

IronPDF for Java konvertiert die URL zur Laufzeit in PDF und extrahiert den Text daraus. Dieses Beispiel zeigt den Quellcode zum Extrahieren von Text aus URLs.

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        // new PDF parser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}
JAVA

Daten aus PDF in Java extrahieren, Abbildung 6: Extrahierte Webseitendaten

Extrahierte Webseitendaten

5.3. Daten aus Tabellendaten extrahieren

Das Extrahieren von Tabellendaten aus einer PDF-Datei mit IronPDF for Java ist sehr einfach; sie benötigen lediglich eine PDF-Datei mit einer Tabelle und müssen den unten stehenden Code ausführen.

Wie man Daten aus PDF in Java extrahiert, Abbildung 7: Beispiel einer PDF-Tabelleneingabe

Beispiel-PDF-Tabelleneingabe

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}
JAVA
> Test Case Description Expected Result Actual Result Status
> 
> 1 Test login functionality User should be able to log in with valid credentials
> 
> User log in successfully Pass
> 
> 2 Test search functionality Search results should be relevant and accurate
> 
> Search is accurate and provide relevant products Pass
> 
> 3 Test checkout process User should be able to complete a purchase successfully
> 
> User can purchase successfully Pass

6. Schlussfolgerung

Abschließend hat dieses Tutorial gezeigt, wie man mit IronPDF for Java Daten, insbesondere Tabellendaten, aus einer PDF-Datei extrahieren kann.

Weitere Informationen finden Sie in der Textbeispiel extrahieren auf der IronPDF-Website.

IronPDF ist eine Bibliothek mit einer handelslizenzbeginnend mit $749. Sie können es jedoch in der Produktion mit einer kostenloser Test.

< PREVIOUS
Wie extrahiere ich ein Bild aus einer PDF-Datei in Java?
NÄCHSTES >
Zusammenführen von zwei PDF-Dateien mit Java

Sind Sie bereit, loszulegen? Version: 2024.9 gerade veröffentlicht

Gratis Maven Download Lizenzen anzeigen >