Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
Dieses Tutorial zeigt Ihnen, wie Sie verwenden IronPDF for Java um Daten aus einer PDF-Datei zu extrahieren. Das Einrichten der Umgebung, das Importieren der Bibliothek, das Lesen der Eingabedatei und das Extrahieren der benötigten Daten werden alle mit Codebeispielen erklärt.
IronPDF ist eine Softwarebibliothek, die Entwicklern die Möglichkeit bietet, PDFs zu erzeugen, zu bearbeiten und Daten aus PDF-Dateien extrahieren innerhalb ihrer Java-Anwendungen. Sie ermöglicht es Ihnen pDFs aus HTML erstellen, Bilder und mehr, sowie zusammenführen, geteilt, und bestehende PDFs bearbeiten. IronPDF bietet auch die Möglichkeit, PDFs zu sichern mit passwortschutz und digitale Signaturen hinzufügen, unter anderem Funktionen.
IronPDF for Java wird von Iron Software entwickelt und gepflegt. Eine der am besten bewerteten Funktionen ist die Extraktion von Text und Daten aus PDF-Dateien sowie aus HTML und URLs.
Um IronPDF zum Extrahieren von Daten aus PDF-Dateien zu verwenden, müssen Sie die folgenden Voraussetzungen erfüllen:
Java-Installation: Vergewissern Sie sich, dass Java auf Ihrem System installiert ist und der Pfad in den Umgebungsvariablen festgelegt ist. Wenn Sie Java noch nicht installiert haben, lesen Sie diese Download-Link von der Java-Website für Anweisungen.
Java IDE: Sie müssen eine Java IDE wie Eclipse oder IntelliJ installiert haben. Sie können Eclipse von dieser Seite herunterladen download-Link und IntelliJ von diesem download-Link.
IronPDF-Bibliothek: Laden Sie die IronPDF-Bibliothek herunter und fügen Sie sie als Abhängigkeit zu Ihrem Projekt hinzu. Besuchen Sie die IronPDF-Website für Anweisungen zur Einrichtung.
Die Installation von IronPDF for Java ist einfach und unkompliziert, sofern alle Voraussetzungen erfüllt sind. In dieser Anleitung wird JetBrains' IntelliJ IDEA verwendet, um die Installation zu demonstrieren und Beispielcode auszuführen.
Das ist zu tun:
Öffnen Sie IntelliJ IDEA: Starten Sie JetBrains IntelliJ IDEA auf Ihrem System.
Erstellen Sie ein Maven-Projekt: Erstellen Sie in IntelliJ IDEA ein neues Maven-Projekt. Dadurch wird eine geeignete Umgebung für die Installation von IronPDF for Java geschaffen.
Neues Maven-Projekt in IntelliJ
Es erscheint ein neues Fenster. Geben Sie den Namen des Projekts ein und klicken Sie auf Fertig stellen.
Benennen Sie das Maven-Projekt und klicken Sie auf Fertigstellen
Ein neues Projekt mit einer pom.xml wird geöffnet, sobald Sie auf Fertig stellen klicken. Dies wird verwendet, um IronPDF Java Maven-Abhängigkeiten hinzuzufügen.
Die pom.xml-Datei
Fügen Sie die folgenden Abhängigkeiten in die Datei pom.xml
ein oder Sie können die JAR-Datei von den folgenden link.
<dependency>
<groupId>com.ironsoftware</groupId>
<artifactId>com.ironsoftware</artifactId>
<version>2024.9.1</version>
</dependency>
Sobald Sie die Abhängigkeiten in die Datei pom.xml
eingefügt haben, erscheint ein kleines Symbol in der rechten oberen Ecke der Datei.
Klicken Sie auf das schwebende Symbol, um die Maven-Abhängigkeiten automatisch zu installieren
Installieren Sie die Maven-Abhängigkeiten von IronPDF for Java, indem Sie auf diese Schaltfläche klicken. Je nach Geschwindigkeit Ihrer Internetverbindung sollte dies nur ein paar Minuten dauern.
IronPDF ist eine Java-Bibliothek zum Erstellen, Bearbeiten und Extrahieren von Daten aus PDF-Dokumenten. Es bietet eine einfache API, um Text aus PDF-Dateien, URLs und Tabellen zu extrahieren.
Mit IronPDF for Java können Sie problemlos Textdaten aus PDF-Dokumenten extrahieren. Nachfolgend finden Sie den Beispielcode für die Extraktion von Daten aus einer PDF-Datei.
PDF-Eingang
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
String text = pdf.extractAllText();
System.out.println("Text extracted from the PDF: " + text);
}
}
Der Quellcode erzeugt die unten angegebene Ausgabe:
> Text extracted from the PDF:
>
> CRAFT-ARENA
>
> Muhammad Waleed Butt
>
> Hassan Khan
>
> ABOUT US
>
> Craft-Arena is a partnershipbased business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.
IronPDF for Java konvertiert die URL zur Laufzeit in PDF und extrahiert den Text daraus. Dieses Beispiel zeigt den Quellcode zum Extrahieren von Text aus URLs.
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
// new PDF parser
String text = pdf.extractAllText();
System.out.println("Text extracted from the URLs: " + text);
}
}
Extrahierte Webseitendaten
Das Extrahieren von Tabellendaten aus einer PDF-Datei mit IronPDF for Java ist sehr einfach; sie benötigen lediglich eine PDF-Datei mit einer Tabelle und müssen den unten stehenden Code ausführen.
Beispiel-PDF-Tabelleneingabe
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
String text = pdf.extractAllText();
System.out.print("Text extracted from the Marked tables: " + text);
}
}
> Test Case Description Expected Result Actual Result Status
>
> 1 Test login functionality User should be able to log in with valid credentials
>
> User log in successfully Pass
>
> 2 Test search functionality Search results should be relevant and accurate
>
> Search is accurate and provide relevant products Pass
>
> 3 Test checkout process User should be able to complete a purchase successfully
>
> User can purchase successfully Pass
Abschließend hat dieses Tutorial gezeigt, wie man mit IronPDF for Java Daten, insbesondere Tabellendaten, aus einer PDF-Datei extrahieren kann.
Weitere Informationen finden Sie in der Textbeispiel extrahieren auf der IronPDF-Website.
IronPDF ist eine Bibliothek mit einer handelslizenzbeginnend mit $749. Sie können es jedoch in der Produktion mit einer kostenloser Test.
9 .NET API-Produkte für Ihre Bürodokumente