Zum Fußzeileninhalt springen
VERWENDUNG VON IRONPDF FüR JAVA

Wie man Daten aus PDF in Java extrahiert

Dieses Tutorial zeigt Ihnen, wie Sie IronPDF for Java verwenden, um Daten aus einer PDF-Datei zu extrahieren. Die Einrichtung der Umgebung, das Importieren der Bibliothek, das Lesen der Eingabedatei und das Extrahieren der benötigten Daten werden alle mit Codebeispielen erläutert.

2. IronPDF Java PDF-Bibliothek

IronPDF ist eine Softwarebibliothek, die Entwicklern die Möglichkeit bietet, Daten aus PDF-Dateien mit IronPDF for Java innerhalb ihrer Java-Anwendungen zu erstellen, zu bearbeiten und zu extrahieren. It allows you to create PDFs from HTML documents, images, and more, as well as merge multiple PDFs, split PDF files, and manipulate existing PDFs. IronPDF also provides the ability to secure PDFs with password protection features and add digital signatures to PDFs, among other features.

IronPDF for Java wird von Iron Software entwickelt und gepflegt. Eine seiner am besten bewerteten Funktionen ist das Extrahieren von Text und Daten aus PDF-Dateien sowie aus HTML und URLs.

3. voraussetzungen

Um IronPDF zum Extrahieren von Daten aus PDF-Dateien zu verwenden, müssen Sie die folgenden Voraussetzungen erfüllen:

  1. Java-Installation: Stellen Sie sicher, dass Java auf Ihrem System installiert ist und dass sein Pfad in den Umgebungsvariablen festgelegt ist. Wenn Sie Java noch nicht installiert haben, wenden Sie sich für Anweisungen an diese Download-Seite auf der Java-Website.
  2. Java-IDE: Haben Sie eine Java-IDE wie Eclipse oder IntelliJ installiert. You can download Eclipse from this Eclipse download page and IntelliJ from this IntelliJ download page.
  3. IronPDF-Bibliothek: Laden Sie die IronPDF-Bibliothek herunter und fügen Sie sie als Abhängigkeit in Ihrem Projekt hinzu. Besuchen Sie die IronPDF-Einrichtungsanweisungsseite für die Einrichtungshinweise.
  4. Maven-Installation: Maven sollte installiert und mit Ihrer IDE integriert sein, bevor Sie den PDF-Konvertierungsprozess starten. Lesen Sie dieses Maven-Installations-Tutorial auf JetBrains zur Installierung und Integration von Maven.

4. IronPDF for Java Installation

Die Installation von IronPDF for Java ist einfach und unkompliziert, vorausgesetzt, alle Anforderungen sind erfüllt. Diese Anleitung verwendet JetBrains' IntelliJ IDEA, um die Installation zu demonstrieren und Beispielcode auszuführen.

So gehen Sie vor:

  • Öffnen Sie IntelliJ IDEA: Starten Sie JetBrains IntelliJ IDEA auf Ihrem System.
  • Erstellen Sie ein Maven-Projekt: Erstellen Sie in IntelliJ IDEA ein neues Maven-Projekt. Dies bietet eine geeignete Umgebung für die Installation von IronPDF for Java.

Wie man Daten aus PDF in Java extrahiert, Abbildung 1: Neues Maven-Projekt in IntelliJ Neues Maven-Projekt in IntelliJ

  • Es erscheint ein neues Fenster. Geben Sie den Namen des Projekts ein und klicken Sie auf Fertig stellen.

Wie man Daten aus PDF in Java extrahiert, Abbildung 2: Benennen Sie das Maven-Projekt und klicken Sie auf Fertig stellen Benennen Sie das Maven-Projekt und klicken Sie auf Fertig stellen

  • Es öffnet sich ein neues Projekt mit einer pom.xml, sobald Sie auf Fertig stellen klicken. Dies wird verwendet, um die IronPDF Java Maven-Abhängigkeiten hinzuzufügen.

Wie man Daten aus PDF in Java extrahiert, Abbildung 3: Die pom.xml Datei Die pom.xml Datei

Fügen Sie die folgenden Abhängigkeiten in die pom.xml-Datei ein oder Sie können die JAR-Datei von der IronPDF-Bibliotheksseite auf Sonatype Central herunterladen.

<dependency>
    <groupId>com.ironsoftware</groupId>
    <artifactId>ironpdf</artifactId>
    <version>1.0.0</version> <!-- replace with the latest version -->
</dependency>
<dependency>
    <groupId>com.ironsoftware</groupId>
    <artifactId>ironpdf</artifactId>
    <version>1.0.0</version> <!-- replace with the latest version -->
</dependency>
XML

Sobald Sie die Abhängigkeiten in die pom.xml-Datei eingefügt haben, erscheint ein kleines Symbol in der oberen rechten Ecke der Datei.

Wie man Daten aus PDF in Java extrahiert, Abbildung 4: Klicken Sie auf das schwebende Symbol, um die Maven-Abhängigkeiten automatisch zu installieren Klicken Sie auf das schwebende Symbol, um die Maven-Abhängigkeiten automatisch zu installieren

Installieren Sie die Maven-Abhängigkeiten von IronPDF for Java, indem Sie diese Schaltfläche anklicken. Je nach Geschwindigkeit Ihrer Internetverbindung sollte dies nur wenige Minuten dauern.

5. Datenextraktion

IronPDF ist eine Java-Bibliothek zum Erstellen, Bearbeiten und Extrahieren von Daten aus PDF-Dokumenten. Sie bietet eine einfache API, um Text aus PDF-Dateien, URLs und Tabellen zu extrahieren.

5.1. Daten aus PDF-Dokumenten extrahieren

Mit IronPDF for Java können Sie ganz einfach Textdaten aus PDF-Dokumenten extrahieren. Unten folgt das Beispielcode zur Extraktion von Daten aus einer PDF-Datei.

Wie man Daten aus PDF in Java extrahiert, Abbildung 5: PDF-Eingabe PDF-Eingabe

// Import the necessary IronPDF package for working with PDF documents
import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        // Load the PDF document from the specified file
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));

        // Extract all text from the PDF document
        String text = pdf.extractAllText();

        // Print the extracted text to the console
        System.out.println("Text extracted from the PDF: " + text);
    }
}
// Import the necessary IronPDF package for working with PDF documents
import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        // Load the PDF document from the specified file
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));

        // Extract all text from the PDF document
        String text = pdf.extractAllText();

        // Print the extracted text to the console
        System.out.println("Text extracted from the PDF: " + text);
    }
}
JAVA

Der Quellcode ergibt die unten aufgeführte Ausgabe:

> Text extracted from the PDF:
> 
> CRAFT-ARENA
> 
> Muhammad Waleed Butt
> 
> Hassan Khan
> 
> ABOUT US
> 
> Craft-Arena is a partnership based business that will help local crafters of Pakistan to sell their handicrafts at good prices and helps them earn a good living.

5.2. Daten aus URLs extrahieren

IronPDF for Java konvertiert die URL zur Laufzeit in PDF und extrahiert Text daraus. Dieses Beispiel zeigt den Quellcode, um Text aus URLs zu extrahieren.

// Import the necessary IronPDF package for working with PDF documents
import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        // Convert a URL to a PDF and load it into a PdfDocument
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

        // Extract all text from the PDF document
        String text = pdf.extractAllText();

        // Print the extracted text to the console
        System.out.println("Text extracted from the URLs: " + text);
    }
}
// Import the necessary IronPDF package for working with PDF documents
import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        // Convert a URL to a PDF and load it into a PdfDocument
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

        // Extract all text from the PDF document
        String text = pdf.extractAllText();

        // Print the extracted text to the console
        System.out.println("Text extracted from the URLs: " + text);
    }
}
JAVA

Wie man Daten aus PDF in Java extrahiert, Abbildung 6: Extrahierte Webseitendaten Extrahierte Webseitendaten

5.3. Daten aus Tabellendaten extrahieren

Um Tabellendaten aus einem PDF mit IronPDF for Java zu extrahieren, ist sehr einfach; Alles, was Sie brauchen, ist ein PDF mit einer Tabelle und den folgenden Code auszuführen.

Wie man Daten aus PDF in Java extrahiert, Abbildung 7: Beispieldateneingabe für PDF-Tabelle Beispieldateneingabe für PDF-Tabelle

// Import the necessary IronPDF package for working with PDF documents
import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        // Load the PDF document from the specified file
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));

        // Extract all text from the PDF document, including table data
        String text = pdf.extractAllText();

        // Print the extracted table data to the console
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}
// Import the necessary IronPDF package for working with PDF documents
import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        // Load the PDF document from the specified file
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));

        // Extract all text from the PDF document, including table data
        String text = pdf.extractAllText();

        // Print the extracted table data to the console
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}
JAVA
> Test Case Description Expected Result Actual Result Status
> 
> 1 Test login functionality User should be able to log in with valid credentials
> 
> User log in successfully Pass
> 
> 2 Test search functionality Search results should be relevant and accurate
> 
> Search is accurate and provide relevant products Pass
> 
> 3 Test checkout process User should be able to complete a purchase successfully
> 
> User can purchase successfully Pass

6. Fazit

Abschließend hat dieses Tutorial gezeigt, wie man Daten, insbesondere Tabellendaten, aus einer PDF-Datei mit IronPDF for Java extrahiert.

Für weitere Informationen beachten Sie bitte das Beispiel zum Extrahieren von Text aus PDF auf der IronPDF-Website.

IronPDF ist eine Bibliothek mit kommerziellen Lizenzdetails, die bei $799 beginnen. Sie können es jedoch in der Produktion mit einer kostenlosen Testversion mit der IronPDF-Testlizenz auswerten.

Häufig gestellte Fragen

Wie extrahiere ich Text aus einem PDF in Java?

Sie können IronPDF for Java verwenden, um Text aus einem PDF zu extrahieren, indem Sie das Dokument mit der PdfDocument-Klasse laden und die extractAllText-Methode nutzen, um den Text abzurufen.

Kann ich Daten von einer URL extrahieren und in Java in ein PDF konvertieren?

Ja, IronPDF for Java erlaubt es Ihnen, eine URL zur Laufzeit in ein PDF zu konvertieren und Daten daraus zu extrahieren, indem Sie die PdfDocument-Klasse verwenden.

Was sind die Schritte, um IronPDF in IntelliJ IDEA einzurichten?

Um IronPDF in IntelliJ IDEA einzurichten, erstellen Sie ein neues Maven-Projekt, fügen Sie die IronPDF-Bibliothek Ihrer pom.xml-Datei hinzu und installieren Sie die Maven-Abhängigkeiten, indem Sie auf das erscheinende Icon klicken.

Was sind die Voraussetzungen für die Verwendung von IronPDF in Java?

Die Voraussetzungen umfassen die Installation von Java, einer Java-IDE wie Eclipse oder IntelliJ, der IronPDF-Bibliothek und die Installation und Integration von Maven mit Ihrer IDE.

Wie kann ich Tabellendaten aus einem PDF mit Java extrahieren?

Um Tabellendaten aus einem PDF mit IronPDF for Java zu extrahieren, laden Sie das PDF-Dokument mit der PdfDocument-Klasse und verwenden die extractAllText-Methode, um die Tabellendaten abzurufen.

Ist eine kommerzielle Lizenz erforderlich, um IronPDF for Java zu verwenden?

Ja, IronPDF for Java erfordert eine kommerzielle Lizenz, aber eine kostenlose Testversion ist zu Evaluationszwecken verfügbar.

Wo finde ich Tutorials zur Verwendung von IronPDF in Java?

Tutorials und Beispiele zur Verwendung von IronPDF for Java finden Sie auf der IronPDF-Website, insbesondere in den Beispielen- und Tutorial-Sektionen.

Welche Funktionen bietet IronPDF für Java-Entwickler?

IronPDF for Java bietet Funktionen zum Erstellen, Bearbeiten, Zusammenführen, Aufteilen und Manipulieren von PDF-Dateien sowie Features zur Sicherung von PDFs mit Passwortschutz und dem Hinzufügen von digitalen Signaturen.

Wie kann ich Probleme beim Extrahieren von Daten aus PDFs mit Java beheben?

Stellen Sie sicher, dass alle Voraussetzungen erfüllt sind, wie die neueste Java-Version, eine kompatible IDE und die IronPDF-Bibliothek. Überprüfen Sie die korrekte Maven-Integration und Bibliotheksabhängigkeiten in Ihrer pom.xml-Datei.

Darrius Serrant
Full-Stack-Software-Ingenieur (WebOps)

Darrius Serrant hat einen Bachelor-Abschluss in Informatik von der University of Miami und arbeitet als Full-Stack-WebOps-Marketing-Ingenieur bei Iron Software. Seit seiner Jugend vom Programmieren angezogen, sah er die Informatik als sowohl mysteriös als auch zugänglich, was es zum perfekten Medium für Kreativität und Problemlösung ...

Weiterlesen