VERWENDUNG VON IRONPDF FOR JAVA

Wie man PDF-Dateien in Java liest

Aktualisiert 1. September 2024
Teilen Sie:

Dieser Artikel wird untersuchen, wie man einen PDF-Reader erstellt, um eine PDF-Datei in Ihrer Softwareanwendung programmgesteuert zu öffnen. Um diese Aufgabe effektiv auszuführen, ist IronPDF for Java eine solche Systembibliothek, die dabei hilft, PDF-Dateien mithilfe des Dateinamens in einem Java-Programm zu öffnen und zu lesen.

IronPDF

IronPDF - Java-Bibliothek basiert auf dem bereits erfolgreichen .NET Framework. Dies macht IronPDF im Vergleich zu anderen Klassenbibliotheken wie Apache PDFBox zu einem vielseitigen Werkzeug für die Arbeit mit PDF-Dokumenten. Es bietet die Möglichkeit zu extrahieren/parsen Inhalt, Text laden, und Bilder laden. Es bietet auch Optionen an, um die PDF-Seiten anzupassen, wie zum Beispiel SeitenlayoutRänder kopf- und Fußzeile, seitenausrichtung und vieles mehr.

Zusätzlich dazu unterstützt IronPDF auch die Konvertierung aus anderen Dateiformaten, das Schützen von PDFs mit einem Passwort, das digitale Signieren sowie das Zusammenführen und Aufteilen von PDF-Dokumenten.

Wie man PDF-Dateien in Java liest

Voraussetzungen

Um IronPDF zu verwenden, um einen Java-PDF-Reader zu erstellen, müssen folgende Komponenten auf dem Computer installiert sein:

  1. JDK - Java Development Kit ist für die Erstellung und Ausführung von Java-Programmen erforderlich. Falls es nicht installiert ist, laden Sie es herunter von der Oracle-Website.

  2. IDE - Eine Integrierte Entwicklungsumgebung ist eine Software, die beim Schreiben, Bearbeiten und Debuggen eines Programms hilft. Laden Sie eine beliebige IDE für Java herunter. Zum Beispiel Eclipse, NetBeans, IntelliJ.

  3. Maven - Maven ist ein Automatisierungswerkzeug, das beim Herunterladen von Bibliotheken aus dem Central Repository hilft. Laden Sie es von der Apache Maven-Website.

  4. IronPDF - IronPDF wird benötigt, um PDF-Dateien in Java zu lesen. Dies muss als Abhängigkeit in Ihrem Java Maven Projekt hinzugefügt werden. Fügen Sie das IronPDF-Artefakt zusammen mit der slf4j-Abhängigkeit in die pom.xml-Datei ein, wie im unten stehenden Beispiel gezeigt:
<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2024.9.1</version>
</dependency>

Hinzufügen notwendiger Importe

Fügen Sie zunächst den folgenden Code in die Java-Quelldatei ein, um alle erforderlichen Methoden von IronPDF zu referenzieren. Import org ist in diesem Beispiel optional.

import com.ironsoftware.ironpdf.*;
JAVA

Als nächstes konfigurieren Sie IronPDF mit einem gültigen Lizenzschlüssel, um seine Methode zu verwenden. Rufen Sie die Methode setLicenseKey in der Hauptmethode auf.

License.setLicenseKey("Your license key");
JAVA

Hinweis: Sie können einen kostenlosen Testlizenzschlüssel erhalten, um PDFs zu erstellen, zu lesen und zu drucken.

Bestehende PDF-Datei in Java lesen

An pDF-Dateien lesen, es müssen PDF-Dateien vorhanden sein oder eine kann erstellt werden. Dieser Artikel verwendet eine bereits erstellte PDF-Datei. Der Code ist einfach und ein zweistufiger Prozess, um Text aus dem Dokument zu extrahieren.

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractAllText();
System.out.println(text);
JAVA

Im obigen Code, vonDatei öffnet ein PDF-Dokument. Die Methode Paths.get erhält das Verzeichnis der Datei und ist bereit, Inhalte aus der Datei zu extrahieren. Dann, [extrahiereAllText](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) liest den gesamten Text im Dokument.

Die Ausgabe ist unten zu sehen:

Wie man eine PDF-Datei in Java liest, Abbildung 1: Ausgabe des PDF-Textlesens

PDF-Textausgabe lesen

Text von einer bestimmten Seite lesen

IronPDF kann auch den Inhalt einer bestimmten Seite in einer PDF-Datei lesen. Die Methode extractTextFromPage verwendet ein PageSelection-Objekt, um einen Bereich von Seiten zu akzeptieren(s) aus dem der Text vorgelesen wird.

Im folgenden Beispiel wird der Text aus der zweiten Seite des PDF-Dokuments extrahiert. pageSelection.singlePage" nimmt den Index der Seite, die extrahiert werden soll.

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
System.out.println(text);
JAVA

Wie man eine PDF-Datei in Java liest, Abbildung 2: PDF-Textausgabe lesen

PDF-Textausgabe lesen

Weitere Methoden, die in der PageSelection-Klasse verfügbar sind und zur Textextraktion aus verschiedenen Seiten verwendet werden können, umfassen: [ersteSeite](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#lastPage()), [letzteSeite](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#firstPage()), Seitenbereichund [alleSeiten](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#allPages()).

Text aus einer neu erzeugten PDF-Datei lesen

Der Suchtext kann auch in einer neu erzeugten PDF-Datei entweder aus einer HTML-Datei oder einer URL durchgeführt werden. Der folgende Beispielcode erzeugt eine PDF-Datei aus einer URL und extrahiert den gesamten Text aus der Website.

PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
String text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);
JAVA

Wie man eine PDF-Datei in Java liest, Abbildung 2: Aus einer neuen Datei lesen

Aus einer neuen Datei lesen

IronPDF kann auch verwendet werden, um bilder extrahieren aus PDF-Dateien.

Der vollständige Code lautet wie folgt:

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {

        License.setLicenseKey("YOUR LICENSE KEY HERE");

        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);

    }
}
JAVA

Zusammenfassung

Dieser Artikel erklärt, wie man PDFs in Java mit IronPDF öffnet und liest.

IronPDF hilft dabei, einfach PDFs aus HTML oder URL zu erstellen und auch von verschiedenen Dateiformaten zu konvertieren. Auch PDF-Aufgaben lassen sich damit schnell und einfach erledigen.

Versuchen Sie IronPDF für 30-Tage und herausfinden, wie gut es für Sie in der Produktion funktioniert. Kommerzielle Lizenzen $liteLicense bietet grundlegende Funktionen für kleinere Projekte. Mit der Lite License können Sie die wichtigsten Funktionen von IronPDF nutzen, jedoch mit begrenzter Kapazität und ohne kommerziellen Support. Für erweiterte Anforderungen empfehlen wir unsere Plus License oder Professional License. Mit der Unlimited License erhalten Sie uneingeschränkten Zugriff auf alle Funktionen unserer Iron-Suite für .NET, einschließlich IronPDF, IronOCR, IronXL, IronBarcode, IronQR, IronZIP, IronWord, IronPrint und IronWebscraper.

< PREVIOUS
Wie man PDF-Dateien in Java aufteilt
NÄCHSTES >
HTML2PDF Java (Code-Beispiel-Tutorial)

Sind Sie bereit, loszulegen? Version: 2024.9 gerade veröffentlicht

Gratis Maven Download Lizenzen anzeigen >