Zum Fußzeileninhalt springen
VERWENDUNG VON IRONPDF FüR JAVA

Wie man PDF-Dateien in Java liest

Dieser Artikel wird untersuchen, wie ein PDF-Reader erstellt wird, um eine PDF-Datei in Ihrer Softwareanwendung programmgesteuert zu öffnen. Um diese Aufgabe effektiv auszuführen, ist IronPDF for Java eine solche Systembibliothek, die hilft, PDF-Dateien mit dem Dateinamen in Java-Programmen zu öffnen und zu lesen.

class="hsg-featured-snippet">

Wie man PDF-Dateien in Java liest

  1. Laden Sie die IronPDF Java-Bibliothek herunter
  2. Verwenden Sie die fromFile-Methode, um vorhandene PDF-Dokumente zu laden
  3. Rufen Sie die extractAllText-Methode auf, um eingebetteten Text in PDFs zu extrahieren
  4. Extrahieren Sie Text von einer bestimmten Seite mit der extractTextFromPage-Methode
  5. Rufen Sie Texte von PDFs ab, die aus URLs gerendert wurden

IronPDF

Die IronPDF - Java-Bibliothek basiert auf dem bereits erfolgreichen .NET-Framework. Das macht IronPDF zu einem vielseitigen Werkzeug zur Arbeit mit PDF-Dokumenten im Vergleich zu anderen Klassenbibliotheken wie Apache PDFBox. Es bietet die Möglichkeit, Inhalte zu extrahieren und zu analysieren, Text zu laden und Bilder zu laden. It also provides options to customize the PDF pages such as page layout, margins, header and footer, page orientation, and much more.

Zusätzlich unterstützt IronPDF auch die Konvertierung von anderen Dateiformaten, das Schützen von PDFs mit einem Passwort, digitale Signaturen, das Zusammenführen und Aufteilen von PDF-Dokumenten.

Wie man PDF-Dateien in Java liest

Voraussetzungen

Um IronPDF zu verwenden, um einen Java-PDF-Reader zu erstellen, ist es notwendig, sicherzustellen, dass die folgenden Komponenten auf dem Computer installiert sind:

  1. JDK - Java Development Kit wird benötigt, um Java-Programme zu erstellen und auszuführen. Falls es nicht installiert ist, laden Sie es von der Oracle-Website herunter.
  2. IDE - Integrierte Entwicklungsumgebung ist Software, die hilft, ein Programm zu schreiben, zu bearbeiten und zu debuggen. Laden Sie eine beliebige IDE für Java herunter, z.B. Eclipse, NetBeans, IntelliJ.
  3. Maven - Maven ist ein Automatisierungstool, das hilft, Bibliotheken aus dem zentralen Repository herunterzuladen. Laden Sie es von der Apache Maven-Website herunter.
  4. IronPDF - Schließlich wird IronPDF benötigt, um die PDF-Datei in Java zu lesen. Dies muss als Abhängigkeit in Ihrem Java Maven-Projekt hinzugefügt werden. Fügen Sie das IronPDF-Artefakt zusammen mit der slf4j-Abhängigkeit in die pom.xml-Datei ein, wie im folgenden Beispiel gezeigt:
<!-- Add Maven dependencies for IronPDF -->
<dependencies>
    <!-- IronPDF Dependency -->
    <dependency>
        <groupId>com.ironsoftware</groupId>
        <artifactId>ironpdf</artifactId>
        <version>your-version-here</version>
    </dependency>

    <!-- SLF4J Dependency necessary for logging -->
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-api</artifactId>
        <version>1.7.32</version>
    </dependency>
</dependencies>
<!-- Add Maven dependencies for IronPDF -->
<dependencies>
    <!-- IronPDF Dependency -->
    <dependency>
        <groupId>com.ironsoftware</groupId>
        <artifactId>ironpdf</artifactId>
        <version>your-version-here</version>
    </dependency>

    <!-- SLF4J Dependency necessary for logging -->
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-api</artifactId>
        <version>1.7.32</version>
    </dependency>
</dependencies>
XML

Notwendige Importe hinzufügen

Zuerst fügen Sie den folgenden Code oben in die Java-Quelldatei ein, um alle benötigten Methoden von IronPDF zu referenzieren:

import com.ironsoftware.ironpdf.*;
// Necessary imports from IronPDF library
import com.ironsoftware.ironpdf.*;
// Necessary imports from IronPDF library
JAVA

Konfigurieren Sie als nächstes IronPDF mit einem gültigen Lizenzschlüssel, um seine Methoden zu verwenden. Rufen Sie die Methode setLicenseKey in der Hauptmethode auf.

License.setLicenseKey("Your license key");
// Set your IronPDF license key - required for full version
License.setLicenseKey("Your license key");
// Set your IronPDF license key - required for full version
JAVA

Hinweis: Sie können einen kostenlosen Testlizenzschlüssel erhalten, um PDFs zu erstellen, zu lesen und zu drucken.

Vorhandene PDF-Datei in Java lesen

Um PDF-Dateien zu lesen, müssen PDF-Dateien vorhanden sein, oder man kann eine erstellen. Dieser Artikel wird eine bereits erstellte PDF-Datei verwenden. Der Code ist einfach und ein zweistufiger Prozess, um Text aus dem Dokument zu extrahieren:

// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract all text from the PDF
String text = pdf.extractAllText();
// Print the extracted text
System.out.println(text);
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract all text from the PDF
String text = pdf.extractAllText();
// Print the extracted text
System.out.println(text);
JAVA

Im obigen Code öffnet fromFile ein PDF-Dokument. Die Paths.get-Methode erhält das Verzeichnis der Datei und ist bereit, Inhalte aus der Datei zu extrahieren. Dann liest [extractAllText](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) den gesamten Text im Dokument.

Das Ergebnis ist unten:

Wie man eine PDF-Datei in Java liest, Abbildung 1: Lesen von PDF-Textausgabe Lesen der PDF-Textausgabe

Text von einer bestimmten Seite lesen

IronPDF kann auch Inhalte von einer bestimmten Seite in einem PDF lesen. Die extractTextFromPage-Methode verwendet ein PageSelection-Objekt, um einen Bereich von Seite(n) zu akzeptieren, aus denen der Text gelesen wird.

Im folgenden Beispiel wird der Text von der zweiten Seite des PDF-Dokuments extrahiert. PageSelection.singlePage nimmt den Index der Seite, die extrahiert werden soll (Index beginnend bei 0).

// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract text from the second page (page index based, starts at 0, so 1 means second page)
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
// Print the extracted text from the specified page
System.out.println(text);
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract text from the second page (page index based, starts at 0, so 1 means second page)
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
// Print the extracted text from the specified page
System.out.println(text);
JAVA

Wie man PDF-Dateien in Java liest, Abbildung 2: Lesen der PDF-Textausgabe Lesen der PDF-Textausgabe

Other methods available in the PageSelection class which can be used to extract text from various pages include: [firstPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#lastPage()), [lastPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#firstPage()), pageRange, and [allPages](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#allPages()).

Text aus einer neu generierten PDF-Datei lesen

Suchtext kann auch aus einer neu generierten PDF-Datei entweder aus einer HTML-Datei oder einer URL durchgeführt werden. Der folgende Beispielcode generiert PDFs aus URL und extrahiert den gesamten Text von der Website.

// Generate PDF from a URL
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
// Extract all text from the generated PDF
String text = pdf.extractAllText();
// Print the extracted text from the URL
System.out.println("Text extracted from the website: " + text);
// Generate PDF from a URL
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
// Extract all text from the generated PDF
String text = pdf.extractAllText();
// Print the extracted text from the URL
System.out.println("Text extracted from the website: " + text);
JAVA

Wie man PDF-Dateien in Java liest, Abbildung 3: Lesen von einer neuen Datei Lesen von einer neuen Datei

IronPDF kann auch verwendet werden, um Bilder aus PDF-Dateien zu extrahieren.

Der vollständige Code lautet wie folgt:

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        // Set the IronPDF license key for commercial use
        License.setLicenseKey("YOUR LICENSE KEY HERE");

        // Read text from a specific page in an existing PDF
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        // Read all text from a PDF generated from a URL
        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);
    }
}
import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        // Set the IronPDF license key for commercial use
        License.setLicenseKey("YOUR LICENSE KEY HERE");

        // Read text from a specific page in an existing PDF
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        // Read all text from a PDF generated from a URL
        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);
    }
}
JAVA

Zusammenfassung

Dieser Artikel erklärte, wie man PDFs in Java mit IronPDF öffnet und liest.

IronPDF hilft dabei, PDFs einfach aus HTML oder URL zu erstellen und aus verschiedenen Dateiformaten zu konvertieren. Es hilft auch dabei, PDF-Aufgaben schnell und einfach zu erledigen.

Probieren Sie IronPDF für 30 Tage mit einem kostenlosen Test aus und finden Sie heraus, wie gut es für Sie in der Produktion funktioniert. Entdecken Sie kommerzielle Lizenzierungsoptionen für IronPDF, die nur bei $799 beginnen.

Häufig gestellte Fragen

Wie kann ich einen PDF-Reader in Java erstellen?

Sie können einen PDF-Reader in Java erstellen, indem Sie IronPDF verwenden, die `fromFile`-Methode nutzen, um PDF-Dokumente zu laden, und dann Methoden wie `extractAllText` einsetzen, um den Inhalt zu parsen und zu bearbeiten.

Welche Schritte für IronPDF-Voraussetzungen in Java?

Um IronPDF in Java zu verwenden, müssen Sie das Java Development Kit (JDK) installieren, eine integrierte Entwicklungsumgebung (IDE) wie Eclipse oder IntelliJ einrichten, Maven für die Abhängigkeitsverwaltung konfigurieren und die IronPDF-Bibliothek in Ihr Projekt einbinden.

Wie extrahiere ich Text aus einer PDF-Datei in Java?

Um Text aus einer PDF-Datei in Java mit IronPDF zu extrahieren, können Sie die `extractAllText`-Methode verwenden, um den gesamten Text des Dokuments abzurufen oder `extractTextFromPage`, um Text von einer bestimmten Seite zu extrahieren.

Kann ich in Java ein PDF aus einer URL generieren?

Ja, mit IronPDF können Sie ein PDF aus einer URL generieren, indem Sie die Methode `renderUrlAsPdf` verwenden, die Webinhalte in ein PDF-Format umwandelt.

Unterstützt IronPDF das Hinzufügen von Passwortschutz zu PDFs in Java?

Ja, IronPDF unterstützt das Hinzufügen von Passwortschutz zu PDFs sowie andere Funktionen wie das digitale Signieren und Zusammenführen oder Aufteilen von Dokumenten.

Welche Dateiformate kann IronPDF in Java in PDF konvertieren?

IronPDF kann verschiedene Dateiformate in PDF konvertieren, einschließlich HTML und anderer Dokumentformate, und bietet flexible Optionen für die PDF-Erstellung und -Bearbeitung.

Gibt es eine Testversion von IronPDF in Java?

Ja, IronPDF bietet eine 30-tägige kostenlose Testversion, die es Ihnen ermöglicht, seine Funktionen zu testen und die Leistung in Ihren Java-Anwendungen zu evaluieren, bevor Sie eine Lizenz erwerben.

Wie kann ich Text von einer bestimmten Seite in einem PDF-Dokument mit einer Java-Bibliothek extrahieren?

Mit IronPDF können Sie Text von einer bestimmten Seite in einem PDF extrahieren, indem Sie die `extractTextFromPage`-Methode verwenden, die die Angabe der Seitenzahl oder des Bereichs erfordert.

Darrius Serrant
Full-Stack-Software-Ingenieur (WebOps)

Darrius Serrant hat einen Bachelor-Abschluss in Informatik von der University of Miami und arbeitet als Full-Stack-WebOps-Marketing-Ingenieur bei Iron Software. Seit seiner Jugend vom Programmieren angezogen, sah er die Informatik als sowohl mysteriös als auch zugänglich, was es zum perfekten Medium für Kreativität und Problemlösung ...

Weiterlesen