VERWENDUNG VON IRONPDF FOR JAVA

Wie extrahiere ich ein Bild aus einer PDF-Datei in Java?

Aktualisiert 1. September 2024
Teilen Sie:

Dieser Artikel wird untersuchen, wie man Bilder aus einem bestehenden PDF-Dokument extrahiert und sie in einem einzigen Ordner mithilfe der Programmiersprache Java speichert. Dazu wird die IronPDF for Java-Bibliothek verwendet, um Bilder zu extrahieren.

IronPDF for Java PDF-Bibliothek

IronPDF ist eine Java-Bibliothek, die Entwicklern hilft, PDF-Dokumente zu erstellen, zu ändern und Daten aus PDF-Dateien extrahieren innerhalb ihrer Java-Anwendungen. Mit IronPDF können Sie PDF-Dokumente aus einer Vielzahl von Quellen erstellen, wie HTML, Bilder und mehr. Zusätzlich haben Sie die Möglichkeit zu zusammenführen, geteilt, und bestehende PDFs bearbeiten. IronPDF enthält auch Sicherheitsfunktionen wie passwortschutz und digitale Signaturen.

Entwickelt und gewartet von Iron Software, ist IronPDF bekannt für seine Fähigkeit, Text aus PDFs, HTML und URLs zu extrahieren. Das macht es zu einem vielseitigen und leistungsstarken Werkzeug für eine Vielzahl von Anwendungen, egal ob Sie PDFs von Grund auf neu erstellen oder mit bestehenden arbeiten.

Voraussetzungen

Bevor Sie IronPDF zum Extrahieren von Daten aus einer PDF-Datei verwenden können, müssen einige Voraussetzungen erfüllt sein:

  1. Java-Installation: Vergewissern Sie sich, dass Java auf Ihrem System installiert ist und dass sein Pfad in den Umgebungsvariablen festgelegt wurde. Wenn Sie Java noch nicht installiert haben, befolgen Sie die Anweisungen unter folgender Adresse Download-Seite von der Java-Website.

  2. Java IDE: Sie müssen entweder Eclipse oder IntelliJ als Ihre Java IDE installiert haben. Sie können Eclipse von dieser Seite herunterladen link und IntelliJ von diesem Download-Seite.

  3. IronPDF-Bibliothek: Laden Sie die IronPDF-Bibliothek herunter und fügen Sie sie als Abhängigkeit zu Ihrem Projekt hinzu. Eine Anleitung zur Einrichtung finden Sie auf der Website IronPDF-Website.

  4. Maven-Installation: Stellen Sie sicher, dass Maven installiert und in Ihre IDE integriert ist, bevor Sie den PDF-Konvertierungsprozess starten. Folgen Sie der Anleitung unter folgender Adresse Anleitung von JetBrains für Unterstützung bei der Installation und Integration von Maven.

IronPDF for Java Installation

Die Installation von IronPDF for Java ist unkompliziert, sofern alle Voraussetzungen erfüllt sind. Diese Anleitung verwendet JetBrains IntelliJ IDEA, um die Installation zu demonstrieren und einige Beispielcodes auszuführen.

Das ist zu tun:

Starten Sie IntelliJ IDEA: Öffnen Sie JetBrains IntelliJ IDEA auf Ihrem System.

Erstellen Sie ein Maven-Projekt: Erstellen Sie in IntelliJ IDEA ein neues Maven-Projekt. Dadurch wird eine geeignete Umgebung für die Installation von IronPDF for Java geschaffen.

Wie man ein Bild aus PDF in Java extrahiert, Abbildung 1: Ein neues Maven-Projekt erstellen

Erstellen Sie ein neues Maven-Projekt

Es erscheint ein neues Fenster. Geben Sie den Namen des Projekts ein und klicken Sie auf Fertig stellen.

Wie man ein Bild aus einer PDF in Java extrahiert, Abbildung 2: Geben Sie den Namen des Projekts ein

Geben Sie den Namen des Projekts ein

Nachdem Sie auf Fertig klicken, wird ein neues Projekt geöffnet, um eine pom.xml-Datei hinzuzufügen, die die Maven-Abhängigkeiten von IronPDF for Java enthält.

Fügen Sie als Nächstes die folgenden Abhängigkeiten in die Datei pom.xml ein oder laden Sie die JAR-Datei von den folgenden Links herunter: Maven-Repository.

<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2024.9.1</version>
</dependency>

Sobald Sie die Abhängigkeiten in die Datei pom.xml eingefügt haben, erscheint ein kleines Symbol in der rechten oberen Ecke der Datei.

Wie man ein Bild aus einer PDF-Datei in Java extrahiert, Abbildung 3: Die pom.xml-Datei mit einem kleinen Symbol zur Installation von Abhängigkeiten

Die pom.xml-Datei mit einem kleinen Symbol zur Installation von Abhängigkeiten

Klicken Sie auf dieses Symbol, um die Maven-Abhängigkeiten von IronPDF for Java zu installieren. Dies dauert je nach Internetverbindung nur wenige Minuten.

Bilder extrahieren

Sie können Bilder aus einem PDF-Dokument mit IronPDF mit einer einzigen Methode extrahieren, die [extractAllImages](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages()). Diese Methode gibt alle in einer PDF-Datei vorhandenen Bilder zurück. Anschließend können Sie alle extrahierten Bilder mit der Methode ImageIO.write unter Angabe des Pfades und des Formats des Ausgabebildes in einem Dateipfad Ihrer Wahl speichern.

5.1. Bilder aus PDF-Dokumenten extrahieren

Im folgenden Beispiel werden die Bilder aus einem PDF-Dokument extrahiert und als PNG-Bilder im Dateisystem gespeichert.

import com.ironsoftware.ironpdf.PdfDocument;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public class main {
    public static void main(String[] args) throws Exception {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("Final Project Report Craft Arena.pdf"));

        List<BufferedImage> images = pdf.extractAllImages();
        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("image" + ++i + ".png")));
        }
    }
}
JAVA

Das obige Programm öffnet die Datei "Final Project Report Craft Arena.pdf" und verwendet die Methode extractAllImages, um alle Bilder in der Datei in eine Liste von BufferedImage-Objekten zu extrahieren. Anschließend wird jedes neue Bild in separaten PNG-Dateien mit einem eindeutigen Namen gespeichert.

Wie man ein Bild aus einer PDF in Java extrahiert, Abbildung 4: Bildextraktion aus PDF-Ausgabe

Bildextraktion aus PDF-Ausgabe

Bilder von URL extrahieren

In diesem Abschnitt wird erläutert, wie Bilder direkt von URLs extrahiert werden können. Im folgenden Code wird die URL in eine PDF-Seite umgewandelt und dann die Navigation umgeschaltet, um Bilder aus dem PDF zu extrahieren.

import com.ironsoftware.ironpdf.PdfDocument;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public class main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://www.amazon.com/?tag=hp2-brobookmark-us-20");

        List<BufferedImage> images = pdf.extractAllImages();
        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("image" + ++i + ".png")));
        }
    }
}
JAVA

Im obigen Code wird die URL der Amazon-Startseite als Eingabe angegeben, und es werden 74 Bilder zurückgegeben.

So extrahieren Sie ein Bild aus einer PDF-Datei in Java, Abbildung 5: Bilderextraktion aus PDF-Ausgabe

Bildextraktion aus PDF-Ausgabe

Schlussfolgerung

Das Extrahieren von Bildern aus einem PDF-Dokument kann in Java mit der IronPDF-Bibliothek durchgeführt werden. Um IronPDF zu installieren, benötigen Sie Java, eine Java IDE (Eclipse oder IntelliJ), Maven und die IronPDF-Bibliothek installiert und in Ihr Projekt integriert. Der Prozess der Extraktion von Bildern aus einem PDF-Dokument mit IronPDF ist einfach und erfordert nur einen einzigen Methodenaufruf zu extractAllImages. Sie können die Bilder dann mit der Methode ImageIO.write in einem Dateipfad Ihrer Wahl speichern.

Dieser Artikel enthält eine Schritt-für-Schritt-Anleitung für wie man Bilder extrahiert aus einem PDF-Dokument mit Hilfe von Java und der IronPDF-Bibliothek. Weitere Einzelheiten, einschließlich Informationen über das Extrahieren von Text aus PDF-Dateien, finden Sie in der Text extrahieren Codebeispiel.

IronPDF ist eine Bibliothek mit einer handelslizenzbeginnend mit $749. Jedoch können Sie es in der Produktion mit einen kostenlosen Test.

< PREVIOUS
PDF-Erzeugung in Java
NÄCHSTES >
Wie extrahiert man Daten aus PDF in Java?

Installation mit Maven

Version:2024.9.1

<dependency>
  <groupId>com.ironsoftware</groupId>
  <artifactId>ironpdf</artifactId>
  <version>2024.9.1</version>
</dependency>

Sind Sie bereit, loszulegen? Version: 2024.9 gerade veröffentlicht

Gratis Maven Download Lizenzen anzeigen >