VERWENDUNG VON IRONPDF FOR PYTHON

Wie man in Python Bilder aus PDF-Dateien extrahiert

Jordi Bardia

14. November 2023

Aktualisiert 28. September 2024

Teilen Sie:

In diesem Artikel wird IronPDF for Python verwendet, um Bilder aus einer PDF-Datei mit Python-Code zu extrahieren.

IronPDF for Python

IronPDF für Python ist eine hochmoderne und leistungsstarke Bibliothek, die eine neue Dimension der PDF-Verarbeitung in Python eröffnet. Als umfassende Lösung für PDF-Aufgaben ermöglicht IronPDF die nahtlose Integration von erweiterten PDF-Funktionen in Anwendungen.

IronPDF bietet eine breite Palette von Tools und APIs für Aufgaben wiePDFs erstellenvon Grund auf neu, umwandelnHTML in hochwertige PDFsund das Verwalten von PDF-Seiten durch Aktionen wiezusammenlegung, spaltungund Bearbeitung. Diese Instrumente sind benutzerfreundlich und effizient. Mit seiner benutzerfreundlichen Oberfläche und der ausführlichen Dokumentation eröffnet IronPDF den Entwicklern neue Möglichkeiten.

Egal, ob Sie professionelle Berichte und Rechnungen erstellen, Workflows automatisieren oder Dokumente verwalten möchten, IronPDF bietet eine wertvolle Ressource im Bereich Dokumentenmanagement und Automatisierung und ist somit ein unverzichtbares Werkzeug für Entwickler, die die Möglichkeiten von PDFs in Python-Anwendungen nutzen möchten.

Wie man mit IronPDF for Python Bilder aus PDF-Dateien extrahiert

Installieren Sie die IronPDF-Bibliothek, um Bilder aus PDF-Dateien in Python zu extrahieren.
Schreiben Sie die Methode "PdfDocument.FromFile", um eine PDF-Datei mit einem Dateipfad von der lokalen Festplatte zu laden.
Wenden Sie die Methode "ExtractAllImages" an, um Bilder aus PDF-Dateien zu extrahieren.
Verwenden Sie eine Schleife, um alle in der PDF-Datei gefundenen extrahierten Bilder zu durchsuchen.
Speichern Sie diese extrahierten Bilder aus der PDF-Datei mit der gewünschten Bild-Erweiterung.

Voraussetzungen

Bevor wir uns mit der Extraktion von Bildern aus PDFs mit Python befassen, lassen Sie uns die notwendigen Voraussetzungen installieren:

Python-Installation: Stellen Sie sicher, dass Sie einePython interpreter, der auf Ihrem System installiert ist. Der Prozess der Gewinnung von Bildern aus PDFs erfordert Python 3.0 oder eine neuere Version. Stellen Sie sicher, dass Sie eine kompatible Python-Installation haben.
IronPDF Library: Zur Nutzung der leistungsstarken Funktionen vonIronPDF, müssen Sie es mit pip, dem Python-Paketmanager, installieren. Öffnen Sie einfach Ihre Befehlszeilenschnittstelle und führen Sie den folgenden Befehl aus:

    :ProductInstall

Integrierte Entwicklungsumgebung(IDE): Die Verwendung einer IDE ist zwar nicht zwingend erforderlich, kann aber Ihre Entwicklungserfahrung erheblich verbessern. IDEs bieten Funktionen wie Code-Vervollständigung, Debugging und einen strafferen Arbeitsablauf. Eine sehr beliebte IDE für die Python-Entwicklung ist PyCharm. Sie können PyCharm von der herunterladen und installierenJetBrains-Website.
Sobald diese Voraussetzungen erfüllt sind, können Sie die Schritt-für-Schritt-Anleitung durch die spannende Welt des Abrufs von Bildern aus PDFs mit Python und IronPDF erkunden.

Schritt 1 Erstellen eines neuen Python-Projekts

Hier sind die Schritte, um ein neues Python-Projekt in PyCharm zu erstellen.

Um ein neues Python-Projekt in PyCharm zu starten, öffnen Sie die PyCharm-Anwendung und navigieren Sie zum oberen Menü.
Klicken Sie auf Datei und wählen Sie Neues Projekt aus dem Dropdown-Menü.
PyCharm-IDE
Nachdem Sie auf Neues Projekt geklickt haben, erscheint ein neues Fenster mit dem Titel Projekt erstellen.
Geben Sie in diesem Fenster Ihren Projektnamen in das Feld Ort oben ein. Wählen Sie die Umgebung aus; wenn Sie eine virtuelle Umgebung verwenden, wählen Sie diese aus den angebotenen Optionen aus.
Erstellen Sie ein neues Python-Projekt in PyCharm
Sobald die Umgebung ausgewählt ist, klicken Sie auf die Schaltfläche Erstellen, um Ihr Python-Projekt zu erstellen.
Ihr Python-Projekt ist nun erstellt und kann für verschiedene Aufgaben, wie z. B. die Extraktion von Bildern, verwendet werden.

Schritt 2 Installation von IronPDF

Um IronPDF zu installieren, öffnen Sie einfach das Terminal oder eine separate Eingabeaufforderung und geben Sie den Befehl pip install ironpdf ein, und drücken Sie dann die Taste Enter. Das Terminal zeigt die folgende Ausgabe an.

So extrahieren Sie Bilder aus PDF in Python, Abbildung 3: IronPDF-Paket installieren

IronPDF-Paket installieren

Schritt 3 Extrahieren von Bildern aus PDF-Dateien mit IronPDF

IronPDF stellt Entwicklern Werkzeuge und APIs zur Verfügung, mit denen sie nahtlos durch PDFs navigieren und eingebettete Bilder identifizieren und extrahieren können. Ob zur Analyse oder Integration, IronPDF rationalisiert die Extraktion durch die Flexibilität von Python. Dies macht es unerlässlich für die Arbeit mit PDFs und bildbasierten Anwendungen. Es kann alle Bilder aus einer PDF-Datei extrahieren, was mit nur wenigen Codezeilen bemerkenswert einfach ist.

Sehen Sie sich den folgenden Code an, um Bilder aus einer PDF-Datei mit der Programmiersprache Python zu extrahieren.

from ironpdf import *

# Open PDF file
pdf = PdfDocument.FromFile("FYP Thesis.pdf") 

# Get all images found in PDF Document
all_images = pdf.ExtractAllImages()

# Save each image to the local disk image
for i, image in enumerate(all_images):
    image.SaveAs(f"output_image_{i}.png")

from ironpdf import *

# Open PDF file
pdf = PdfDocument.FromFile("FYP Thesis.pdf") 

# Get all images found in PDF Document
all_images = pdf.ExtractAllImages()

# Save each image to the local disk image
for i, image in enumerate(all_images):
    image.SaveAs(f"output_image_{i}.png")

PYTHON

Dieser Code importiert zunächst die IronPDF-Bibliothek und lädt dann die PDF-Datei aus dem lokalen Speicher, wobei nur der Dateipfad mit der Methode PdfDocument.FromFile verwendet wird. Dann wird auf jede Seite einer PDF-Datei zugegriffen, um Bildbytes als Bildobjekte zu extrahieren. Diese Bildobjekte von PDF-Seiten werden dann mit der Methode SaveAs gespeichert. Im obigen Code weist der Benutzer einen dynamischen Bildnamen zu, der auf Bildindizes und der Bilderweiterung PNG basiert.

Einfacher als die alternative Verwendung von Python-Bibliotheken wiePyMuPDF undKopfkissenBibliotheken, die import fitz verwenden, um Bilder mit ExtractImage zu extrahieren()` und verwenden Sie from PIL import Image, um Bytes in eine PIL-Image-Instanz zu konvertieren und Bilddateien auf der Festplatte zu speichern. IronPDF erreicht dies mit nur wenigen Zeilen Code.

Schritt 4 Speichern der Bilder aus der PDF-Datei

Die Bilder werden aus allen Seiten einer PDF-Datei extrahiert und im PNG-Format gespeichert. Sie haben auch die Möglichkeit, das Ausgabeformat zu ändern, um die verfügbaren Bildobjekte zu speichern, indem Sie die Dateierweiterung an die gewünschten Bilddateiformate anpassen.

Wie man Bilder aus einem PDF in Python extrahiert, Abbildung 4: Die extrahierten Bilder aus der PDF-Beispieldatei

Die extrahierten Bilder aus der Beispiel-PDF-Datei

Schlussfolgerung

Python, zusammen mit dem leistungsfähigenIronPDFbietet eine vielseitige und effiziente Lösung für die Aufgabe, Bilder aus PDF-Dateien abzurufen. Dank der Flexibilität von Python und den Möglichkeiten von IronPDF können Entwickler nahtlos in PDF-Dokumenten navigieren, Bild-Bytes darin finden und diese Bilder mit der gewünschten Bild-Erweiterung speichern. Dabei werden Bilder aus einer PDF-Datei entnommen, und die resultierende Bildliste kann nach Bedarf weiterverarbeitet und manipuliert werden. Durch die Beherrschung der Kunst des Erfassens von Bildern aus PDF-Dateien mit Python können Entwickler ihre Arbeitsabläufe verbessern, die Dokumentenverwaltung automatisieren und eine breite Palette von bildbasierten Anwendungen erforschen, was sie zu einer wertvollen Fähigkeit im digitalen Zeitalter macht.

Weitere Funktionen zu Bildern aus PDF-Dateien finden Sie unter folgender Adressebeispiel. Sie können andere Operationen erkunden, wie Optionen zum Konvertieren von PDF-Dateiinhalten in Bilder. Das vollständige Tutorial ist in diesem verfügbar.how-to Python-Artikel.

Jordi Bardia

Jetzt mit dem Ingenieurteam chatten

Software-Ingenieur

Jordi beherrscht vor allem Python, C# und C++. Wenn er seine Fähigkeiten bei Iron Software nicht einsetzt, programmiert er Spiele. Durch seine Mitverantwortung für Produkttests, Produktentwicklung und Forschung trägt Jordi wesentlich zur kontinuierlichen Produktverbesserung bei. Die vielseitigen Erfahrungen, die er sammelt, bieten ihm immer wieder neue Herausforderungen, und er sagt, dass dies einer seiner Lieblingsaspekte bei Iron Software ist. Jordi wuchs in Miami, Florida, auf und studierte Informatik und Statistik an der University of Florida.

< PREVIOUS
Wie man PNG in Python in eine PDF-Datei konvertiert

NÄCHSTES >
Wie man in Python Daten aus PDF-Dateien extrahiert