Zum Fußzeileninhalt springen
VERWENDUNG VON IRONPDF FüR NODE.JS

Wie man Bilder aus einem PDF in Node.js extrahiert

Wie man Bilder aus PDF-Dateien mit IronPDF Node.js extrahiert

  1. Eine Node.js-Anwendung einrichten.
  2. IronPDF NPM-Pakete installieren.
  3. PDFs zur Extraktion vorbereiten.
  4. Bilder aus der PDF-Datei extrahieren und speichern.

Voraussetzungen

Wenn Sie Node.js noch nicht installiert haben, laden Sie es herunter und installieren es von https://nodejs.org/.

Einführung des IronPDF NPM-Pakets

Das IronPDF NPM-Paket ist ein Node.js-Wrapper für die IronPDF-Bibliothek, ursprünglich für .NET-Umgebungen entwickelt. Es erlaubt Entwicklern, die leistungsfähigen PDF-Manipulationsfähigkeiten von IronPDF in Node.js-Anwendungen zu nutzen. Dieses Paket ist besonders nützlich für die Arbeit mit PDF-Dokumenten und bietet eine Vielzahl von Funktionen, die in vielen realen Anwendungen wie Dateiverarbeitung, Berichtsgenerierung und mehr nützlich sein können.

Wichtige Funktionen von IronPDF in Node.js

  1. PDF-Erstellung:

    IronPDF kann PDFs aus verschiedenen Quellen erstellen, einschließlich HTML-Inhalt, Bilder oder sogar Rohtext. Diese Funktion ist sehr nützlich für Webanwendungen, die Berichte, Rechnungen oder andere Dokumente im PDF-Format generieren müssen.

    IronPDF unterstützt die Gestaltung und Formatierung von HTML-Inhalten, was es zu einer ausgezeichneten Wahl macht, um Webseiten in gut strukturierte PDF-Dokumente zu konvertieren.

  2. PDF-Bearbeitung:

    Mit IronPDF können Sie vorhandene PDFs durch Hinzufügen von Text, Bildern, Annotationen und Ändern des Layouts manipulieren. Sie können auch mehrere PDFs zu einem zusammenführen, ein großes Dokument in kleinere Teile aufteilen oder sogar Seiten innerhalb eines PDFs neu ordnen.

    Diese Funktionen machen es ideal für Anwendungen, die dynamisch PDFs ändern müssen, wie Dokumentenmanagementsysteme oder Anwendungen, die automatisierte Dokumentengenerierung erfordern.

  3. PDF-Konvertierung:

    Eine der herausragenden Funktionen von IronPDF ist die Fähigkeit, PDFs in verschiedene andere Formate zu konvertieren. Zum Beispiel kann es PDF-Dokumente in Bilder (PNG, JPEG), HTML und Word-Formate konvertieren.

    Diese Funktion ist besonders nützlich, wenn Sie den Inhalt eines PDFs in unterschiedlichen Formaten präsentieren oder Bildvorschauen von PDFs für Benutzeroberflächen erstellen müssen.

  4. Text- und Bilderextraktion:

    Während IronPDF keine direkte REST-API zur Extraktion von Rohbildern aus einem PDF hat, bietet es eine Methode, um PDF-Seiten als Bilder (wie PNG oder JPEG) zu rendern, was als indirekter Weg zur Inhaltsgewinnung verwendet werden kann.

    Sie können jede Seite des PDFs in ein Bild rendern, wodurch die visuelle Darstellung des Dokuments effektiv erfasst und für die weitere Nutzung oder Darstellung gespeichert wird.

  5. Seiten als Bilder rendern:

    IronPDF kann PDF-Seiten in hochqualitative Bilder umwandeln. Zum Beispiel können Sie ein mehrseitiges PDF in eine Serie von PNGs umwandeln, eines für jede Seite. Dies ist besonders nützlich, wenn Sie die Seiten als Miniaturansichten oder in einem bildbasierten Format anzeigen müssen. Es unterstützt verschiedene Bildformattypen.

  6. Sicherheit und Verschlüsselung:

    IronPDF unterstützt die Arbeit mit verschlüsselten PDFs. Es erlaubt Ihnen, gesicherte Dokumente zu öffnen, zu entschlüsseln und zu manipulieren, was wesentlich ist, um mit Dokumenten zu arbeiten, die Passwörter oder andere Schutzmaßnahmen erfordern.

  7. Plattformübergreifende Kompatibilität:

    IronPDF ist sowohl mit Windows- als auch mit Linux-Umgebungen kompatibel und macht es zu einem vielseitigen Werkzeug für serverseitige Anwendungen. Der Node.js-Wrapper vereinfacht den Prozess der Integration von IronPDF in Node.js-basierte Anwendungen.

Schritt 1: Eine Node.js-Anwendung einrichten

Zu Beginn richten Sie den Node.js-Projektordner ein, indem Sie einen Ordner auf dem lokalen Computer erstellen und Visual Studio Code öffnen.

mkdir PdfImageExtractor
cd PdfImageExtractor
code .
mkdir PdfImageExtractor
cd PdfImageExtractor
code .
SHELL

Schritt 2: Die IronPDF NPM-Pakete installieren

Installieren Sie das IronPDF Node.js-Paket und sein unterstützendes Paket basierend auf Windows- oder Linux-Rechnern

npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
SHELL

Das Paket @ironsoftware/ironpdf-engine-windows-x64 ist eine plattformspezifische Version der IronPDF-Bibliothek, die speziell für Windows 64-Bit-Systeme entwickelt wurde.

1. Plattformspezifisches Binärprogramm für Windows (64-Bit)

Die IronPDF-Bibliothek hat plattformspezifische Abhängigkeiten. Damit Node.js effizient mit IronPDF arbeitet, werden native Binärprogramme benötigt, die speziell auf bestimmte Betriebssysteme und Architekturen zugeschnitten sind. In diesem Fall bietet das @ironsoftware/ironpdf-engine-windows-x64 Paket die native Engine für Windows 64-Bit-Umgebungen.

2. Optimierte Leistung

Durch die Verwendung dieses spezifischen Windows-Pakets stellen Sie sicher, dass die IronPDF-Bibliothek optimal auf Windows-basierten Systemen funktioniert. Es stellt sicher, dass alle nativen Abhängigkeiten, wie die zur PDF-Darstellung und -Manipulation, kompatibel sind und reibungslos auf Ihrem Rechner funktionieren.

3. Installation erleichtern

Anstatt die erforderlichen Binärdateien für Windows 64-Bit-Systeme manuell zu verwalten und zu konfigurieren, automatisiert die Installation des @ironsoftware/ironpdf-engine-windows-x64-Pakets diesen Prozess. Dies spart Zeit und eliminiert potenzielle Kompatibilitätsprobleme.

4. Plattformübergreifende Kompatibilität

IronPDF unterstützt auch andere Plattformen wie macOS und Linux. Durch die Bereitstellung plattformspezifischer Pakete können Entwickler die richtige Binärdatei für ihr Betriebssystem verwenden, was die Stabilität und Zuverlässigkeit der Bibliothek insgesamt verbessert.

5. Notwendig für bestimmte Funktionen

Wenn Sie bestimmte IronPDF-Funktionen verwenden (wie das Rendern von PDFs zu Bildern oder das Ausführen komplexer Dokumentenmanipulationen), ist die native Engine erforderlich. Das Paket @ironsoftware/ironpdf-engine-windows-x64 enthält diese Engine speziell für Windows-basierte Umgebungen.

Schritt 3: Ein PDF für die Extraktion vorbereiten

Erhalten Sie nun die PDF-Datei, die extrahiert werden muss. Kopieren Sie den Pfad, um ihn in der Anwendung zu verwenden. Dieser Artikel verwendet die folgende Datei.

Wie man Bilder aus PDF in Node.js extrahiert: Abbildung 1 - Beispieldatei

Schritt 4: Bilder aus PDF-Datei extrahieren und speichern

Verwenden Sie nun die Datei im obigen Schritt und schreiben Sie das untenstehende Code-Snippet in eine app.js-Datei im Node.js-Projektordner.

const fs = require('fs');
const { IronPdfGlobalConfig, PdfDocument } = require('@ironsoftware/ironpdf')

// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";

(async () => {
    // Extracting Image and Text content from Pdf Documents

    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("ironPDF.pdf");

    // Get all text to put in a search index and log it
    const text = await pdf.extractText();
    console.log('All Text: ' + text);

    // Get all Images as buffers
    const imagesBuffer = await pdf.extractRawImages();
    console.log('Images count: ' + imagesBuffer.length);

    // Save the first extracted image to the local file system
    fs.writeFileSync("./file1.jpg", imagesBuffer[0]);

    // Indicate completion
    console.log('Complete!');
})();

Führen Sie die App aus:

node app.js
node app.js
SHELL

Code Erklärung

Dieses Code-Snippet-Beispiel zeigt, wie man die IronPDF-Bibliothek in Node.js verwendet, um Text und Bilder (JPG-Format) aus einem PDF-Dokument zu extrahieren.

  1. Lizenz-Setup: Der IronPdfGlobalConfig wird verwendet, um den Lizenzschlüssel für IronPDF zu setzen, der erforderlich ist, um die Funktionen der Bibliothek zu nutzen.

  2. PDF-Laden: Der Code lädt ein PDF-Dokument ironPDF.pdf mit der Methode PdfDocument.fromFile(). Dies ermöglicht es dem Programm, mit dem Inhalt des PDFs zu arbeiten.

  3. Textextraktion: Die Methode extractText() wird verwendet, um den gesamten Text aus dem geladenen PDF zu extrahieren. Dieser Text kann für Aufgaben wie Indizierung oder Durchsuchen des Dokuments verwendet werden.

  4. Bilderextraktion: Die Methode extractRawImages() wird verwendet, um Rohbilder aus dem PDF zu extrahieren. Diese Bilder werden als Buffer zurückgegeben, die gespeichert oder weiterverarbeitet werden können.

  5. Bilder speichern: Die extrahierten Bilder werden mit der Methode fs.writeFileSync() von Node auf dem lokalen Dateisystem als JPG-Dateien gespeichert.

  6. Endergebnis: Nach der Extraktion gibt das Programm den extrahierten Text, die Anzahl der extrahierten Bilder aus und speichert dann das erste Bild.

Der Code demonstriert, wie man mit PDF-Dateien unter Verwendung von IronPDF innerhalb einer Node.js-Umgebung interagiert, um Inhalte zu extrahieren und zu verarbeiten.

Ausgabe

Wie man Bilder aus PDF in Node.js extrahiert: Abbildung 2 - Konsolenausgabe

Wie man Bilder aus PDF in Node.js extrahiert: Abbildung 3 - Bildausgabe

Lizenz (Testversion verfügbar)

IronPDF Node.js erfordert einen Lizenzschlüssel, um zu funktionieren. Entwickler können eine Testlizenz mit ihrer E-Mail-ID von der Lizenzseite erhalten. Sobald Sie die E-Mail-ID bereitgestellt haben, wird der Schlüssel an die E-Mail gesendet und kann wie unten in der Anwendung verwendet werden.

const { IronPdfGlobalConfig } = require('@ironsoftware/ironpdf')

// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";

Abschluss

Die Verwendung von IronPDF in Node.js zum Extrahieren von Bildern aus PDFs bietet eine robuste und effiziente Möglichkeit, mit PDF-Inhalten umzugehen. Zwar bietet IronPDF keine direkte Bildextraktion wie einige spezialisierte Tools, aber es erlaubt Ihnen, PDF-Seiten als Bilder zu rendern, was nützlich ist, um visuelle Darstellungen des Dokuments zu erstellen.

Die Fähigkeit der Bibliothek, sowohl Text als auch Bilder aus PDFs auf einfache Weise zu extrahieren, macht sie zu einem wertvollen Werkzeug für Anwendungen, die Inhalte verarbeiten und manipulieren müssen. Die Integration mit Node.js ermöglicht es Entwicklern, PDF-Extraktion problemlos in Web- oder serverseitige Anwendungen zu integrieren.

Insgesamt ist IronPDF eine leistungsstarke Lösung für die PDF-Manipulation, die Flexibilität bietet, um PDFs zu konvertieren, zu speichern und Bilder daraus zu extrahieren. Damit ist es für eine breite Palette von Anwendungsfällen geeignet, wie z. B. Dokumentenindizierung, Vorschau-Erstellung und Inhaltsgewinnung. Wenn Ihr Fokus jedoch ausschließlich auf dem Extrahieren eingebetteter Bilder aus PDFs liegt, könnte die Erkundung zusätzlicher Bibliotheken spezialisiertere Lösungen bieten.

Häufig gestellte Fragen

Wie kann ich Bilder aus PDF-Dateien mit Node.js extrahieren?

Sie können IronPDF in Node.js verwenden, um PDF-Seiten als Bilder darzustellen, die als Dateien gespeichert werden können. Dies beinhaltet die Einrichtung eines Node.js-Projekts, die Installation von IronPDF und die Verwendung seiner Methoden, um PDF-Seiten in Bildformate zu konvertieren.

Welche Schritte sind erforderlich, um IronPDF für die Bildextraktion in Node.js einzurichten?

Um IronPDF für die Bildextraktion in Node.js einzurichten, müssen Sie ein Node.js-Projekt erstellen, das IronPDF NPM-Paket installieren und dann die Funktionen von IronPDF verwenden, um ein PDF-Dokument zu laden und dessen Seiten als Bilder darzustellen.

Kann IronPDF direkt Bilder aus einem PDF in Node.js extrahieren?

IronPDF extrahiert nicht direkt Bilder, kann jedoch PDF-Seiten als Bilder rendern. Diese gerenderten Bilder können gespeichert werden und ermöglichen so effektiv die Bildinhalts-Extraktion aus dem PDF.

Welche Voraussetzungen gibt es für die Verwendung von IronPDF in einer Node.js-Umgebung?

Zu den Voraussetzungen gehören die Installation von Node.js, die Einrichtung eines Projektverzeichnisses und die Installation des IronPDF NPM-Pakets sowie platform-spezifische Pakete, wie die 64-Bit-Version für Windows für optimale Leistung.

Wie handhaben Sie PDF-Manipulationsaufgaben in Node.js mit IronPDF?

IronPDF ermöglicht es Ihnen, Aufgaben wie Erstellen, Bearbeiten, Konvertieren und Extrahieren von Inhalten aus PDFs in Node.js auszuführen. Sie können ein PDF mit den IronPDF-Methoden laden und es je nach Bedarf bearbeiten.

Ist eine Lizenz erforderlich, um IronPDF für die PDF-Manipulation in Node.js zu verwenden?

Ja, eine Lizenz ist erforderlich, um auf die vollständigen Funktionen von IronPDF zuzugreifen. Sie können eine Testlizenz von der IronPDF-Website erhalten, indem Sie sich mit Ihrer E-Mail anmelden.

Welche zusätzlichen Bibliotheken könnten für die direkte Bildextraktion aus PDFs in Node.js benötigt werden?

Während IronPDF Seiten als Bilder rendern kann, erwägen Sie für die direkte Bildextraktion möglicherweise die Verwendung zusätzlicher Bibliotheken, die darauf spezialisiert sind, eingebettete Bilder direkt aus PDF-Dateien zu extrahieren.

Was macht IronPDF zu einer guten Wahl für den Umgang mit PDFs in Node.js-Anwendungen?

IronPDFs Robustheit, die einfache Integration mit Node.js und umfassende Funktionen zur PDF-Erstellung, -Bearbeitung und -Inhalts-Extraktion machen es für Web- und Dokumentenverarbeitungsanwendungen geeignet.

Darrius Serrant
Full-Stack-Software-Ingenieur (WebOps)

Darrius Serrant hat einen Bachelor-Abschluss in Informatik von der University of Miami und arbeitet als Full-Stack-WebOps-Marketing-Ingenieur bei Iron Software. Seit seiner Jugend vom Programmieren angezogen, sah er die Informatik als sowohl mysteriös als auch zugänglich, was es zum perfekten Medium für Kreativität und Problemlösung ...

Weiterlesen