VERWENDUNG VON IRONPDF FOR NODE.JS

Wie man in Node.js PDF in Text umwandelt

Einführung

Die PDF-zu-Text-Konvertierung in Node.js ist eine häufige Aufgabe in vielen Anwendungen, insbesondere wenn es um Datenanalyse, Content-Management-Systeme oder auch einfache Konvertierungsprogramme geht. Mit der Node.js-Umgebung und der IronPDF-Bibliothek können Entwickler mühelos PDF-Dokumente in nutzbare Textdaten konvertieren. Dieses Tutorial führt Anfänger durch den Prozess der Einrichtung eines Node.js-Projekts zur Extraktion von Text aus PDF-Seitendateien mit IronPDF und konzentriert sich dabei auf Schlüsselaspekte wie Installationsdetails, PDF-Parsing-Implementierung, Fehlerbehandlung und praktische Anwendungen.

Wie man PDF in NodeJS in Text umwandelt

  1. Erstellen Sie eine Node.js-Anwendung in Ihrer IDE.

  2. Installieren Sie die PDF-Bibliothek mit npm.

  3. Laden Sie die PDF-Seiten in die Anwendung.

  4. Extrahieren Sie Text mithilfe der extractText-Methode.

  5. Verwenden Sie den extrahierten Text für die Verarbeitung und Rückgabe von Daten.

Voraussetzungen

Bevor Sie sich auf diese Reise begeben, sollten Sie sich vergewissern, dass Sie über die folgenden Informationen verfügen:

  • Node.js ist auf Ihrem Rechner installiert.
  • Ein grundlegendes Verständnis von JavaScript.
  • Eine PDF-Datei zum Testen des Extraktionsprozesses für den Lauf.

Einrichten Ihres Node.js-Projekts

Schritt 1: Initialisierung Ihrer Node.js-Anwendung

Erstellen Sie ein neues Verzeichnis für Ihr Projekt und starten Sie eine Node.js-Anwendung:

mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
SHELL

Schritt 2: Installation von IronPDF

Installieren Sie IronPDF mit npm:

npm install ironpdf
npm install ironpdf
SHELL

Implementierung der PDF-zu-Text-Konvertierung mit IronPDF

Schritt 1: Importieren der erforderlichen Module

import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
js
JAVASCRIPT

In diesem ersten Schritt importieren Sie die erforderlichen Module. PdfDocument und IronPdfGlobalConfig werden aus dem Paket @ironpdf/ironpdf importiert, die jeweils essenziell für die Arbeit mit PDF-Dokumenten und die Konfiguration von IronPDF sind. Das fs-Modul, ein zentrales Node.js-Modul, wird auch importiert, um Dateisystemoperationen zu handhaben.

Schritt 2: Einrichten einer asynchronen Funktion

(async function createPDFs() {
  // ...
})();
js
JAVASCRIPT

Hier wird eine asynchrone anonyme Funktion mit dem Namen createPDFs definiert und sofort aufgerufen. Diese Einrichtung ermöglicht die Verwendung von await innerhalb der Funktion, was die Handhabung von asynchronen Operationen erleichtert, die häufig bei der Arbeit mit Datei-I/O und externen Bibliotheken wie IronPDF vorkommen.

Schritt 3: Anwenden des Lizenzschlüssels

const IronPdfConfig = {
  licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
js
JAVASCRIPT

In diesem Schritt erstellen Sie ein Konfigurationsobjekt für IronPDF, einschließlich des Lizenzschlüssels, und wenden diese Konfiguration mit IronPdfGlobalConfig.setConfig an. Dies ist wichtig, um alle Funktionen von IronPDF zu aktivieren, insbesondere wenn Sie eine lizenzierte Version verwenden.

Schritt 4: Laden des PDF-Dokuments

const pdf = await PdfDocument.fromFile("report.pdf");
js
JAVASCRIPT

In diesem Schritt verwendet der Code korrekt die fromFile-Methode der PdfDocument-Klasse, um ein vorhandenes PDF-Dokument zu laden. Dies ist eine asynchrone Operation, daher die Verwendung von await. Indem Sie den Pfad zu Ihrer PDF-Datei angeben (in diesem Fall "old-report.pdf"), wird die pdf-Variable zu einer Repräsentation Ihres PDF-Dokuments, vollständig geladen und bereit zur Textextraktion. Dieser Schritt ist entscheidend, denn hier wird die PDF-Datei geparst und für alle Operationen vorbereitet, die Sie mit ihr durchführen möchten, z. B. das Extrahieren von Text.

Schritt 5: Text aus der PDF-Datei extrahieren

const text = await pdf.extractText();
js
JAVASCRIPT

Hier wird die Methode extractText auf das Objekt pdf aufgerufen. Diese asynchrone Operation extrahiert den gesamten Text aus dem geladenen PDF-Dokument und speichert ihn in der text-Variable.

Schritt 6: Verarbeitung des extrahierten Textes

const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
js
JAVASCRIPT

In diesem Schritt wird der extrahierte Text verarbeitet, um die Anzahl der Wörter zu zählen. Dies wird erreicht, indem die Textzeichenfolge mit Hilfe eines regulären Ausdrucks, der auf ein oder mehrere Leerzeichen passt, in ein Array von Wörtern zerlegt wird und dann die Länge des resultierenden Arrays gezählt wird.

Schritt 7: Speichern des extrahierten Textes in einer Datei

fs.writeFileSync("extracted_text.txt", text);
js
JAVASCRIPT

Diese korrigierte Zeile verwendet die Methode writeFileSync des fs-Moduls, um den extrahierten Text synchron in eine Datei zu schreiben.

Schritt 8: Fehlerbehandlung

} catch (error) {
  console.error("An error occurred:", error); //log error
}
js
JAVASCRIPT

Schließlich enthält der Code einen try-catch-Block zur Fehlerbehandlung. Wenn ein Teil der asynchronen Operationen innerhalb des try-Blocks fehlschlägt, wird der Fehler vom catch-Block abgefangen und die Nachricht an die Konsole protokolliert. Dies ist wichtig für das Debugging und um sicherzustellen, dass Ihre Anwendung unerwartete Probleme problemlos bewältigen kann.

Vollständiger Code

Nachfolgend finden Sie den vollständigen Code, der alle Schritte umfasst, die wir für die Extraktion von Text aus einem PDF-Dokument mit IronPDF in einer Node.js-Umgebung besprochen haben:

import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
(async function createPDFs() {
  try {
    // Input the license key
    const IronPdfConfig = {
      licenseKey: "Your-License-Key",
    };
    // Set the config with the license key
    IronPdfGlobalConfig.setConfig(IronPdfConfig);
    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("old-report.pdf");
    // Get all text to put in a search index
    const text = await pdf.extractText();
    // Process the extracted text
    // Example: Count words
    const wordCount = text.split(/\s+/).length;
    console.log("Word Count:", wordCount);
    // Save the extracted text to a text file
    fs.writeFileSync("extracted_text.txt", text);
    console.log("Extracted text saved to extracted_text.txt");
  } catch (error) {
    // Handle errors here
    console.error("An error occurred:", error);
  }
})();
js
JAVASCRIPT

Dieses Skript umfasst alle erforderlichen Komponenten zum Extrahieren von Text aus einer PDF-Datei: Einrichten von IronPDF mit einem Lizenzschlüssel, Laden des PDF-Dokuments, Extrahieren des Textes, Durchführen einer einfachen Textanalyse (in diesem Fall die Wortzählung) und Speichern des extrahierten Textes in einer Datei. Der Code ist in eine asynchrone Funktion eingebunden, um die asynchrone Natur von Dateioperationen und PDF-Verarbeitung in Node.js zu handhaben.

Analysieren der Ausgabe: PDF und extrahierter Text

Sobald Sie das Skript ausgeführt haben, haben Sie zwei Hauptkomponenten, die Sie analysieren können: die ursprüngliche PDF-Datei und die Textdatei, die den extrahierten Text enthält. Dieser Abschnitt führt Sie durch das Verständnis und die Auswertung der Ausgabe des Skripts.

Das Original-PDF-Dokument

Die PDF-Datei, die Sie für diesen Prozess auswählen, in diesem Fall mit dem Namen "old-report.pdf", ist der Ausgangspunkt. PDF-Dokumente können in Bezug auf Komplexität und Inhalt sehr unterschiedlich sein. Sie können einfachen, geradlinigen Text enthalten oder mit Bildern, Tabellen und verschiedenen Textformaten angereichert sein. Die Struktur und Komplexität Ihrer PDF-Datei wirkt sich direkt auf den Extraktionsprozess aus.

Wie man PDF in Text in Node.js konvertiert: Abbildung 1 - Original-PDF

Extrahierte Textdatei

Nach Ausführung des Skripts wird eine neue Textdatei mit dem Namen "extracted_text.txt" erstellt. Diese Datei enthält den gesamten Text, der aus dem PDF-Dokument extrahiert wurde.

Wie man PDF in Text in Node.js konvertiert: Abbildung 2 - Extrahierter Text

Und dies ist die Ausgabe auf der Konsole:

Wie man PDF in Text in Node.js konvertiert: Abbildung 3 - Konsolenausgabe

Praktische Anwendungen und Anwendungsfälle

Datenauswertung und -analyse

Das Extrahieren von Text aus PDFs ist besonders nützlich für Data Mining und Analysen. Ob es sich um die Extraktion von Finanzberichten, Forschungspapieren oder anderen PDF-Dokumenten handelt, die Fähigkeit, PDFs in Text zu konvertieren, ist für die Datenanalyse entscheidend.

Content-Management-Systeme

In Content-Management-Systemen müssen Sie oft mit verschiedenen Dateiformaten umgehen. IronPDF kann eine Schlüsselkomponente in einem System sein, das im PDF-Format gespeicherte Inhalte verwaltet, archiviert und abruft.

Schlussfolgerung

Wie man PDF in Text in Node.js konvertiert: Abbildung 4 - Lizenzierung

Diese umfassende Anleitung führt Sie durch den Prozess der Einrichtung eines Node.js-Projekts zur Extraktion von Text aus PDF-Dokumenten mit IronPDF. Von der grundlegenden Textextraktion bis hin zu komplexeren Funktionen wie der Extraktion von Textobjekten und der Leistungsoptimierung sind Sie nun mit dem Wissen ausgestattet, um eine effiziente PDF-Textextraktion in Ihren Node.js-Anwendungen zu implementieren.

Denken Sie daran, dass die Reise hier nicht zu Ende ist. Das Gebiet der PDF-Verarbeitung und der Textextraktion ist sehr umfangreich, und es gibt noch viele weitere Funktionen und Techniken zu entdecken. Nehmen Sie die Herausforderung an und erweitern Sie Ihre Fähigkeiten in diesem spannenden Bereich der Softwareentwicklung.

Es ist erwähnenswert, dass IronPDF eine kostenlose Testversion für Benutzer anbietet. Für diejenigen, die IronPDF in ein professionelles Umfeld integrieren möchten, sind Lizenzierungsoptionen verfügbar.

Darrius Serrant
Full Stack Software Engineer (WebOps)

Darrius Serrant hat einen Bachelor-Abschluss in Informatik von der University of Miami und arbeitet als Full Stack WebOps Marketing Engineer bei Iron Software. Schon in jungen Jahren vom Programmieren angezogen, sah er das Rechnen sowohl als mysteriös als auch zugänglich an, was es zum perfekten Medium für Kreativität und Problemlösung machte.

Bei Iron Software genießt Darrius es, neue Dinge zu erschaffen und komplexe Konzepte zu vereinfachen, um sie verständlicher zu machen. Als einer unserer ansässigen Entwickler hat er sich auch freiwillig gemeldet, um Schüler zu unterrichten und sein Fachwissen mit der nächsten Generation zu teilen.

Für Darrius ist seine Arbeit erfüllend, weil sie geschätzt wird und einen echten Einfluss hat.

< PREVIOUS
Wie man eine PDF-Datei in Node.js bearbeitet
NÄCHSTES >
Wie man eine PDF-Datei in Node.js aufteilt

Sind Sie bereit, loszulegen? Version: 2025.5 gerade veröffentlicht

Lizenzen anzeigen >