VERWENDUNG VON IRONPDF FOR NODE.JS

Wie man in Node.js PDF in Text umwandelt

Veröffentlicht 4. Januar 2024
Teilen Sie:

Einführung

Die PDF-zu-Text-Konvertierung in Node.js ist eine häufige Aufgabe in vielen Anwendungen, insbesondere wenn es um Datenanalyse, Content-Management-Systeme oder auch einfache Konvertierungsprogramme geht. Mit der Node.js-Umgebung und demIronPDF-Bibliothekkönnen Entwickler mühelospDF-Dokumente in verwertbare Textdaten umwandeln. Dieses Tutorial führt Anfänger durch den Prozess der Einrichtung eines Node.js-Projekts zur Extraktion von Text aus PDF-Seitendateien mit IronPDF und konzentriert sich dabei auf Schlüsselaspekte wie Installationsdetails, PDF-Parsing-Implementierung, Fehlerbehandlung und praktische Anwendungen.

Wie man PDF in NodeJS in Text umwandelt

  1. Erstellen Sie eine Node.js-Anwendung in Ihrer IDE.

  2. Installieren Sie die PDF-Bibliothek mit npm.

  3. Laden Sie die PDF-Seiten in die Anwendung.

  4. Extrahieren Sie den Text mit der Methode extractText.

  5. Verwenden Sie den extrahierten Text für die Verarbeitung und Rückgabe von Daten.

Voraussetzungen

Bevor Sie sich auf diese Reise begeben, sollten Sie sich vergewissern, dass Sie über die folgenden Informationen verfügen:

  • Node.js auf Ihrem Rechner installiert ist.
  • Ein grundlegendes Verständnis von JavaScript.
  • Eine PDF-Datei zum Testen des Extraktionsprozesses für den Lauf.

Einrichten Ihres Node.js-Projekts

Schritt 1: Initialisierung Ihrer Node.js-Anwendung

Erstellen Sie ein neues Verzeichnis für Ihr Projekt und starten Sie eine Node.js-Anwendung:

mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y

Schritt 2: Installation von IronPDF

Installieren Sie IronPDF mit npm:

npm install ironpdf

Implementierung der PDF-zu-Text-Konvertierung mit IronPDF

Schritt 1: Importieren der erforderlichen Module

import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
JAVASCRIPT

In diesem ersten Schritt importieren Sie die erforderlichen Module. PdfDocument und IronPdfGlobalConfig werden aus dem Paket @ironpdf/ironpdf importiert, die für die Arbeit mit PDF-Dokumenten bzw. die Konfiguration von IronPDF unerlässlich sind. Das fs-Modul, ein Kernmodul von Node.js, wird ebenfalls importiert, um Dateisystemoperationen zu verarbeiten.

Schritt 2: Einrichten einer asynchronen Funktion

(async function createPDFs() {
  // ...
})();
JAVASCRIPT

Hier wird eine asynchrone anonyme Funktion namens createPDFs definiert und sofort aufgerufen. Diese Konfiguration ermöglicht die Verwendung von await innerhalb der Funktion und erleichtert die Handhabung asynchroner Operationen, die bei Dateieingabe und externen Bibliotheken wie IronPDF üblich sind.

Schritt 3: Anwenden des Lizenzschlüssels

const IronPdfConfig = {
  licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
JAVASCRIPT

In diesem Schritt erstellen Sie ein Konfigurationsobjekt für IronPDF, einschließlich des Lizenzschlüssels, und wenden diese Konfiguration mit IronPdfGlobalConfig.setConfig an. Dies ist wichtig, um alle Funktionen von IronPDF zu aktivieren, insbesondere wenn Sie eine lizenzierte Version verwenden.

Schritt 4: Laden des PDF-Dokuments

const pdf = await PdfDocument.fromFile("report.pdf");
JAVASCRIPT

In diesem Schritt verwendet der Code korrekt die Methode fromFile aus der Klasse PdfDocument, um ein vorhandenes PDF-Dokument zu laden. Dies ist ein asynchroner Vorgang, daher die Verwendung von await. Durch Angabe des Pfads zu Ihrer PDF-Datei(in diesem Fall "alter bericht.pdf")wird die Variable pdf zu einer Repräsentation Ihres PDF-Dokuments, vollständig geladen und bereit für die Textextraktion. Dieser Schritt ist entscheidend, denn hier wird die PDF-Datei geparst und für alle Operationen vorbereitet, die Sie mit ihr durchführen möchten, z. B. das Extrahieren von Text.

Schritt 5: Text aus der PDF-Datei extrahieren

const text = await pdf.extractText();
JAVASCRIPT

Hier wird die Methode extractText für das Objekt pdf aufgerufen. Diese asynchrone Operation extrahiert den gesamten Text aus dem geladenen PDF-Dokument und speichert ihn in der Variablen text.

Schritt 6: Verarbeitung des extrahierten Textes

const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
JAVASCRIPT

In diesem Schritt wird der extrahierte Text verarbeitet, um die Anzahl der Wörter zu zählen. Dies wird erreicht, indem die Textzeichenfolge mit Hilfe eines regulären Ausdrucks, der auf ein oder mehrere Leerzeichen passt, in ein Array von Wörtern zerlegt wird und dann die Länge des resultierenden Arrays gezählt wird.

Schritt 7: Speichern des extrahierten Textes in einer Datei

fs.writeFileSync("extracted_text.txt", text);
JAVASCRIPT

Diese korrigierte Zeile verwendet die Methode writeFileSync des Moduls fs, um den extrahierten Text synchron in eine Datei zu schreiben.

Schritt 8: Fehlerbehandlung

} catch (error) {
  console.error("An error occurred:", error); //log error
}
JAVASCRIPT

Schließlich enthält der Code einen try-catch-Block zur Fehlerbehandlung. Wenn ein Teil der asynchronen Operationen innerhalb des try-Blocks fehlschlägt, fängt der catch-Block den Fehler ab, und die Meldung wird auf der Konsole protokolliert. Dies ist wichtig für das Debugging und um sicherzustellen, dass Ihre Anwendung unerwartete Probleme problemlos bewältigen kann.

Vollständiger Code

Nachfolgend finden Sie den vollständigen Code, der alle Schritte umfasst, die wir für die Extraktion von Text aus einem PDF-Dokument mit IronPDF in einer Node.js-Umgebung besprochen haben:

import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
(async function createPDFs() {
  try {
    // Input the license key
    const IronPdfConfig = {
      licenseKey: "Your-License-Key",
    };
    // Set the config with the license key
    IronPdfGlobalConfig.setConfig(IronPdfConfig);
    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("old-report.pdf");
    // Get all text to put in a search index
    const text = await pdf.extractText();
    // Process the extracted text
    // Example: Count words
    const wordCount = text.split(/\s+/).length;
    console.log("Word Count:", wordCount);
    // Save the extracted text to a text file
    fs.writeFileSync("extracted_text.txt", text);
    console.log("Extracted text saved to extracted_text.txt");
  } catch (error) {
    // Handle errors here
    console.error("An error occurred:", error);
  }
})();
JAVASCRIPT

Dieses Skript enthält alle notwendigen Komponenten für die Extraktion von Text aus einer PDF-Datei: Einrichten von IronPDF mit einem Lizenzschlüssel, Laden des PDF-Dokuments, Extrahieren des Textes, Durchführen einer einfachen Textanalyse(wortzahl in diesem Fall)und das Speichern des extrahierten Textes in einer Datei. Der Code ist in eine asynchrone Funktion verpackt, um die asynchrone Natur von Dateioperationen und PDF-Verarbeitung in Node.js zu handhaben.

Analysieren der Ausgabe: PDF und extrahierter Text

Sobald Sie das Skript ausgeführt haben, haben Sie zwei Hauptkomponenten, die Sie analysieren können: die ursprüngliche PDF-Datei und die Textdatei, die den extrahierten Text enthält. Dieser Abschnitt führt Sie durch das Verständnis und die Auswertung der Ausgabe des Skripts.

Das Original-PDF-Dokument

Die PDF-Datei, die Sie für diesen Vorgang auswählen, in diesem Fall mit dem Namen "alt-report.pdf", ist der Ausgangspunkt. PDF-Dokumente können in Bezug auf Komplexität und Inhalt sehr unterschiedlich sein. Sie können einfachen, geradlinigen Text enthalten oder mit Bildern, Tabellen und verschiedenen Textformaten angereichert sein. Die Struktur und Komplexität Ihrer PDF-Datei wirkt sich direkt auf den Extraktionsprozess aus.

Wie man PDF in Node.js in Text umwandelt: Abbildung 1 - Original-PDF

Extrahierte Textdatei

Nach Ausführung des Skripts wird eine neue Textdatei mit dem Namen "extracted_text.txt" erstellt. Diese Datei enthält den gesamten Text, der aus dem PDF-Dokument extrahiert wurde.

Wie man PDF in Node.js in Text umwandelt: Abbildung 2 - Extrahierter Text

Und dies ist die Ausgabe auf der Konsole:

Wie man PDF in Node.js in Text umwandelt: Abbildung 3 - Konsolenausgabe

Praktische Anwendungen und Anwendungsfälle

Datenauswertung und -analyse

Das Extrahieren von Text aus PDFs ist besonders nützlich für Data Mining und Analysen. Ob es sich um die Extraktion von Finanzberichten, Forschungspapieren oder anderen PDF-Dokumenten handelt, die Fähigkeit, PDFs in Text zu konvertieren, ist für die Datenanalyse entscheidend.

Content-Management-Systeme

In Content-Management-Systemen müssen Sie oft mit verschiedenen Dateiformaten umgehen. IronPDF kann eine Schlüsselkomponente in einem System sein, das im PDF-Format gespeicherte Inhalte verwaltet, archiviert und abruft.

Schlussfolgerung

Wie man PDF in Node.js in Text umwandelt: Abbildung 4 - Lizenzierung

Diese umfassende Anleitung führt Sie durch den Prozess der Einrichtung eines Node.js-Projekts zur Extraktion von Text aus PDF-Dokumenten mit IronPDF. Von der grundlegenden Textextraktion bis hin zu komplexeren Funktionen wie der Extraktion von Textobjekten und der Leistungsoptimierung sind Sie nun mit dem Wissen ausgestattet, um eine effiziente PDF-Textextraktion in Ihren Node.js-Anwendungen zu implementieren.

Denken Sie daran, dass die Reise hier nicht zu Ende ist. Das Gebiet der PDF-Verarbeitung und der Textextraktion ist sehr umfangreich, und es gibt noch viele weitere Funktionen und Techniken zu entdecken. Nehmen Sie die Herausforderung an und erweitern Sie Ihre Fähigkeiten in diesem spannenden Bereich der Softwareentwicklung.

Es ist erwähnenswert, dass IronPDF einekostenlose Testversion für Benutzer. Für diejenigen, die IronPDF in ein professionelles Umfeld integrieren möchten, sind Lizenzierungsoptionen verfügbar.

< PREVIOUS
Wie man eine PDF-Datei in Node.js bearbeitet
NÄCHSTES >
Wie man eine PDF-Datei in Node.js aufteilt

Sind Sie bereit, loszulegen? Version: 2024.12 gerade veröffentlicht

Kostenlose npm-Installation Lizenzen anzeigen >