VERWENDUNG VON IRONPDF FOR NODE.JS

Wie man ein PDF-Dokument in Node.js analysiert

Aktualisiert 8. Oktober 2024
Teilen Sie:

In diesem Artikel wird gezeigt, wie man PDFs mit Node.js und der IronPDF, PDF parser Node.js library parst.

Was ist Node?

Die plattformübergreifende, quelloffene JavaScript-Laufzeitumgebung Node.js ermöglicht die Ausführung von JavaScript-Code außerhalb eines Webbrowsers. Programmierer können Netzwerkanwendungen erstellen, die skalierbar, schnell und effektiv sind, indem sie die serverseitige Ausführung von JavaScript oder JS-Modulen aktivieren. Da Node.js ein ereignisgesteuertes, nicht blockierendes E/A-Modell ist, eignet es sich ideal für die Entwicklung von Echtzeitanwendungen, die mehrere Verbindungen gleichzeitig mit interaktiven Formularelementen verwalten.

Node.js wird häufig verwendet, um eine breite Palette von Anwendungen zu erstellen, darunter Webserver, APIs, Datenstruktur-Streaming-Anwendungen, Echtzeit-Chat-Anwendungen, Internet der Dinge(IoT) geräte und mehr. Alles in allem erfreut sich Node.js aufgrund seiner Effektivität, Geschwindigkeit und JavaScript-Kompatibilität sowohl im Front-End als auch im Back-End zunehmender Beliebtheit und bietet eine einzige Sprache für die Full-Stack-Entwicklung. Prüfen Sie dieserklärungs-Website für Dokumentationsseiten, um mehr über Node.js zu erfahren.

Wie man PDF-Dokumente in Node.js parst

  1. Um PDFs in einen lesbaren Stream umzuwandeln, laden Sie das Node.js-Paket herunter.

  2. Installieren Sie die IronPDF for Node.js-Bibliothek.

  3. Erstellen Sie eine neue PDF-Datei oder importieren Sie eine bestehende Datei mit den geparsten Dokumentdaten.

  4. Um jede Zeile des Textes zu extrahieren, verwenden Sie dietext extrahieren methode.

  5. Geparste PDF-Inhalte anzeigen, um PDF-Rohdaten zu lesen.

IronPDF for Node.js

Bei meiner letzten Wissensaktualisierung im Januar 2022 war IronPDF größtenteils eine .NET-Bibliothek, die für das .NET Framework entwickelt wurde und Entwicklern die Arbeit mit PDF-Dokumenten in C# oder VB.NET ermöglicht. Es gab jedoch keine native oder direkte Version von IronPDF, die nur für Node.js gemacht war.

Da IronPDF die Unterstützung von Node.js erweitert hat und Bindungen für Node.js enthält, bedeutet dies wahrscheinlich, dass Werkzeuge für die Erstellung, Bearbeitung und Verarbeitung von PDF-Dokumenten in Node.js-Anwendungen nun in IronPDF for Node.js verfügbar sind.

Merkmale von IronPDF

  • HTML-zu-PDF-Generierung: Die Fähigkeit, HTML-Inhalte in PDF-Dokumente zu konvertieren.
  • Das Hinzufügen, Ändern oder Entfernen von Text, Formen, Bildern und anderen Elementen aus PDF-Dateien wird alstext- und Bildmanipulation.
  • Kombination von, Extrahieren von Seiten aus PDF-Dateien,aufteilung von PDF-Dateienundverschlüsseln und Entschlüsseln dies sind alles Beispiele für die Änderung von PDF-Dokumenten.
  • Handhabung von Formularen umfasst das Ausfüllen von Formularen, die Erfassung von Formulardaten und die Nutzung von PDF-Formularen durch Programmierung.
  • PDF-Sicherheit ist die Verwendung vondigitale Signaturenverschlüsselung, undpasswortschutz für PDF-Dokumente.
  • Das Abrufen und Ändern von PDF-Dateien wird als Handhabung von Seitenmetadaten bezeichnet.

    Wenn IronPDF seine Produktpalette um eine Node.js-Version erweitert, könnte dies Entwicklern, die Node.js-Apps entwickeln, eine Möglichkeit bieten, die PDF-Manipulationsfunktionen von IronPDF zu nutzen. Dies könnte für Entwickler hilfreich sein, die lieber mit einer Bibliothek arbeiten möchten, die ähnliche Funktionen wie IronPDF in der .NET-Umgebung bietet.

    Die offizielle Dokumentation, Versionshinweise oder Updates des IronPDF-Teams sollten immer konsultiert werden, um die aktuellsten Informationen über IronPDFs Funktionen, Kompatibilität und Unterstützung für Node.js zu erhalten. Hier erfahren Sie mehr über IronPDF und die neuen Funktionen in jeder Version. Weitere Informationen über IronPDF finden Sie hieroffizielle Dokumentationsseite.

Paket-Anforderung

  • Visual Studio Code ist die IDE
  • Node.js
  • Yarn oder npm können für die Paketverwaltung verwendet werden, die für Paketinstallationen notwendig ist.

IronPDF-Paket für Node.js installieren

Starten Sie die Eingabeaufforderung oder das Terminal: Öffnen Sie die Eingabeaufforderung oder das Terminal. Je nach Betriebssystem gibt es verschiedene Möglichkeiten, darauf zuzugreifen:

  • Windows: PowerShell oder Eingabeaufforderung
  • Terminal unter Mac OS X
  • Terminal unter Linux

    Stellen Sie das Paket zusammen: Um ein Paket zu installieren, verwenden Sie den Paketnamen und den Befehl npm install. Um zum Beispiel das Paket @ironsoftware/ironPdf zu installieren, geben Sie folgenden Befehl in das Terminal ein:

 npm i @ironsoftware/ironpdf

Ersetzen Sie @ironsoftware/ironpdf durch den Namen des Pakets, das Sie installieren möchten. Um das eigentliche Paket zu installieren.

Wie man ein PDF-Dokument in Node.js analysiert, Abbildung 1: IronPDF installieren

IronPDF installieren

PDF-Datei parsen, um Daten zu extrahieren

Beim Ausprobieren zeigt sich, dass IronPDF viele Funktionen bietet, die den Umgang mit PDF in Node.js erleichtern. Der Schwerpunkt liegt auf dem Erzeugen, Anzeigen und Ändern beliebiger PDF-Dokumente in den erforderlichen Formaten. PDF-Dateien sind recht einfach zu analysieren.

const { PdfDocument } = require("@ironsoftware/ironpdf");

const pdfprocess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  var data = await pdf.extractText();
  console.log(data);
};
pdfprocess();
JAVASCRIPT

Die Bedeutung dervonDatei die Funktion wird durch den obigen Code veranschaulicht. fromFile-Methode, die das Lesen von PDF-Dokumenten und die Konvertierung der PDF-Datei inpdfDocument objekte, lädt die Datei aus einem vorhandenen Dateisystem. So enthält PdfDocument die Metadaten der PDFs. Die Datei-Metadaten im pdf-Objekt können nach Belieben verwendet werden. Die geparsten Dokumentdaten dieses Objekts sind der Text und die Grafiken, die im PDF-Seitenobjekt enthalten sind. Die Funktion extractText wird verwendet, um den gesamten Text aus der bereitgestellten PDF-Datei zu extrahieren. Anschließend wird der extrahierte Text als String gespeichert und für die weitere Verarbeitung, z. B. die Erstellung des JSON-Formats, vorbereitet.

Seite-für-Seite-Textextraktion

Im Folgenden finden Sie den Code für den zweiten Ansatz, der explizit Text aus jeder Seite der PDF-Datei extrahiert.

const pdf = await PdfDocument.fromFile("Demo.pdf");
var pagecount = await pdf.getPageCount();
for (var i = 0; i < pagecount; i++) {
  var spdf = await pdf.extractText(i);
  console.log(spdf);
}
JAVASCRIPT

Die Roh-PDF-Datei, die aus einer bereits im Speicher befindlichen PDF-Datei ausgelesen wird, wird von diesem Beispielcode vollständig aus dem angegebenen Verzeichnis geladen, woraufhin ein PdfDocument'-Objekt mit dem Namen pdf erstellt wird. Ein PDF-Dokument ist eine Datenstruktur, die sich aus mehreren grundlegenden Datenobjekttypen zusammensetzt. Alle Seitendaten in der PDF-Datei werden anhand ihrer Seitennummer oder ihres Seitenindexes im PDF-Objekt abgerufen, um sicherzustellen, dass sie nacheinander verarbeitet werden. Zunächst verwenden wir die[getPageCount`](/nodejs/object-reference/api/classes/PdfDocument.html#getPageCount) methode des PDF-Objekts, um die Gesamtzahl der Seiten in der gelieferten PDF-Datei zu ermitteln.

Die For-Schleife durchläuft jede Seite anhand der Seitenzahl und ruft die Funktion "ExtractText" auf, um den Text von jeder PDF-Seite abzurufen. Der extrahierte Text kann entweder auf dem Bildschirm des Benutzers angezeigt oder in einer String-Variablen gespeichert werden. Mit dieser Technik ist es also möglich, Text aus einzelnen PDF-Seiten in geordneter Weise zu extrahieren. Diese Techniken zeigen, wie IronPDF, eine speziell für PDF-Aufgaben entwickelte Node.js-Bibliothek, einfach und gründlich Text aus PDF-Dateien extrahieren kann. Diese Zugänglichkeit erhöht die Nützlichkeit von PDFs in einer Vielzahl von Kontexten und hat zahlreiche praktische Anwendungen.

Wie man ein PDF-Dokument in Node.js analysiert, Abbildung 2: PDF seitenweise lesen

PDF Seite für Seite lesen

Die beiden oben genannten Codes liefern die gleiche Ausgabe, die einzige Änderung ist die Implementierung des Codes auf der Grundlage der Benutzeranforderungen. Weitere Informationen über IronPDF finden Sie hierdetaillierte Dokumentationsseiten.

Schlussfolgerung

Die IronPDF-Bibliothek bietet robuste Sicherheitsmaßnahmen, um Risiken zu verringern und die Datensicherheit zu gewährleisten. Es ist mit allen gängigen Browsern kompatibel und ist nicht auf einen einzigen beschränkt. Um den unterschiedlichen Anforderungen von Entwicklern gerecht zu werden, bietet die Bibliothek eine breite Palette von Lizenzierungsoptionen, darunter eine kostenlose Entwicklerlizenz und zusätzliche Entwicklungslizenzen, die erworben werden können.

Zusätzlich zu einer permanenten Lizenz, einem Jahr Software-Wartung und einer dreißigtägigen Geld-zurück-Garantie enthält das "Lite-Lizenz"-Paket auch Upgrade-Möglichkeiten. Die Nutzer haben die Möglichkeit, das Produkt während des gesamten mit Wasserzeichen versehenen Testzeitraums in der Praxis zu testen. Bitte prüfen Sie die mitgeliefertenlizenzierungsseite für weitere Details zu IronPDFs Kosten, Lizenzierung und Testversion. Um mehr über die anderen von Iron Software angebotenen Produkte zu erfahren, besuchen Sie dieoffizielle Website.

Parsen eines PDF-Dokuments in Node.js, Abbildung 3: Iron Software Preise

Iron Software Preise

< PREVIOUS
Wie man eine PDF-Datei in Node.js komprimiert
NÄCHSTES >
Herunterladen von PDF-Dateien von einer URL in Node.js

Sind Sie bereit, loszulegen? Version: 2024.12 gerade veröffentlicht

Kostenlose npm-Installation Lizenzen anzeigen >