VERWENDUNG VON IRONPDF FOR NODE.JS

Wie man ein PDF-Dokument in Node.js analysiert

Veröffentlicht 12. Dezember 2023
Teilen Sie:

Einführung

Das Portable Document Format wird als PDF bezeichnet. Adobe hat ein Dateiformat für die Anzeige von Dokumenten oder das Parsen von Objekten mit Textformatierung und Bildern entwickelt, das nicht von Betriebssystemen, Hardware oder Anwendungssoftware abhängig ist. Text, Fotos, Formulare, interaktive Schaltflächen, Hyperlinks, eingebettete Schriftarten und anderes Material können in PDF-Dateien und Dokumententiteln enthalten sein. PDF-Dateien werden häufig für die gemeinsame Nutzung von Dokumenten verwendet, da sie die Formatierung der Seitenobjekte und die Metadaten des PDF-Puffers über eine Vielzahl von Geräten und Software hinweg beibehalten. Formulare, eBooks, Handbücher und andere Güter, bei denen die Formatierung und das Layout bei gleicher Ausgabe erhalten bleiben müssen, werden häufig in das PDF-Format konvertiert. In diesem Artikel sehen wir uns an, wie man PDFs mit Node.js und der IronPDF, PDF parser Node library parst.

Was ist Node?

Die plattformübergreifende, quelloffene JavaScript-Laufzeitumgebung Node.js ermöglicht die Ausführung von JavaScript-Code außerhalb eines Webbrowsers. Programmierer können Netzwerkanwendungen erstellen, die skalierbar, schnell und effektiv sind, indem sie die serverseitige Ausführung von JavaScript oder JS-Modulen aktivieren. Da Node.js ein ereignisgesteuertes, nicht blockierendes E/A-Paradigma ist, eignet es sich ideal für die Entwicklung von Echtzeitanwendungen, die mehrere Verbindungen gleichzeitig mit interaktiven Formularelementen verwalten.

Node.js wird häufig verwendet, um eine breite Palette von Anwendungen zu erstellen, darunter Webserver, APIs, Datenstruktur-Streaming-Anwendungen, Echtzeit-Chat-Anwendungen, Internet der Dinge (IoT) geräte und mehr. Alles in allem erfreut sich Node.js aufgrund seiner Effektivität, Geschwindigkeit und JavaScript-Kompatibilität sowohl im Front-End als auch im Back-End zunehmender Beliebtheit und bietet eine einzige Sprache für die Full-Stack-Entwicklung. Prüfen Sie die link für Dokumentationsseiten, um mehr über Node.js zu erfahren.

Wie man PDF-Dokumente in Node.js analysiert

  1. Um PDFs in einen lesbaren Stream umzuwandeln, laden Sie das Node.js-Paket herunter.

  2. Installieren Sie die IronPDF for Node.js-Bibliothek.

  3. Erstellen Sie eine neue PDF-Datei oder importieren Sie eine bestehende Datei mit den geparsten Dokumentdaten.

  4. Um jede Textzeile zu extrahieren, verwenden Sie die Funktion "extractText()methode".

  5. Geparste PDF-Inhalte anzeigen, um PDF-Rohdaten zu lesen.

IronPDF for Node.js

Bei meiner letzten Wissensaktualisierung im Januar 2022 war IronPDF hauptsächlich eine .NET-Bibliothek, die für die Arbeit im .NET-Framework entwickelt wurde und es Entwicklern ermöglicht, mit C# oder VB.NET mit PDF-Dokumenten zu arbeiten. Es gab jedoch keine native oder direkte Version von IronPDF, die nur für Node.js gemacht war.

Da IronPDF die Unterstützung von Node.js erweitert hat und Bindungen für Node.js enthält, bedeutet dies wahrscheinlich, dass Werkzeuge für die Erstellung, Bearbeitung und Verarbeitung von PDF-Dokumenten in Node.js-Anwendungen nun in IronPDF for Node.js verfügbar sind.

Merkmale von IronPDF

  • HTML-zu-PDF-Generierung: Die Fähigkeit, HTML-Inhalte in PDF-Dokumente zu konvertieren.
  • Das Hinzufügen, Ändern oder Entfernen von Text, Formen, Bildern und anderen Elementen aus PDF-Dateien wird als Text- und Bildmanipulation bezeichnet.
  • Das Kombinieren, das Extrahieren von Seiten aus PDF-Dateien, das Aufteilen von PDF-Dateien sowie das Ver- und Entschlüsseln von PDF-Dateien sind Beispiele für die Veränderung von PDF-Dokumenten.
  • Die Formularbearbeitung umfasst das Ausfüllen von Formularen, die Erfassung von Formulardaten und die Nutzung von PDF-Formularen durch Programmierung.
  • PDF-Sicherheit ist die Verwendung von digitalen Signaturen, Verschlüsselung und Passwortschutz für PDF-Dokumente.
  • Das Abrufen und Ändern von PDF-Dateien wird als Handhabung von Seitenmetadaten bezeichnet.

    Wenn IronPDF seine Produktpalette um eine Node.js-Version erweitert, könnte dies Entwicklern, die Node.js-Apps entwickeln, eine Möglichkeit bieten, die PDF-Manipulationsfunktionen von IronPDF zu nutzen. Dies könnte für Entwickler hilfreich sein, die lieber mit einer Bibliothek arbeiten möchten, die ähnliche Funktionen wie IronPDF in der .NET-Umgebung bietet.

    Die offizielle Dokumentation, Versionshinweise oder Updates des IronPDF-Teams sollten immer konsultiert werden, um die aktuellsten Informationen über IronPDFs Funktionen, Kompatibilität und Unterstützung für Node.js zu erhalten. Die Software-Bibliotheken können sich seit meiner letzten Wissensaktualisierung erweitert oder verändert haben. Hier erfahren Sie mehr über IronPDF. Mehr über IronPDF erfahren Sie unter hier.

Paket-Anforderung

  • Visual Studio Code ist die IDE
  • Node.js
  • Yarn oder npm können für die Paketverwaltung verwendet werden, die für Paketinstallationen notwendig ist.

Installieren Sie das IronPDF-Paket für Node.js

Starten Sie die Eingabeaufforderung oder das Terminal: Öffnen Sie die Eingabeaufforderung oder das Terminal. Je nach Betriebssystem gibt es verschiedene Möglichkeiten, darauf zuzugreifen:

  • Windows: PowerShell oder Eingabeaufforderung
  • Terminal unter Mac OS X
  • Terminal unter Linux

    Stellen Sie das Paket zusammen: Um ein Paket zu installieren, verwenden Sie den Paketnamen und den Befehl npm install. Um beispielsweise das Paket @ironsoftware/ironpdf zu installieren, geben Sie folgenden Befehl in das Terminal ein:

 npm i @ironsoftware/ironpdf

Ersetzen Sie @ironsoftware/ironpdf durch den Namen des Pakets, das Sie installieren möchten. Um das eigentliche Paket zu installieren.

Wie man ein PDF-Dokument in Node.js parst: Abbildung 1 - IronPDF installieren

PDF-Datei parsen, um Daten zu extrahieren

Beim Ausprobieren zeigt sich, dass IronPDF viele Funktionen bietet, die den Umgang mit PDF in Node.js erleichtern. Es konzentriert sich auf das Erzeugen, Anzeigen und Ändern beliebiger PDF-Dokumente in den gewünschten Formaten. PDF-Dateien sind recht einfach zu analysieren.

const { PdfDocument } = require("@ironsoftware/ironpdf");
const pdfprocess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  var data=await pdf.extractText();
  console.log(data);
};
pdfprocess();
JAVASCRIPT

Die Bedeutung der fromFile-Funktion wird durch den obigen Code verdeutlicht. fromFile-Methode, die es uns ermöglicht, PDF-Dokumente zu lesen und die PDF-Datei in PDFDocument-Objekte zu konvertieren, lädt die Datei aus einem vorhandenen Dateisystem. PdfDocument enthält also die Metadaten des PDFs. Die Datei-Metadaten im pdf-Objekt können nach Belieben verwendet werden. Die geparsten Dokumentdaten dieses Objekts sind der Text und die Grafiken, die im PDF-Seitenobjekt enthalten sind. Die Funktion extractText wird verwendet, um den gesamten Text aus der bereitgestellten PDF-Datei zu extrahieren. Anschließend wird der extrahierte Text als String gespeichert und für die weitere Verarbeitung, z. B. die Erstellung des JSON-Formats, vorbereitet.

Seite-für-Seite-Textextraktion

Im Folgenden finden Sie den Code für den zweiten Ansatz, der explizit Text aus jeder Seite der PDF-Datei extrahiert.

const pdf = await PdfDocument.fromFile("Demo.pdf");
  var pagecount = await pdf.getPageCount();
  for (var i = 0; i < pagecount; i++) {
    var spdf = await pdf.extractText(i);
    console.log(spdf);
  }
JAVASCRIPT

Die PDF-Rohdaten aus einer bereits im Speicher befindlichen PDF-Datei werden von diesem Beispielcode vollständig aus dem angegebenen Verzeichnis geladen und ein PdfDocument-Objekt mit dem Namen pdf erstellt. Ein PDF-Dokument ist eine Datenstruktur, die sich aus mehreren grundlegenden Datenobjekttypen zusammensetzt. Alle Seitendaten in der PDF-Datei werden anhand ihrer Seitennummer oder ihres Seitenindexes im PDF-Objekt abgerufen, um sicherzustellen, dass sie nacheinander verarbeitet werden. Zunächst verwenden wir die PageCount-Methode des PDF-Objekts, um die Gesamtzahl der Seiten in der bereitgestellten PDF-Datei zu ermitteln.

Die For-Schleife durchläuft jede Seite anhand dieser Seitenzahl und ruft die Funktion extractText auf, um den Text von jeder PDF-Seite abzurufen. Der extrahierte Text kann entweder auf dem Bildschirm des Benutzers angezeigt oder in einer String-Variablen gespeichert werden. Mit dieser Technik ist es also möglich, Text aus einzelnen PDF-Seiten in geordneter Weise zu extrahieren. Diese Techniken zeigen, wie IronPDF, eine speziell für PDF-Aufgaben entwickelte Node.js-Bibliothek, einfach und gründlich Text aus PDF-Dateien extrahieren kann. Diese Zugänglichkeit erhöht die Nützlichkeit von PDFs in einer Vielzahl von Kontexten und hat zahlreiche praktische Anwendungen.

Wie man ein PDF-Dokument in Node.js analysiert: Abbildung 2 - PDF seitenweise lesen

Die beiden oben genannten Codes liefern die gleiche Ausgabe, die einzige Änderung ist die Implementierung des Codes auf der Grundlage der Benutzeranforderungen. Mehr über IronPDF erfahren Sie unter hier.

Schlussfolgerung

Die IronPDF-Bibliothek bietet robuste Sicherheitsmaßnahmen, um Risiken zu verringern und die Datensicherheit zu gewährleisten. Es ist mit allen gängigen Browsern kompatibel und ist nicht auf einen einzigen beschränkt. Um den unterschiedlichen Anforderungen von Entwicklern gerecht zu werden, bietet die Bibliothek eine breite Palette von Lizenzierungsoptionen, darunter eine kostenlose Entwicklerlizenz und zusätzliche Entwicklungslizenzen, die erworben werden können.

Zusätzlich zu einer permanenten Lizenz, einem Jahr Software-Wartung und einer dreißigtägigen Geld-zurück-Garantie enthält das "Lite-Lizenz"-Paket auch Upgrade-Möglichkeiten. Die Nutzer haben die Möglichkeit, das Produkt während des gesamten mit Wasserzeichen versehenen Testzeitraums in der Praxis zu testen. Bitte prüfen Sie die mitgelieferten link für weitere Details zu IronPDFs Kosten, Lizenzierung und Testversion. Informationen über andere Produkte von Iron Software finden Sie unter folgendem Link hier.

Wie man ein PDF-Dokument in Node.js parst: Abbildung 3

< PREVIOUS
Wie man eine PDF-Datei in Node.js komprimiert
NÄCHSTES >
Herunterladen von PDF-Dateien von einer URL in Node.js

Sind Sie bereit, loszulegen? Version: 2024.9 gerade veröffentlicht

Kostenlose npm-Installation Lizenzen anzeigen >