PRODUKT-VERGLEICHE

iText7 PDF lesen in C# Alternativen (VS IronPDF)

Kannapat Udonpant

20. Juni 2023

Teilen Sie:

PDF ist ein tragbares Dokumentenformat, das von Adobe Acrobat Reader erstellt wird und für den digitalen Austausch von Informationen über das Internet weit verbreitet ist. Es bewahrt die Formatierung der Daten und bietet Funktionen wie die Einstellung von Sicherheitsberechtigungen und Passwortschutz. Als C#-Entwickler sind Sie vielleicht schon auf Szenarien gestoßen, in denen die Integration von PDF-Funktionen in Ihre Softwareanwendung erforderlich ist. Sie von Grund auf neu zu erstellen, kann eine zeitraubende und mühsame Aufgabe sein. In Anbetracht der Leistung, Effektivität und Effizienz der Anwendung ist die Abwägung zwischen der Erstellung eines neuen Dienstes von Grund auf oder der Verwendung einer vorgefertigten Bibliothek daher erheblich.

Es gibt mehrere PDF-Bibliotheken für C#. In diesem Artikel werden wir zwei der beliebtesten PDF-Bibliotheken zum Lesen von PDF-Dokumenten in C# untersuchen.

iText-Software

iText 7, früher bekannt als iText 7 Core, ist eine PDF-Bibliothek zur Programmierung von PDF-Dokumenten in .NET C# und Java. Es ist als Open-Source-Lizenz verfügbar(AGPL) und kann für kommerzielle Anwendungen lizenziert werden.

iText Core ist eine High-Level-API, die einfache Methoden zur Erzeugung und Bearbeitung von PDFs auf alle möglichen Arten bietet. Mit iText 7 Core können Sie PDF-Dateien aufteilen, zusammenführen, mit Anmerkungen versehen, Formulare ausfüllen, digital unterschreiben und vieles mehr. iText 7 bietet eineHTML zu PDF Konverter.

IronPDF

Erfahren Sie mehr über IronPDF ist eine C#- und Java-API für .NET und .NET Framework, mit der PDF-Dokumente aus HTML, CSS und JavaScript entweder aus einer URL, HTML-Dateien oder HTML-Strings generiert werden können. IronPDF ermöglicht die Bearbeitung vorhandener PDF-Dateien wie Teilen, Zusammenführen, Kommentieren, digitales Signieren und vieles mehr.

IronPDF verfügt über mehr als 50 Funktionen zum Erstellen, Lesen und Bearbeiten von PDF-Dateien. Der Schwerpunkt liegt auf Geschwindigkeit, Benutzerfreundlichkeit und Genauigkeit, wenn es darum geht, hochwertige, pixelgenaue professionelle PDF-Dateien mit Adobe Acrobat Reader zu erstellen. Die API ist gut dokumentiert, und eine Menge Quellcode-Beispiele finden sich auf der Websitecode-Beispiele Seite.

Erstellen einer Konsolenanwendung

Wir werden Visual Studio 2022 IDE verwenden, um mit der Erstellung einer Anwendung zu beginnen. Visual Studio ist die offizielle IDE für die C#-Entwicklung, und Sie müssen sie installiert haben. Sie können es von der WebsiteMicrosoft Visual Studio-Website falls nicht installiert.

Mit den folgenden Schritten wird ein neues Projekt mit dem Namen "DemoApp" erstellt.

Öffnen Sie Visual Studio und klicken Sie auf "Ein neues Projekt erstellen".
Wählen Sie "Konsolenanwendung" und klicken Sie auf "Weiter".
Legen Sie den Namen des Projekts fest.
Wählen Sie die .NET-Version aus. Wählen Sie die stabile Version .NET 6.0.

IronPDF-Bibliothek installieren

Sobald das Projekt erstellt ist, muss die IronPDF-Bibliothek im Projekt installiert werden, um sie zu verwenden. Befolgen Sie diese Schritte, um es zu installieren.

Öffnen Sie den NuGet Package Manager, entweder über den Lösungsexplorer oder über Tools.
Suchen Sie nach IronPDF Library und wählen Sie sie für das aktuelle Projekt aus. Klicken Sie auf Installieren.
Fügen Sie den folgenden Namespace am Anfang der Datei Program.cs hinzu

using IronPdf;

using IronPdf;

Imports IronPdf

IText 7-Bibliothek installieren

Sobald das Projekt erstellt ist, muss die iText 7-Bibliothek im Projekt installiert werden, um sie zu verwenden. Befolgen Sie die Schritte zur Installation der Software.

Öffnen Sie den NuGet Package Manager entweder über den Lösungsexplorer oder über Tools.
Suchen Sie nach iText 7 Library und wählen Sie es für das aktuelle Projekt aus. Klicken Sie auf Installieren.
Fügen Sie die folgenden Namespaces am Anfang der Datei Program.cs hinzu

using iText.Kernel.Pdf.Canvas.Parser.Listener;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf;

using iText.Kernel.Pdf.Canvas.Parser.Listener;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf;

Imports iText.Kernel.Pdf.Canvas.Parser.Listener
Imports iText.Kernel.Pdf.Canvas.Parser
Imports iText.Kernel.Pdf

PDF-Dateien öffnen

Wir werden die folgende PDF-Datei verwenden, um Text daraus zu extrahieren. Es handelt sich um ein zweiseitiges PDF-Dokument.

Itext7 PDF lesen in C# Alternativen (VS IronPDF) Abbildung 9

IText-Bibliothek verwenden

Das Öffnen einer PDF-Datei mit der iText-Bibliothek ist ein zweistufiger Prozess. Zunächst erstellen wir ein "pdfReader"-Objekt und übergeben den Speicherort der Datei als Parameter. Dann verwenden wir die Klasse PdfDocument, um ein neues PDF-Dokument zu erstellen. Der Code lautet wie folgt:

PdfReader pdfReader = new PdfReader("sample.pdf");
PdfDocument pdfDoc = new PdfDocument(pdfReader);

PdfReader pdfReader = new PdfReader("sample.pdf");
PdfDocument pdfDoc = new PdfDocument(pdfReader);

Dim pdfReader As New PdfReader("sample.pdf")
Dim pdfDoc As New PdfDocument(pdfReader)

IronPDF verwenden

Das Öffnen von PDF-Dateien mit IronPDF ist einfach. Verwenden Sie die Methode FromFile der Klasse PdfDocument, um PDFs von einem beliebigen Dateispeicherort zu öffnen. Der folgende einzeilige Code öffnet eine PDF-Datei zum Lesen von Daten:

var pdf = PdfDocument.FromFile("sample.pdf");

var pdf = PdfDocument.FromFile("sample.pdf");

Dim pdf = PdfDocument.FromFile("sample.pdf")

Daten aus PDF-Dateien lesen

IText7-Bibliothek verwenden

PDF-Daten zu lesen ist in der iText 7-Bibliothek nicht so einfach. Wir müssen jede Seite des PDF-Dokuments manuell durchlaufen, um Text von jeder Seite zu extrahieren. Der folgende Quellcode hilft, den Text seitenweise aus dem PDF-Dokument zu extrahieren:

for (int page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
{
    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
    string pageContent = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy);
    Console.WriteLine(pageContent);
}
pdfDoc.Close();
pdfReader.Close();

for (int page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
{
    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
    string pageContent = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy);
    Console.WriteLine(pageContent);
}
pdfDoc.Close();
pdfReader.Close();

Dim page As Integer = 1
Do While page <= pdfDoc.GetNumberOfPages()
	Dim strategy As ITextExtractionStrategy = New SimpleTextExtractionStrategy()
	Dim pageContent As String = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy)
	Console.WriteLine(pageContent)
	page += 1
Loop
pdfDoc.Close()
pdfReader.Close()

In dem obigen Code ist eine Menge los. Zunächst deklarieren wir die Textextraktionsstrategie und verwenden dann die Methode GetTextFromPage der Klasse PdfExtractor, um Text zu lesen. Diese Methode akzeptiert zwei Parameter: Der erste ist die Seite des PDF-Dokuments, der zweite ist die Strategie. Um die Seite des PDF-Dokuments zu erhalten, verwenden Sie die Instanz von PdfDocument, um die Methode GetPage aufzurufen und die Seitenzahl als Parameter zu übergeben. Die Ausgabe wird als String zurückgegeben, der dann auf dem Konsolenbildschirm angezeigt wird. Schließlich werden die Objekte PDFReader und PdfDocument geschlossen. Sehen Sie sich auch das folgende Codebeispiel aufextrahieren von Text aus PDF mit iText7.

Ausgabe

Itext7 PDF lesen in C# Alternativen (VS IronPDF) Abbildung 10

IronPDF verwenden

So wie das Öffnen der PDF-Datei eine einzige Codezeile war, ist auch das Lesen von Text aus einer PDF-Datei ein einzeiliger Prozess. Die Klasse PDFDocument bietet die Methode ExtractAllText, umlesen Sie den gesamten Inhalt der PDF-Datei. console.WriteLine" wird verwendet, um den Text auf dem Bildschirm zu drucken. Der Code lautet wie folgt:

string text = pdf.ExtractAllText();
Console.WriteLine(text);

string text = pdf.ExtractAllText();
Console.WriteLine(text);

Dim text As String = pdf.ExtractAllText()
Console.WriteLine(text)

Ausgabe

Itext7 PDF lesen in C# Alternativen (VS IronPDF) Abbildung 11

Die Ausgabe ist genau und fehlerfrei. Um die Methode ExtractAllText zu verwenden, benötigen Sie jedoch eine Lizenz, da sie nur im Produktionsmodus funktioniert. Sie können Ihren Testlizenzschlüssel für 30 Tage auf derIronPDF Testlizenz-Seite.

Vergleich

Im Vergleich dazu liefern beide Bibliotheken beim Extrahieren von Text aus einem PDF-Dokument 100 % genaue Ergebnisse. Sie sind identisch, was die Genauigkeit angeht. IronPDF ist jedoch effizienter, was die Leistung und die Lesbarkeit des Codes angeht.

IronPDF benötigt nur zwei Codezeilen, um die gleiche Aufgabe wie iText zu erfüllen. Es bietet sofort einsetzbare Textextraktionsmethoden, ohne dass eine zusätzliche Logik implementiert werden muss. der iText-Code ist etwas kompliziert, und Sie müssen die beiden Instanzen, die beim Öffnen eines PDF-Dokuments erstellt werden, schließen. IronPDF hingegen löscht den Speicher automatisch, sobald die Aufgabe erledigt ist.

Zusammenfassung

In diesem Artikel haben wir uns angeschaut, wie man PDF-Dokumente mit der iText-Bibliothek in C# liest, und sie dann mit IronPDF verglichen. Beide Bibliotheken liefern genaue Ergebnisse und bieten zahlreiche Methoden zur PDF-Bearbeitung. Mit diesen beiden Bibliotheken können Sie PDF-Dateien erstellen, bearbeiten und Daten aus ihnen lesen.

iText ist quelloffen und frei verwendbar, allerdings mit Einschränkungen. Sie kann seinfür die kommerzielle Nutzung lizenziert. IronPDF ist ebenfalls kostenlos und kannlizenziert für kommerzielle Aktivitäten mit einer30 Tage kostenlose Testversion verfügbar.

Laden Sie IronPDF herunter und probieren Sie es aus.

Kannapat Udonpant

Jetzt mit dem Ingenieurteam chatten

Software-Ingenieur

Bevor er Software-Ingenieur wurde, promovierte Kannapat an der Universität Hokkaido in Japan im Bereich Umweltressourcen. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Abteilung für Bioproduktionstechnik ist. Im Jahr 2022 wechselte er mit seinen C#-Kenntnissen zum Engineering-Team von Iron Software, wo er sich auf IronPDF konzentriert. Kannapat schätzt an seiner Arbeit, dass er direkt von dem Entwickler lernt, der den Großteil des in IronPDF verwendeten Codes schreibt. Neben dem kollegialen Lernen genießt Kannapat auch den sozialen Aspekt der Arbeit bei Iron Software. Wenn er nicht gerade Code oder Dokumentationen schreibt, kann man Kannapat normalerweise beim Spielen auf seiner PS5 oder beim Wiedersehen mit The Last of Us antreffen.

< PREVIOUS
PDF in Bild umwandeln mit Itextsharp

NÄCHSTES >
Ein Vergleich zwischen IronPDF und Foxit PDF SDK