PRODUKT-VERGLEICHE

Wie man PDF-Dokumente in C# mit iTextSharp liest:

Jordi Bardia

19. Februar 2025

Teilen Sie:

Das Verarbeiten von PDFs ist eine gängige Aufgabe in der C#-Entwicklung, von der Textextraktion bis zur Änderung von Dokumenten. iText 7 war lange eine bevorzugte Bibliothek dafür, aber die komplexe Syntax und die steile Lernkurve können die Entwicklung verlangsamen.

IronPDF bietet eine einfachere, effizientere Alternative. Mit einer intuitiven API, integrierter HTML-zu-PDF-Konvertierung und einfacherer Textextraktion vereinfacht IronPDF die PDF-Verarbeitung mit weniger Code. In diesem Artikel vergleichen wir iText 7 und IronPDF und zeigen, warum IronPDF die klügere Wahl für C#-Entwickler ist.

Verständnis von iText 7: Ein Überblick

iText 7 (ursprünglich iTextSharp) ist eine leistungsstarke Open-Source-Bibliothek zum Arbeiten mit PDFs in .NET. Es bietet umfangreiche Funktionen zum Erstellen, Bearbeiten, Verschlüsseln und Extrahieren von Inhalten aus PDF-Dokumenten. Viele Entwickler verlassen sich darauf, um Dokumenten-Workflows zu automatisieren, Berichte zu erstellen und umfangreiche PDF-Verarbeitungsaufgaben zu bewältigen.

Eine der größten Stärken von iText 7 ist die feingliedrige Kontrolle über PDF-Strukturen. Es unterstützt Anmerkungen, Formularfelder, Wasserzeichen und digitale Signaturen, was es zu einem robusten Werkzeug für fortgeschrittene Dokumentenbearbeitung macht. Außerdem ist es gut dokumentiert und weit verbreitet, mit starker Community-Unterstützung und vielen verfügbaren Drittanbieter-Ressourcen.

Installation von iText 7

Um iText 7 in einem .NET-Projekt zu installieren, können Sie den NuGet-Paket-Manager in Visual Studio verwenden:

Verwendung der NuGet-Paket-Manager-Konsole:

Install-Package itext7

Install-Package itext7

'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package itext7

Allerdings bringt iText 7 Herausforderungen mit sich. Seine komplexe API erfordert mehr Code für häufige Aufgaben wie Textextraktion oder das Zusammenführen von PDFs. Es fehlt an integrierter Unterstützung für die HTML-zu-PDF-Konvertierung, was Web-zu-Dokument-Workflows erschwert. Darüber hinaus erfordert die AGPL-Lizenzierung, dass Unternehmen eine kommerzielle Lizenz erwerben, um die Anforderungen zur Verteilung von Open-Source-Software zu vermeiden.

Für Entwickler, die eine schlankere, moderne API mit modernen Funktionen suchen, bietet IronPDF eine überzeugende Alternative.

Einführung in IronPDF: Eine überlegene Lösung

IronPDF ist eine .NET-Bibliothek, die darauf ausgelegt ist, PDF-Extraktion, Manipulation und Erstellung einfach und effizient zu gestalten. Im Gegensatz zu iText 7, das für viele Operationen umfangreiche Programmierung erfordert, ermöglicht IronPDF Entwicklern das Lesen, Bearbeiten und Ändern von PDFs mit minimalem Aufwand.

Für die PDF-Extraktion erleichtert IronPDF das Extrahieren von Texten, Bildern und strukturierten Daten aus PDFs mit nur wenigen Codezeilen, wodurch Sie Ihre Textextraktionsaufgaben mühelos optimieren können. Wenn es um die Manipulation von PDFs geht, unterstützt IronPDF das Zusammenführen, Aufteilen, Wasserzeichen hinzufügen und Bearbeiten von PDFs, ohne dass komplexe Low-Level-Operationen erforderlich sind.

Außerdem enthält IronPDF eine native HTML-zu-PDF-Konvertierung, die es einfach macht, PDFs aus Webseiten oder bestehendem HTML-Inhalt zu erstellen. Es unterstützt auch das Rendern von JavaScript, digitale Signaturen und Verschlüsselung und bietet ein abgerundetes Toolkit für moderne Anwendungen.

Mit einer klareren API, besserer Dokumentation und kommerziellem Support ist IronPDF eine entwicklerfreundliche Alternative, die die PDF-Verarbeitung in C# vereinfacht. In den nächsten Abschnitten werden wir vergleichen, wie beide Bibliotheken wichtige PDF-Aufgaben bewältigen und warum IronPDF eine bessere Erfahrung für C#-Entwickler bietet.

Einrichtung

Um IronPDF in Ihren C#-Projekten zum Laufen zu bringen, ist es so einfach, die folgende Zeile im NuGet-Paket-Manager auszuführen:

Install-Package IronPdf

:----

Oder alternativ unter Tools > NuGet-Paket-Manager > NuGet-Pakete für die Lösung verwalten und nach IronPDF suchen. IronPDF NuGet Package Manager Screen

Anschließend klicken Sie einfach auf „Installieren“ und IronPDF wird Ihrem Projekt in kürzester Zeit hinzugefügt!

IronPDF vs iText 7 in der PDF-Verarbeitung: Code-Vergleich

Text mit IronPDF extrahieren

IronPDF vereinfacht die PDF-Textextraktion, -manipulation und -lesung mit einer für Entwickler viel freundlicheren API. Im Gegensatz zu iText 7, das niedrigstufige Operationen erfordert, ermöglicht IronPDF die Textextraktion in nur wenigen Codezeilen.

Um das leistungsstarke Textextraktionstool von IronPDF in Aktion zu zeigen, werde ich das folgende PDF-Dokument nehmen und den Inhalt daraus extrahieren.

Beispiel-PDF für die Textextraktion

Beispielcode

using IronPdf;
class Program
{
    static void Main()
    {
        string pdfPath = "sample.pdf";

        var pdf = new PdfDocument(pdfPath);

        string extractedText = pdf.ExtractAllText();

        Console.WriteLine(extractedText);
    }
}

using IronPdf;
class Program
{
    static void Main()
    {
        string pdfPath = "sample.pdf";

        var pdf = new PdfDocument(pdfPath);

        string extractedText = pdf.ExtractAllText();

        Console.WriteLine(extractedText);
    }
}

Imports IronPdf
Friend Class Program
	Shared Sub Main()
		Dim pdfPath As String = "sample.pdf"

		Dim pdf = New PdfDocument(pdfPath)

		Dim extractedText As String = pdf.ExtractAllText()

		Console.WriteLine(extractedText)
	End Sub
End Class

Ausgabe

IronPDF Konsolenausgabe

Erklärung:

IronPDF vereinfacht die Extraktion von PDF-Text mit seiner High-Level-API und eliminiert die Notwendigkeit für low-level Operationen. In nur wenigen Codezeilen kann IronPDF effizient den gesamten Text aus einem PDF-Dokument extrahieren, im Gegensatz zu Bibliotheken wie iText 7, die oft eine manuelle Seiteniteration und komplexe Handhabung erfordern.

Im Beispiel lädt die PdfDocument-Klasse das PDF und die ExtractAllText()-Methode extrahiert schnell den gesamten Text, was den Prozess vereinfacht. Dies ist ein großer Vorteil gegenüber iText 7, bei dem Sie einzelne Seiten und Textelemente manuell bearbeiten müssten.

Erweiterung von IronPDF für andere Aufgaben:

Aufbauend auf dem grundlegenden Beispiel zur Textextraktion vereinfacht die High-Level-API von IronPDF andere häufige PDF-Aufgaben, und das alles bei gleichbleibender Benutzerfreundlichkeit und Effizienz:

Text aus bestimmten Seiten extrahieren: Wenn Sie Text von einer bestimmten Seite oder einem Bereich extrahieren müssen, ermöglicht Ihnen IronPDF, dies einfach zu tun. Beispielsweise Text von der ersten Seite extrahieren:

var pdf = new PdfDocument("sample.pdf");

string pageText = pdf.Pages[0].Text;

Console.WriteLine(pageText);

var pdf = new PdfDocument("sample.pdf");

string pageText = pdf.Pages[0].Text;

Console.WriteLine(pageText);

Dim pdf = New PdfDocument("sample.pdf")

Dim pageText As String = pdf.Pages(0).Text

Console.WriteLine(pageText)

PDF-Manipulation: Nach dem Extrahieren von Text oder Daten aus mehreren PDFs möchten Sie diese möglicherweise in ein Dokument zusammenführen. IronPDF macht das Zusammenführen mehrerer PDFs einfach:

var pdf1 = new PdfDocument("file1.pdf");
var pdf2 = new PdfDocument("file2.pdf");
var combinedPdf = PdfDocument.Merge(pdf1, pdf2);

combinedPdf.SaveAs("combined_output.pdf");

var pdf1 = new PdfDocument("file1.pdf");
var pdf2 = new PdfDocument("file2.pdf");
var combinedPdf = PdfDocument.Merge(pdf1, pdf2);

combinedPdf.SaveAs("combined_output.pdf");

Dim pdf1 = New PdfDocument("file1.pdf")
Dim pdf2 = New PdfDocument("file2.pdf")
Dim combinedPdf = PdfDocument.Merge(pdf1, pdf2)

combinedPdf.SaveAs("combined_output.pdf")

PDF-zu-HTML-Konvertierung: Wenn Sie ein PDF zurück in HTML umwandeln müssen, um weitere Extraktionen oder Manipulationen durchzuführen, bietet IronPDF auch diese Funktionalität:

 var pdf = new PdfDocument("sample.pdf");

 string htmlContent = pdf.ToHtmlString();

 var pdf = new PdfDocument("sample.pdf");

 string htmlContent = pdf.ToHtmlString();

Dim pdf = New PdfDocument("sample.pdf")

 Dim htmlContent As String = pdf.ToHtmlString()

Mit IronPDF ist die Textextraktion erst der Anfang. Die einfache, leistungsstarke API der Bibliothek erstreckt sich auf eine Vielzahl von PDF-Bearbeitungsaufgaben, alles in einem Format, das intuitiv ist und sich leicht in Ihren Workflow integrieren lässt.

PDFs mit iText 7 lesen

iText 7 erfordert die Arbeit mit PDF-Readern, Streams und byte-level Datenverarbeitung. Das Extrahieren von Text ist nicht einfach, da es erforderlich ist, durch PDF-Seiten zu iterieren und verschiedene Strukturen manuell zu bearbeiten. Für dieses Codebeispiel verwenden wir dasselbe PDF-Dokument, das wir im Abschnitt IronPDF genutzt haben.

using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;

class Program
{
    static void Main()
    {

        string pdfPath = "sample.pdf";
        string extractedText = ExtractTextFromPdf(pdfPath);
        Console.WriteLine(extractedText);
    }

    static string ExtractTextFromPdf(string pdfPath)
    {
        using (PdfReader reader = new PdfReader(pdfPath))
        using (iText.Kernel.Pdf.PdfDocument pdfDoc = new iText.Kernel.Pdf.PdfDocument(reader))
        {
            string text = "";
            for (int i = 1; i <= pdfDoc.GetNumberOfPages(); i++)
            {
                text += PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(i)) + Environment.NewLine;
            }
            return text;
        }
    }
}

using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;

class Program
{
    static void Main()
    {

        string pdfPath = "sample.pdf";
        string extractedText = ExtractTextFromPdf(pdfPath);
        Console.WriteLine(extractedText);
    }

    static string ExtractTextFromPdf(string pdfPath)
    {
        using (PdfReader reader = new PdfReader(pdfPath))
        using (iText.Kernel.Pdf.PdfDocument pdfDoc = new iText.Kernel.Pdf.PdfDocument(reader))
        {
            string text = "";
            for (int i = 1; i <= pdfDoc.GetNumberOfPages(); i++)
            {
                text += PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(i)) + Environment.NewLine;
            }
            return text;
        }
    }
}

Imports iText.Kernel.Pdf
Imports iText.Kernel.Pdf.Canvas.Parser

Friend Class Program
	Shared Sub Main()

		Dim pdfPath As String = "sample.pdf"
		Dim extractedText As String = ExtractTextFromPdf(pdfPath)
		Console.WriteLine(extractedText)
	End Sub

	Private Shared Function ExtractTextFromPdf(ByVal pdfPath As String) As String
		Using reader As New PdfReader(pdfPath)
		Using pdfDoc As New iText.Kernel.Pdf.PdfDocument(reader)
			Dim text As String = ""
			Dim i As Integer = 1
			Do While i <= pdfDoc.GetNumberOfPages()
				text &= PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(i)) & Environment.NewLine
				i += 1
			Loop
			Return text
		End Using
		End Using
	End Function
End Class

Ausgabe

iText 7 Konsolenausgabe

Erklärung:

Der PdfReader lädt die PDF-Datei zum Lesen.
Das PdfDocument-Objekt ermöglicht das Durchlaufen von Seiten.
PdfTextExtractor.GetTextFromPage() extrahiert Text von jeder Seite.
Der endgültige Text wird in einem String gespeichert und angezeigt.
Diese Methode funktioniert, erfordert jedoch manuelle Iteration und kann bei strukturierten Dokumenten oder gescannten PDFs umständlich sein.

Vergleich von iText 7 und IronPDF

Während iText 7 detaillierte Kodierung erfordert, um PDF-Operationen auszuführen, vereinfacht IronPDF diese Aufgaben mit unkomplizierten Methoden. Zum Beispiel erfordert das Extrahieren von Text aus einer PDF mit iText 7 mehrere Schritte und umfangreichen Code, während IronPDF dies in nur wenigen Zeilen erreicht. Zusätzlich ist die Unterstützung von IronPDF für die Konvertierung von HTML zu PDF robuster und verarbeitet komplexes HTML, CSS und JavaScript nahtlos.

$C\# Bibliothekszusammenfassungstabelle$

Wichtige Erkenntnisse

IronPDF vereinfacht das Lesen und Bearbeiten von PDFs mit einer intuitiveren und effizienteren API, die weniger Code benötigt, um gängige Operationen auszuführen.
Die Textextraktion von IronPDF ist wesentlich einfacher zu implementieren als der komplexere Iterationsprozess von iTextSharp und spart Entwicklern Zeit.
Die perpetuellen Lizenzen von IronPDF sind wesentlich unternehmensfreundlicher und bieten im Vergleich zur AGPL-Lizenz von iTextSharp weniger Einschränkungen.
IronPDF verfügt über eine bessere Dokumentation, die für eine schnelle Problemlösung leichter zugänglich ist, was es ideal für Entwickler macht, die schnelle Lösungen suchen, ohne sich durch übermäßige Ressourcen arbeiten zu müssen.

Optimierung Ihres Workflows mit IronPDF

IronPDF bietet eine Reihe leistungsstarker Funktionen, die über das bloße Lesen von PDFs hinausgehen. Diese Funktionen machen es zu einer robusten Lösung für Entwickler, die ihre PDF-Workflows optimieren möchten. So kann IronPDF Ihren Entwicklungsprozess verbessern:

1. Textextraktion aus PDFs

IronPDF ermöglicht die einfache Extraktion von Text aus PDF-Dateien, wodurch es ideal für Workflows ist, die Dokumentenanalyse, Datenextraktion oder Inhaltsindizierung beinhalten. Mit IronPDF können Sie schnell Text aus PDFs extrahieren und in Ihren Anwendungen verwenden, ohne sich mit komplexem Parsen auseinandersetzen zu müssen.

2. PDF-Erstellung

IronPDF macht es einfach, PDFs von Grund auf zu erstellen, egal ob Sie Berichte, Rechnungen oder andere Arten von Dokumenten erstellen. Das Tool unterstützt auch die Umwandlung von HTML in PDF, sodass Sie bestehende Webinhalte nutzen und gut formatierte PDFs erzeugen können. Dies ist ideal für Szenarien, in denen Sie Webseiten oder dynamische HTML-Inhalte in herunterladbare PDF-Dateien umwandeln müssen.

3. Erweiterte PDF-Funktionen

Über die grundlegende Textextraktion und PDF-Erstellung hinaus unterstützt IronPDF erweiterte Funktionen wie das Ausfüllen von PDF-Formularen, das Hinzufügen von Anmerkungen und die Manipulation von Dokumenteninhalten. Diese Fähigkeiten sind in Branchen wie der Rechts-, Finanz- oder Bildungsindustrie nützlich, wo Formulare und Feedback ein regelmäßiger Bestandteil des Arbeitsablaufs sind.

4. Stapelverarbeitung

IronPDF eignet sich gut für die Verarbeitung einer großen Anzahl von PDF-Dateien. Egal, ob Sie Informationen aus Hunderten von Dokumenten extrahieren oder mehrere HTML-Dateien in PDFs konvertieren, IronPDF kann diese Aufgaben automatisieren und effizient bewältigen, was Zeit und Aufwand spart.

5. Automatisierung und Effizienz

IronPDF vereinfacht PDF-Bearbeitungsaufgaben, die oft zeitaufwändig und repetitiv sind. Durch die Automatisierung von Aufgaben wie der Textextraktion aus PDFs, dem Ausfüllen von Formularen oder der Stapelkonvertierung können sich Entwickler auf komplexere Aspekte ihrer Projekte konzentrieren, während IronPDF die Schwerarbeit übernimmt.

Technischer Support und Community-Ressourcen

Um sicherzustellen, dass Entwickler IronPDF optimal nutzen können, wird das Tool durch starken Support und Community-Ressourcen unterstützt:

Technischer Support: IronPDF bietet direkten Support über E-Mail und ein Ticketing-System an und bietet Hilfe bei Implementierungs- oder technischen Herausforderungen.
Community-Ressourcen: Die IronPDF-Website enthält umfangreiche Dokumentation, Tutorials und Blogbeiträge. Entwickler können auch Lösungen finden und Wissen über GitHub und Stack Overflow teilen, wo die Community aktiv über bewährte Methoden und Problemlösungstipps diskutiert.

Schlussfolgerung

In diesem Artikel haben wir die Fähigkeiten von IronPDF als leistungsstarke, benutzerfreundliche PDF-Bibliothek für .NET-Entwickler untersucht. Wir haben es mit iText 7 verglichen und hervorgehoben, wie IronPDF komplexe Aufgaben wie die Textextraktion und die Manipulation von PDFs vereinfacht. Die saubere API und die fortschrittlichen Funktionen von IronPDF, einschließlich Bearbeiten, Wasserzeichen und digitale Signaturen, machen es zu einer überlegenen Lösung für moderne PDF-Workflows.

Im Gegensatz zu iText 7, das für gängige PDF-Aufgaben komplexe Codierung erfordert, ermöglicht IronPDF die Durchführung komplexer Operationen mit minimalem Code, was Entwicklern Zeit und Mühe spart. Unabhängig davon, ob Sie mit gescannten Dokumenten arbeiten, PDFs aus HTML generieren oder benutzerdefinierte Wasserzeichen hinzufügen, bietet IronPDF eine intuitive und effiziente Möglichkeit, all dies zu bewältigen.

Wenn Sie Ihre PDF-Workflows optimieren und die Produktivität in Ihren C#-Projekten steigern möchten, ist IronPDF die ideale Wahl.

Wir laden Sie ein, IronPDF herunterzuladen und es selbst auszuprobieren. Mit einer kostenlosen Testversion können Sie aus erster Hand erfahren, wie einfach es ist, IronPDF in Ihre Anwendungen zu integrieren und noch heute von seinen leistungsstarken Funktionen zu profitieren.

Klicken Sie unten, um Ihre kostenlose Testversion zu starten:

Starten Sie Ihre kostenlose Testversion mit IronPDF
Erfahren Sie mehr über die Funktionen und Preise von IronPDF.
Warten Sie nicht – entfesseln Sie das Potenzial einer nahtlosen PDF-Verarbeitung mit IronPDF!

Jordi Bardia

Jetzt mit dem Ingenieurteam chatten

Software-Ingenieur

Jordi beherrscht vor allem Python, C# und C++. Wenn er seine Fähigkeiten bei Iron Software nicht einsetzt, programmiert er Spiele. Durch seine Mitverantwortung für Produkttests, Produktentwicklung und Forschung trägt Jordi wesentlich zur kontinuierlichen Produktverbesserung bei. Die vielseitigen Erfahrungen, die er sammelt, bieten ihm immer wieder neue Herausforderungen, und er sagt, dass dies einer seiner Lieblingsaspekte bei Iron Software ist. Jordi wuchs in Miami, Florida, auf und studierte Informatik und Statistik an der University of Florida.

< PREVIOUS
Hinzufügen von Seitenzahlen in PDF mit iTextSharp in C#

NÄCHSTES >
iTextSharp Read PDF-Alternativen (Entwickler-Tutorial)