PRODUKT-VERGLEICHE

itext7 Text aus PDF extrahieren vs IronPDF (Code-Beispiel-Tutorial)

Veröffentlicht 2. Februar 2023
Teilen Sie:

In diesem Tutorial lernen wir, wie man Daten aus einer PDF-Datei liest(Portable Document Format) dokument in C# mit Beispielen unter Verwendung zweier verschiedener Tools.

Es gibt viele Parser-Bibliotheken/Leseprogramme im Internet, die Text und Bilder aus PDF-Dateien extrahieren können. Wir werden Informationen aus einer PDF-Datei extrahieren, indem wir die beiden nützlichsten und besten Bibliotheken mit relevanten Diensten verwenden, die es gibt. Wir werden auch beide Bibliotheken vergleichen, um herauszufinden, welche der beiden besser ist.

Wir werden vergleichen iText 7 und IronPDF. Bevor wir fortfahren, werden wir beide Bibliotheken vorstellen.

iText 7

die iText 7-Bibliothek ist die neueste Version von iTextSharp. Sie wird sowohl in .NET- als auch in Java-Anwendungen verwendet. Es ist mit einer Dokumentengine ausgestattet(wie Adobe Acrobat Reader)die Software bietet Funktionen zur Programmierung auf hoher und niedriger Ebene, einen Ereignis-Listener und PDF-Bearbeitungsfunktionen. iText 7 kann Seiten von PDF-Dokumenten erstellen, bearbeiten und verbessern, ohne dass Fehler auftreten. Weitere Funktionen sind das Hinzufügen von Passwörtern, das Erstellen von Kodierungsstrategien und das Speichern von Berechtigungsoptionen in einem PDF-Dokument. Es wird auch verwendet, um Inhalte oder Leinwandbilder hinzuzufügen oder zu ändern und PDF-Elemente anzuhängen[wörterbücher, etc.]sie können Wasserzeichen und Lesezeichen erstellen, die Schriftgröße ändern und sensible Daten signieren.

mit iText 7 können wir benutzerdefinierte PDF-Verarbeitungsanwendungen für Web-, Mobil-, Desktop-, Kernel- oder Cloud-Anwendungen in .NET erstellen.

IronPDF

IronPDF ist eine von Iron Software entwickelte Bibliothek, mit der C#- und Java-Softwareentwickler PDF-Inhalte erstellen, bearbeiten und extrahieren können. Es wird üblicherweise verwendet, um PDFs aus HTML, aus Webseiten oder aus Bildern zu erzeugen. Es wird verwendet, um PDFs zu lesen und ihren Text zu extrahieren. Weitere Funktionen sind das Hinzufügen von Kopf- und Fußzeilen, Signaturen, Anhängen, Passwörtern und Sicherheitsfragen. Mit seinen Multithreading- und asynchronen Funktionen bietet es eine umfassende Leistungsoptimierung.

IronPDF bietet plattformübergreifende Unterstützung und ist kompatibel mit .NET 5, .NET 6 und .NET 7, .NET Core, Standard und Framework. Es ist auch mit Windows, macOS, Linux, Docker, Azure und AWS kompatibel.

Lassen Sie uns nun eine Demonstration für beide sehen.

Mit iText 7 Text aus einer PDF-Datei extrahieren

Wir werden die folgende PDF-Datei verwenden, um Text aus der PDF-Datei zu extrahieren.

Extrahieren von Text aus PDF: iText vs. IronPDF - Abbildung 1: PDF-Datei

IronPDF

Schreiben Sie den folgenden Quellcode für die Extraktion von Text mit iText 7.

//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
 var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
 using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
    {
      var pageNumbers = document.GetNumberOfPages();
       for (int page = 1; page <= pageNumbers; page++)
        {
//new LocationTextExtractionStrategy creates a new text extraction renderer
    LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
     PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
     parser.ProcessPageContent(document.GetFirstPage());
     pageText.Append(strategy.GetResultantText());
         }
            Console.WriteLine(pageText.ToString());
     }
//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
 var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
 using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
    {
      var pageNumbers = document.GetNumberOfPages();
       for (int page = 1; page <= pageNumbers; page++)
        {
//new LocationTextExtractionStrategy creates a new text extraction renderer
    LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
     PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
     parser.ProcessPageContent(document.GetFirstPage());
     pageText.Append(strategy.GetResultantText());
         }
            Console.WriteLine(pageText.ToString());
     }
'assign PDF location to a string and create new StringBuilder...
Dim pdfPath As String = "D:/TestDocument.pdf"
 Dim pageText = New StringBuilder()
'read PDF using new PdfDocument and new PdfReader...
 Using document As New PdfDocument(New PdfReader(pdfPath))
	  Dim pageNumbers = document.GetNumberOfPages()
	   For page As Integer = 1 To pageNumbers
'new LocationTextExtractionStrategy creates a new text extraction renderer
	Dim strategy As New LocationTextExtractionStrategy()
	 Dim parser As New PdfCanvasProcessor(strategy)
	 parser.ProcessPageContent(document.GetFirstPage())
	 pageText.Append(strategy.GetResultantText())
	   Next page
			Console.WriteLine(pageText.ToString())
 End Using
VB   C#
Text aus PDF extrahieren: iText vs IronPDF - Abbildung 2: Extrahierte Textausgabe

Extrahierte Textausgabe

Nun wollen wir mit IronPDF Text aus einer PDF-Datei extrahieren.

Extrahieren von Text aus PDF-Dokumenten mit IronPDF

Der folgende Quellcode zeigt ein Beispiel für die Extraktion von Text aus PDF-Dateien mit IronPDF.

var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
Dim pdf = PdfDocument.FromFile("D:/TestDocument.pdf")
Dim text As String = pdf.ExtractAllText()
Console.WriteLine(text)
VB   C#
Extrahieren von Text aus PDF: iText vs IronPDF - Abbildung 3: Extrahierter Text mit IronPDF

Extrahierter Text mit IronPDF

Vergleich

Mit IronPDF benötigt man zwei Zeilen, um Text aus PDFs zu extrahieren. Mit iText 7 hingegen müssen wir für dieselbe Aufgabe etwa 10 Zeilen Code schreiben.

IronPDF bietet von Haus aus bequeme Methoden zur Textextraktion; aber iText 7 verlangt von uns, dass wir unsere eigene Logik schreiben, um die gleiche Aufgabe zu erfüllen.

IronPDF ist sowohl in Bezug auf die Leistung als auch auf die Lesbarkeit des Codes effizient.

Beide Bibliotheken sind in Bezug auf die Genauigkeit gleichwertig, da beide eine 100 % genaue Ausgabe liefern.

Schlussfolgerung

iText 7 ist verfügbar für gewerbliche Nutzung nur. IronPDF ist kostenlos für die Entwicklung und bietet auch ein kostenloser Test für kommerzielle Nutzung.

Für einen ausführlicheren Vergleich von IronPDF und iText 7 lesen Sie bitte dies blog-Beitrag über IronPDF vs. iText 7.

< PREVIOUS
Produktvergleiche mit IronPDF
NÄCHSTES >
Ein Vergleich zwischen IronPDF und PDFium.NET

Sind Sie bereit, loszulegen? Version: 2024.12 gerade veröffentlicht

Gratis NuGet-Download Downloads insgesamt: 11,810,873 Lizenzen anzeigen >