using IronPdf;
// Disable local disk access or cross-origin requests
Installation.EnableWebSecurity = true;
// Instantiate Renderer
var renderer = new ChromePdfRenderer();
// Create a PDF from a HTML string using C#
var pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>");
// Export to a file or Stream
pdf.SaveAs("output.pdf");
// Advanced Example with HTML Assets
// Load external html assets: Images, CSS and JavaScript.
// An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
var myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", @"C:\site\assets\");
myAdvancedPdf.SaveAs("html-with-assets.pdf");
itext7 Text aus PDF extrahieren vs IronPDF (Code-Beispiel-Tutorial)
Jordi Bardia
2. Februar 2023
Teilen Sie:
Ihr Unternehmen gibt zu viel für jährliche Abonnements für PDF-Sicherheit und -Compliance aus. Betrachten IronSecureDoc, das Lösungen zur Verwaltung von SaaS-Diensten wie digitale Signatur, Redaktion, Verschlüsselung und Schutz bietet, alles gegen eine einmalige Zahlung. IronSecureDoc-Dokumentation erkunden
In diesem Tutorial lernen wir, wie man Daten aus einer PDF-Datei liest(Portable Document Format) dokument in C# mit Beispielen unter Verwendung zweier verschiedener Tools.
Es gibt viele Parser-Bibliotheken/Leseprogramme im Internet, die Text und Bilder aus PDF-Dateien extrahieren können. Wir werden Informationen aus einer PDF-Datei extrahieren, indem wir die beiden nützlichsten und besten Bibliotheken mit relevanten Diensten verwenden, die es gibt. Wir werden auch beide Bibliotheken vergleichen, um herauszufinden, welche der beiden besser ist.
Wir werden vergleichen iText 7 und IronPDF. Bevor wir fortfahren, werden wir beide Bibliotheken vorstellen.
iText 7
die iText 7-Bibliothek ist die neueste Version von iTextSharp. Sie wird sowohl in .NET- als auch in Java-Anwendungen verwendet. Es ist mit einer Dokumentengine ausgestattet(wie Adobe Acrobat Reader)die Software bietet Funktionen zur Programmierung auf hoher und niedriger Ebene, einen Ereignis-Listener und PDF-Bearbeitungsfunktionen. iText 7 kann Seiten von PDF-Dokumenten erstellen, bearbeiten und verbessern, ohne dass Fehler auftreten. Weitere Funktionen sind das Hinzufügen von Passwörtern, das Erstellen von Kodierungsstrategien und das Speichern von Berechtigungsoptionen in einem PDF-Dokument. Es wird auch verwendet, um Inhalte oder Leinwandbilder hinzuzufügen oder zu ändern und PDF-Elemente anzuhängen[wörterbücher, etc.]sie können Wasserzeichen und Lesezeichen erstellen, die Schriftgröße ändern und sensible Daten signieren.
mit iText 7 können wir benutzerdefinierte PDF-Verarbeitungsanwendungen für Web-, Mobil-, Desktop-, Kernel- oder Cloud-Anwendungen in .NET erstellen.
IronPDF
IronPDF ist eine von Iron Software entwickelte Bibliothek, mit der C#- und Java-Softwareentwickler PDF-Inhalte erstellen, bearbeiten und extrahieren können. Es wird üblicherweise verwendet, um PDFs aus HTML, aus Webseiten oder aus Bildern zu erzeugen. Es wird verwendet, um PDFs zu lesen und ihren Text zu extrahieren. Weitere Funktionen sind das Hinzufügen von Kopf- und Fußzeilen, Signaturen, Anhängen, Passwörtern und Sicherheitsfragen. Mit seinen Multithreading- und asynchronen Funktionen bietet es eine umfassende Leistungsoptimierung.
IronPDF bietet plattformübergreifende Unterstützung und ist kompatibel mit .NET 5, .NET 6 und .NET 7, .NET Core, Standard und Framework. Es ist auch mit Windows, macOS, Linux, Docker, Azure und AWS kompatibel.
Lassen Sie uns nun eine Demonstration für beide sehen.
Mit iText 7 Text aus einer PDF-Datei extrahieren
Wir werden die folgende PDF-Datei verwenden, um Text aus der PDF-Datei zu extrahieren.
IronPDF
Schreiben Sie den folgenden Quellcode für die Extraktion von Text mit iText 7.
//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
{
var pageNumbers = document.GetNumberOfPages();
for (int page = 1; page <= pageNumbers; page++)
{
//new LocationTextExtractionStrategy creates a new text extraction renderer
LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
parser.ProcessPageContent(document.GetFirstPage());
pageText.Append(strategy.GetResultantText());
}
Console.WriteLine(pageText.ToString());
}
//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
{
var pageNumbers = document.GetNumberOfPages();
for (int page = 1; page <= pageNumbers; page++)
{
//new LocationTextExtractionStrategy creates a new text extraction renderer
LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
parser.ProcessPageContent(document.GetFirstPage());
pageText.Append(strategy.GetResultantText());
}
Console.WriteLine(pageText.ToString());
}
'assign PDF location to a string and create new StringBuilder...
Dim pdfPath As String = "D:/TestDocument.pdf"
Dim pageText = New StringBuilder()
'read PDF using new PdfDocument and new PdfReader...
Using document As New PdfDocument(New PdfReader(pdfPath))
Dim pageNumbers = document.GetNumberOfPages()
For page As Integer = 1 To pageNumbers
'new LocationTextExtractionStrategy creates a new text extraction renderer
Dim strategy As New LocationTextExtractionStrategy()
Dim parser As New PdfCanvasProcessor(strategy)
parser.ProcessPageContent(document.GetFirstPage())
pageText.Append(strategy.GetResultantText())
Next page
Console.WriteLine(pageText.ToString())
End Using
Extrahierte Textausgabe
Nun wollen wir mit IronPDF Text aus einer PDF-Datei extrahieren.
Extrahieren von Text aus PDF-Dokumenten mit IronPDF
Der folgende Quellcode zeigt ein Beispiel für die Extraktion von Text aus PDF-Dateien mit IronPDF.
var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
Dim pdf = PdfDocument.FromFile("D:/TestDocument.pdf")
Dim text As String = pdf.ExtractAllText()
Console.WriteLine(text)
Extrahierter Text mit IronPDF
Vergleich
Mit IronPDF benötigt man zwei Zeilen, um Text aus PDFs zu extrahieren. Mit iText 7 hingegen müssen wir für dieselbe Aufgabe etwa 10 Zeilen Code schreiben.
IronPDF bietet von Haus aus bequeme Methoden zur Textextraktion; aber iText 7 verlangt von uns, dass wir unsere eigene Logik schreiben, um die gleiche Aufgabe zu erfüllen.
IronPDF ist sowohl in Bezug auf die Leistung als auch auf die Lesbarkeit des Codes effizient.
Beide Bibliotheken sind in Bezug auf die Genauigkeit gleichwertig, da beide eine 100 % genaue Ausgabe liefern.
Jordi beherrscht vor allem Python, C# und C++. Wenn er seine Fähigkeiten bei Iron Software nicht einsetzt, programmiert er Spiele. Durch seine Mitverantwortung für Produkttests, Produktentwicklung und Forschung trägt Jordi wesentlich zur kontinuierlichen Produktverbesserung bei. Die vielseitigen Erfahrungen, die er sammelt, bieten ihm immer wieder neue Herausforderungen, und er sagt, dass dies einer seiner Lieblingsaspekte bei Iron Software ist. Jordi wuchs in Miami, Florida, auf und studierte Informatik und Statistik an der University of Florida.