using IronPdf;
// Disable local disk access or cross-origin requests
Installation.EnableWebSecurity = true;
// Instantiate Renderer
var renderer = new ChromePdfRenderer();
// Create a PDF from a HTML string using C#
var pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>");
// Export to a file or Stream
pdf.SaveAs("output.pdf");
// Advanced Example with HTML Assets
// Load external html assets: Images, CSS and JavaScript.
// An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
var myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", @"C:\site\assets\");
myAdvancedPdf.SaveAs("html-with-assets.pdf");
PDFsharp Text aus PDF extrahieren vs. IronPDF (Beispiel)
Regan Pun
19. Februar 2025
Teilen Sie:
In der heutigen Anleitung werden wir erkunden, wie man Text aus PDF-Dokumenten mit zwei leistungsstarken PDF-Bibliotheken extrahiert,IronPDF undPDFSharp. Wir werden lernen, wie die Textextraktion mit diesen Tools funktioniert, ohne dass wir eine Adobe-Bibliotheklizenz besitzen müssen, und wie sie im Vergleich zueinander abschneiden.
Es gibt Dutzende von PDF-fokussierten Bibliotheken, aus denen Sie wählen können, und indem Sie sich die Zeit nehmen, diese zu vergleichen und zu erfahren, wie ihre Funktionen arbeiten, werden Sie in der Lage sein, die richtige Bibliothek für die Bedürfnisse Ihres Projekts auszuwählen. Die Textextraktion ist nur eines von vielen Beispielen für Aufgaben, die Sie möglicherweise an Ihren PDFs durchführen müssen. Sie ist in Situationen hilfreich, in denen Sie Daten effizient aus PDF-Dateien lesen oder analysieren müssen.
PDFsharp
PDFsharp ist eine Open-Source-.NET-Bibliothek, die für die programmgesteuerte Erstellung und Bearbeitung von PDF-Dokumenten entwickelt wurde. Während seine primäre Stärke in der PDF-Erstellung und -Manipulation liegt, bietet es auch grundlegende Werkzeuge zum Lesen vorhandener PDF-Dateien und zum Extrahieren von Inhalten, wenn es mit den richtigen externen Bibliotheken kombiniert wird.
PDFsharp kann mehr, als nur neue PDF-Dokumente spontan zu erstellen; es kann verwendet werden, um bestehende PDF-Dateien zu bearbeiten, Dokumente zusammenzuführen und zu teilen, Anmerkungen hinzuzufügen und mehr.
IronPDF
IronPDF ist eine professionelle .NET-Bibliothek, die entwickelt wurde, um den Umgang mit PDF-Dokumenten in C# zu vereinfachen. Es ist ein funktionsreiches Werkzeug, das für Entwickler entwickelt wurde, die Anwendungen erstellen, die die PDF-Erstellung umfassen,manipulation, PDF-Verschlüsselung, PDF-Dateien konvertieren, PDF-Seiten zusammenführen, Umwandlung von HTML in PDF, Inhaltsextraktion und mehr.
Mit seinen robusten Fähigkeiten hebt sich IronPDF als vielseitige Lösung zur Erstellung und Verwaltung von PDFs sowohl in kleinen Projekten als auch in Unternehmensanwendungen hervor.
IronPDF ist so konzipiert, dass es mit modernen .NET-Frameworks kompatibel ist, einschließlich .NET Core, .NET 5, .NET 6 und .NET 7, sowie älteren Versionen wie .NET Framework. Es funktioniert nahtlos über Betriebssysteme wie Windows, macOS und Linux und ist vollständig kompatibel mit Docker-, Azure- und AWS-Umgebungen. Dies gewährleistet, dass Entwickler ihre PDF-Workflows auf jeder Plattform oder jedem Cloud-Dienst implementieren können.
Für das heutige Beispiel werden wir versuchen zutext extrahierenaus diesem PDF-Dokument innerhalb von Visual Studio:
Text aus einer PDF-Datei mit PDFsharp extrahieren
PDFSharp unterstützt in der aktuellen Version nicht nativ die Textextraktion aus PDF-Dokumenten. Es ist in erster Linie für das Erstellen und Bearbeiten von PDFs gedacht, wie zum Beispiel das Zeichnen von Grafiken, das Hinzufügen von Inhalten und das Zusammenführen von Dokumenten, aber es fehlt eine integrierte Mechanismus zum Extrahieren von Texten. Es kann keine Sonderzeichen, erweiterte Kodierung usw. verarbeiten. Es kann fragmentierten oder unvollständigen Textausgabe erzeugen oder leere Zeichenfolgen anstatt des tatsächlichen PDF-Inhalts. Zum Beispiel:
Wenn Sie eine fortgeschrittene Textextraktion mit besserer Unterstützung für verschiedene Schriftarten, Kodierungen und Layouts benötigen, müssen Sie wahrscheinlich eine spezialisiertere Bibliothek verwenden, wie zum Beispiel:
iTextSharp(oder iText 7)Dies ist eine beliebte PDF-Bibliothek mit starker Unterstützung für Textextraktion und -analyse.
Pdfium: Eine weitere Option, die sich besonders bei der Extraktion von Texten auszeichnet, insbesondere bei PDFs mit komplexem Format.
Text aus einer PDF-Datei extrahieren mit IronPDF
Nun, lassen Sie uns sehen, wietextextraktionwird mit IronPDF bearbeitet. Die Textextraktionsfunktion von IronPDF bietet Entwicklern eine prägnante, aber leistungsstarke Methode, um Text effizient aus PDF-Dokumenten zu extrahieren, ohne dass zusätzlicher Code erforderlich ist, um die Datenzeichenfolge korrekt in lesbaren Text zu formatieren.
using IronPdf;
public class Program
{
static void Main(string[] args)
{
// Provide the file path
string pdfPath = @"invoice.pdf";
// Load the PDF document using IronPDF
var pdf = PdfDocument.FromFile(pdfPath);
// Extract all text from the PDF
var text = pdf.ExtractAllText();
// Output the extracted text
Console.WriteLine(extractedText);
}
}
using IronPdf;
public class Program
{
static void Main(string[] args)
{
// Provide the file path
string pdfPath = @"invoice.pdf";
// Load the PDF document using IronPDF
var pdf = PdfDocument.FromFile(pdfPath);
// Extract all text from the PDF
var text = pdf.ExtractAllText();
// Output the extracted text
Console.WriteLine(extractedText);
}
}
Imports IronPdf
Public Class Program
Shared Sub Main(ByVal args() As String)
' Provide the file path
Dim pdfPath As String = "invoice.pdf"
' Load the PDF document using IronPDF
Dim pdf = PdfDocument.FromFile(pdfPath)
' Extract all text from the PDF
Dim text = pdf.ExtractAllText()
' Output the extracted text
Console.WriteLine(extractedText)
End Sub
End Class
IronPDF bietet eine einfache und effiziente API zum Extrahieren von Text vom angegebenen PDF-Pfad. Es stellt sicher, dass der extrahierte Text gut strukturiert und genau ist, was ihn zu einer zuverlässigen Option für Entwickler macht, die PDF-Inhalte in ihren Anwendungen verarbeiten müssen.
Vergleich
PDFSharp ist eine kostenlose, Open-Source-Bibliothek, die sich ideal für die grundlegende Erstellung und Bearbeitung von PDFs eignet, jedoch über eingeschränkte Funktionalitäten verfügt und mit komplexen PDFs Schwierigkeiten hat. Obwohl es theoretisch zur Extraktion von Text aus PDF-Dateien verwendet werden kann, würde dies eine fortgeschrittene Textanalyse erfordern und könnte zu fragmentierten Ausgaben führen.
IronPDF bietet eine robustere Lösung mit erweiterten Funktionen wie präziser Textextraktion, HTML-zu-PDF-Konvertierung und Unterstützung für moderne PDF-Standards. Es ist für Leistung und Benutzerfreundlichkeit optimiert mit einer intuitiven API. Während es kostenlos für die Entwicklung ist, bietet es auchkommerzielle Lizenzierungfür seine kostenpflichtigen Lizenzstufen.
Schlussfolgerung
Sowohl PDFsharp als auch IronPDF sind wertvolle Werkzeuge für die Arbeit mitextrahieren von Textaus PDFs in C#, aber sie richten sich an unterschiedliche Anwendungsfälle:
PDFSharp ist eine ausgezeichnete Wahl für Entwickler, die eine kostenlose, Open-Source-Bibliothek für die grundlegende PDF-Erstellung und Textextraktion benötigen. Allerdings sind seine Textextraktionsfähigkeiten begrenzt und erfüllen möglicherweise nicht die Anforderungen komplexerer Anwendungen.
IronPDF wiederum glänzt in der Textextraktion, HTML-zu-PDF-Konvertierung und fortgeschrittenen PDF-Bearbeitungsaufgaben. Seine Benutzerfreundlichkeit, plattformübergreifende Kompatibilität und breite Palette an Funktionen machen es zur bevorzugten Wahl für Entwickler, die PDF-Workflows in professioneller Qualität bearbeiten.
Für einen tieferen Einblick in das WieIronPDFübertrifft andere Bibliotheken, besuchen Sie die offizielleIronPDF-Dokumentation.
Regan schloss sein Studium an der University of Reading mit einem BA in Elektrotechnik ab. Bevor er zu Iron Software kam, konzentrierte er sich in seinen früheren Jobs auf einzelne Aufgaben. Was ihm bei Iron Software am meisten Spaß macht, ist das Spektrum der Aufgaben, die er übernehmen kann, sei es im Vertrieb, im technischen Support, in der Produktentwicklung oder im Marketing. Es macht ihm Spaß, die Art und Weise zu verstehen, wie Entwickler die Bibliothek von Iron Software nutzen, und dieses Wissen zu nutzen, um die Dokumentation und die Produkte kontinuierlich zu verbessern.
< PREVIOUS PDFsharp Signieren von PDF-Dokumenten digital vs. IronPDF (Beispielcode)
NÄCHSTES > QuestPDF Seitennummern zu einer PDF-Alternative hinzufügen VS IronPDF (Beispiel)