Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
PDF(Portable Document Format)Dateien spielen eine entscheidende Rolle in unzähligen Branchen, indem sie es Unternehmen ermöglichen, Dokumente sicher zu teilen, zu speichern und zu verwalten. Für Entwickler bedeutet die Arbeit mit PDFs oft das Erstellen, Lesen, Konvertieren und Extrahieren von Inhalten, um die Anforderungen der Kunden zu unterstützen. Das Extrahieren von Text aus PDFs ist entscheidend für Aufgaben wie Datenanalyse, Dokumentenindexierung, Inhaltsmigration oder die Aktivierung von Barrierefreiheitsfunktionen. Moderne Bibliotheken wieIronPDFDiese Aufgaben einfacher denn je zu gestalten, indem leistungsstarke Tools zum Verarbeiten von PDF-Dateien mit minimalem Aufwand angeboten werden.
Dieser Leitfaden konzentriert sich auf eine der häufigsten Anforderungen: das Extrahieren von Text aus einer PDF-Datei in C#. Wir führen Sie durch die Einrichtung eines Projekts in Visual Studio, die Installation von IronPDF und die Verwendung zur Textextraktion mit prägnanten Codebeispielen. Unterwegs werden wir die robusten Funktionen von IronPDF hervorheben, einschließlich der Fähigkeit, PDF-Dateien mit .NET zu erstellen, zu bearbeiten und zu konvertieren. Egal, ob Sie dokumentenintensive Anwendungen entwickeln oder einfach nur eine effiziente PDF-Verarbeitung benötigen, dieses Tutorial wird Ihnen den Einstieg erleichtern.
IronPDF ist ein robuster PDF-Konverter, der fast alle Operationen ausführen kann, die auch ein Browser ausführen kann. Das Erstellen, Lesen und Bearbeiten von PDF-Dokumenten ist mit der .NET-Bibliothek für Entwickler ganz einfach. IronPDF konvertiert HTML-zu-PDF-Dokumente mit Hilfe der Chrome-Engine. IronPDF unterstützt HTML, ASPX, Razor HTML und MVC View sowie andere Webkomponenten. Die Microsoft .NET-Anwendung wird von IronPDF unterstützt(sowohl ASP.NET-Webanwendungen als auch herkömmliche Windows-Anwendungen). IronPDF kann auch verwendet werden, um ein visuell ansprechendes PDF-Dokument zu erstellen.
Mit IronPDF können wir ein PDF-Dokument aus HTML5, JavaScript, CSS und Bildern erstellen. Außerdem können die Dateien Kopf- und Fußzeilen haben. Dank IronPDF können wir ein PDF-Dokument problemlos lesen. IronPDF verfügt auch über eine umfassende PDF-Konvertierungs-Engine und einen leistungsstarken HTML-zu-PDF-Konverter, der PDF-Dokumente verarbeiten kann.
Öffnen Sie Visual Studio und wählen Sie das Menü Datei. Wählen Sie "Neues Projekt" und dann "Konsolenanwendung". In diesem Artikel werden wir eine Konsolenanwendung verwenden, um PDF-Dokumente zu erzeugen.
Erstellen Sie ein neues Projekt in Visual Studio
Geben Sie den Projektnamen ein und wählen Sie den Dateipfad in dem entsprechenden Textfeld aus. Klicken Sie dann auf die Schaltfläche Create und wählen Sie das gewünschte .NET-Framework aus, wie in der folgenden Abbildung dargestellt.
Neues Projekt in Visual Studio konfigurieren
Das Visual Studio-Projekt generiert nun die Struktur für die ausgewählte Anwendung, und wenn Sie die Konsolen-, Windows- und Webanwendung ausgewählt haben, wird die Datei "program.cs" geöffnet, in die Sie den Code eingeben und die Anwendung erstellen/ausführen können.
Auswahl von .NET Core
Als nächstes können wir die Bibliothek hinzufügen, um den Code zu testen.
Die IronPDF Library kann auf vier Arten heruntergeladen und installiert werden.
Diese sind:
Die Visual Studio-Software bietet die Option NuGet Package Manager, um das Paket direkt in der Lösung zu installieren. Der folgende Screenshot zeigt, wie Sie den NuGet Package Manager öffnen.
Visual Studio program.cs Datei
Es bietet ein Suchfeld, um die Liste der Pakete von der NuGet-Website anzuzeigen. Im Paketmanager müssen wir nach dem Schlüsselwort "IronPDF" suchen, wie in der folgenden Abbildung zu sehen ist.
NuGet Package Manager
In der obigen Abbildung sehen Sie die Liste der verwandten Suchbegriffe. Wir müssen die gewünschte Option auswählen, um das Paket in der Lösung zu installieren.
Gehen Sie in Visual Studio zu Tools > NuGet Package Manager > Package Manager Console
Geben Sie die folgende Zeile auf der Registerkarte der Paketmanager-Konsole ein:
Install-Package IronPdf
Jetzt wird das Paket in das aktuelle Projekt heruntergeladen/installiert und ist einsatzbereit.
IronPdf-Bibliothek im NuGet Package Manager
Die dritte Möglichkeit ist das Herunterladen derIronPDF NuGet-Paket direkt von ihrer Website.
Besuchen Siedie offizielle IronPDF-Website um das neueste Paket direkt von der Website herunterzuladen. Führen Sie nach dem Download die folgenden Schritte aus, um das Paket zu Ihrem Projekt hinzuzufügen.
Das Programm IronPDF ermöglicht die Textextraktion aus der PDF-Datei und die Umwandlung von PDF-Seiten in PDF-Objekte. Nachfolgend ein Beispiel für die Verwendung von IronPDF zum Lesen einer vorhandenen PDF-Datei.
Der erste Ansatz besteht darin, Text aus einer PDF-Datei zu extrahieren, und das folgende Beispiel-Codefragment zeigt dies.
using IronPdf;
var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
using IronPdf;
var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Imports IronPdf
Private pdfDocument = PdfDocument.FromFile("result.pdf")
Private AllText As String = pdfDocument.ExtractAllText()
DievonDatei statische Methode wird verwendet, um das PDF-Dokument aus einer vorhandenen Datei zu laden und es inpDFDocument objekte, wie im obigen Code gezeigt. Mit diesem Objekt können wir den Text und die Bilder lesen, die auf den PDF-Seiten zugänglich sind. Das Objekt hat eine Methode namensextractAllText die den gesamten Text aus dem gesamten PDF-Dokument extrahiert und den extrahierten Text in eine Zeichenkette umwandelt, die wir dann zur Verarbeitung verwenden können.
Nachfolgend finden Sie ein Codebeispiel für die zweite Methode, mit der Sie Text aus einer PDF-Datei seitenweise extrahieren können.
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
For index = 0 To pdf.PageCount - 1
Dim Text As String = pdf.ExtractTextFromPage(index)
Next index
End Using
Im obigen Code sehen wir, dass zunächst das gesamte PDF-Dokument geladen und in ein PDF-Objekt umgewandelt wird. Dann erhalten wir die Seitenzahl des gesamten PDF-Dokuments mit Hilfe einer eingebauten Methode namensseitenzahldadurch wird die Gesamtzahl der verfügbaren Seiten des geladenen PDF-Dokuments ermittelt. Verwendung der "for-Schleife" undextrahiereTextVonSeite ermöglicht die Übergabe der Seitenzahl als Parameter, um Text aus dem geladenen Dokument zu extrahieren. Der genaue Text wird dann in der String-Variablen gespeichert. Ebenso wird der Text mit Hilfe der "for"- oder "for each"-Schleife seitenweise aus der PDF-Datei extrahiert.
IronPDF ist eine vielseitige und leistungsstarke PDF-Bibliothek, die entwickelt wurde, um das Arbeiten mit PDFs in .NET-Anwendungen nahtlos zu gestalten. Seine robusten Funktionen ermöglichen es Entwicklern, Inhalte aus PDFs zu erstellen, zu manipulieren und zu extrahieren, ohne auf Abhängigkeiten von Drittanbietern wie Adobe Reader angewiesen zu sein. Eine der herausragenden Fähigkeiten von IronPDF ist die Möglichkeit, Text aus PDF-Dokumenten zu extrahieren. Dieses Feature ist äußerst wertvoll für die Automatisierung von Aufgaben wie Datenanalyse, Dokumentenindizierung, Inhaltsmigration und die Aktivierung von Barrierefreiheitsfunktionen. Indem IronPDF Entwicklern ermöglicht, Texte programmatisch abzurufen und zu verarbeiten, vereinfacht es Workflows und eröffnet neue Möglichkeiten zur Handhabung von PDF-Inhalten.
Mit unkomplizierter Integration und plattformübergreifender Unterstützung ist IronPDF eine hervorragende Wahl für Entwickler, die PDF-Dokumente effizient verwalten möchten. Zusätzlich bietet IronPDF einekostenloser Test, sodass Sie die volle Bandbreite der Funktionen risikofrei erkunden können, bevor Sie sich festlegen. Für Preisinformationen und um mehr über Lizenzierungsoptionen zu erfahren, besuchen Sie unserepreisseite.
9 .NET API-Produkte für Ihre Bürodokumente