using IronPdf;
// Disable local disk access or cross-origin requests
Installation.EnableWebSecurity = true;
// Instantiate Renderer
var renderer = new ChromePdfRenderer();
// Create a PDF from a HTML string using C#
var pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>");
// Export to a file or Stream
pdf.SaveAs("output.pdf");
// Advanced Example with HTML Assets
// Load external html assets: Images, CSS and JavaScript.
// An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
var myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", @"C:\site\assets\");
myAdvancedPdf.SaveAs("html-with-assets.pdf");
C# Text aus PDF extrahieren (Code-Beispiel-Tutorial)
Kye Stuart
27. Juni 2022
Aktualisiert 3. Dezember 2023
Teilen Sie:
Ihr Unternehmen gibt zu viel für jährliche Abonnements für PDF-Sicherheit und -Konformität aus. Erwägen Sie IronSecureDoc von Iron Software, das Lösungen für die Verwaltung von SaaS-Diensten wie digitale Signatur, Schwärzung, Verschlüsselung und Schutz bietet, alles gegen eine einmalige Zahlung. Erleben Sie heute IronSecureDoc
PDF-Dateien (Portable Document Format) spielen eine entscheidende Rolle in unzähligen Branchen und ermöglichen es Unternehmen, Dokumente sicher zu teilen, zu speichern und zu verwalten. Für Entwickler bedeutet die Arbeit mit PDFs oft das Erstellen, Lesen, Konvertieren und Extrahieren von Inhalten, um die Anforderungen der Kunden zu unterstützen. Das Extrahieren von Text aus PDFs ist entscheidend für Aufgaben wie Datenanalyse, Dokumentenindexierung, Inhaltsmigration oder die Aktivierung von Barrierefreiheitsfunktionen. Moderne Bibliotheken wie IronPDF erleichtern diese Aufgaben mehr denn je, indem sie leistungsstarke Werkzeuge für die Bearbeitung von PDF-Dateien mit minimalem Aufwand bieten.
Dieser Leitfaden konzentriert sich auf eine der häufigsten Anforderungen: das Extrahieren von Text aus einer PDF-Datei in C#. Wir führen Sie durch die Einrichtung eines Projekts in Visual Studio, die Installation von IronPDF und die Verwendung zur Textextraktion mit prägnanten Codebeispielen. Unterwegs werden wir die robusten Funktionen von IronPDF hervorheben, einschließlich der Fähigkeit, PDF-Dateien mit .NET zu erstellen, zu bearbeiten und zu konvertieren. Egal, ob Sie dokumentenintensive Anwendungen entwickeln oder einfach nur eine effiziente PDF-Verarbeitung benötigen, dieses Tutorial wird Ihnen den Einstieg erleichtern.
IronPDF ist ein robuster PDF-Konverter, der fast alle Operationen ausführen kann, die auch ein Browser ausführen kann. Das Erstellen, Lesen und Bearbeiten von PDF-Dokumenten ist mit der .NET-Bibliothek für Entwickler ganz einfach. IronPDF konvertiert HTML-zu-PDF-Dokumente mit Hilfe der Chrome-Engine. IronPDF unterstützt HTML, ASPX, Razor HTML und MVC View sowie andere Webkomponenten. Die Microsoft .NET-Anwendung wird von IronPDF unterstützt (sowohl ASP.NET-Webanwendungen als auch traditionelle Windows-Anwendungen). IronPDF kann auch verwendet werden, um ein visuell ansprechendes PDF-Dokument zu erstellen.
Mit IronPDF können wir ein PDF-Dokument aus HTML5, JavaScript, CSS und Bildern erstellen. Außerdem können die Dateien Kopf- und Fußzeilen haben. Dank IronPDF können wir ein PDF-Dokument problemlos lesen. IronPDF verfügt auch über eine umfassende PDF-Konvertierungs-Engine und einen leistungsstarken HTML-zu-PDF-Konverter, der PDF-Dokumente verarbeiten kann.
PDF-Erstellung: Erstellen Sie PDFs aus HTML, JavaScript, CSS, Bildern oder URLs. Fügen Sie Kopfzeilen, Fußzeilen, Lesezeichen, Wasserzeichen und andere benutzerdefinierte Elemente hinzu, um das Design zu verbessern.
HTML-zu-PDF-Konvertierung: Konvertieren Sie HTML, Razor/MVC-Ansichten und CSS-Dateien vom Medientyp direkt in das PDF-Format.
Interaktive PDF-Funktionen: Erstellen, ausfüllen und übermitteln Sie interaktive PDF-Formulare.
Text- und Bilderextraktion: Extrahieren Sie Text oder Bilder aus bestehenden PDF-Dokumenten zur Datenverarbeitung oder Wiederverwendung.
Dokumentenbearbeitung:Zusammenführen, teilen und Anordnen von Seiten in neuen oder vorhandenen PDF-Dateien.
Bild- und Seitenerfassung: Rasterisieren Sie PDF-Seiten zu Bildern und konvertieren Sie Bilder in das PDF-Format.
Arbeiten mit benutzerdefinierten Anmeldeinformationen: IronPDF ist in der Lage, ein Dokument aus einer URL zu erstellen. Es unterstützt auch benutzerdefinierte Netzwerkanmeldeinformationen, User-Agents, Proxys, Cookies, HTTP-Header und Formularvariablen für Anmeldungen hinter HTML-Anmeldeformularen.
Suche und Barrierefreiheit: Suchen Sie nach Texten in PDF-Dokumenten und stellen Sie sicher, dass sie den Barrierefreiheitsstandards entsprechen.
Umwandlungsvielfalt: Transformieren Sie PDFs in andere Formate wie HTML und arbeiten Sie mit CSS-Dateien, um PDFs zu erzeugen.
Unabhängige Funktionalität: Arbeitet eigenständig, ohne dass Adobe Acrobat oder zusätzliche Drittanbieter-Tools erforderlich sind.
2. Erstellen eines neuen Projekts in Visual Studio
Öffnen Sie Visual Studio und wählen Sie das Menü Datei. Wählen Sie "Neues Projekt" und dann "Konsolenanwendung". In diesem Artikel werden wir eine Konsolenanwendung verwenden, um PDF-Dokumente zu erzeugen.
Erstellen Sie ein neues Projekt in Visual Studio
Geben Sie den Projektnamen ein und wählen Sie den Dateipfad in dem entsprechenden Textfeld aus. Dann klicken Sie auf die Schaltfläche Erstellen und wählen Sie das erforderliche .NET Framework aus, wie im untenstehenden Screenshot.
Neues Projekt in Visual Studio konfigurieren
Das Visual Studio-Projekt erstellt nun die Struktur für die ausgewählte Anwendung. Wenn Sie die Konsole, Windows und Webanwendung ausgewählt haben, wird die Datei program.cs geöffnet, in der Sie den Code eingeben und die Anwendung erstellen/ausführen können.
Auswahl von .NET Core
Als nächstes können wir die Bibliothek hinzufügen, um den Code zu testen.
3. Installieren Sie die IronPDF-Bibliothek
Die IronPDF Library kann auf vier Arten heruntergeladen und installiert werden.
Diese sind:
Visual Studio verwenden.
Verwendung der Visual Studio-Befehlszeile.
Direkter Download von der NuGet-Website.
Direktes Herunterladen von der IronPDF-Website.
3.1 Visual Studio verwenden
Die Visual Studio-Software bietet die Option NuGet Package Manager, um das Paket direkt in der Lösung zu installieren. Der folgende Screenshot zeigt, wie Sie den NuGet Package Manager öffnen.
Visual Studio program.cs Datei
Es bietet ein Suchfeld, um die Liste der Pakete von der NuGet-Website anzuzeigen. Im Paketmanager müssen wir nach dem Schlüsselwort "IronPDF" suchen, wie in der folgenden Abbildung zu sehen ist.
NuGet-Paket-Manager
In der obigen Abbildung sehen Sie die Liste der verwandten Suchbegriffe. Wir müssen die gewünschte Option auswählen, um das Paket in der Lösung zu installieren.
3.2 Verwendung der Visual Studio-Befehlszeile
Gehen Sie in Visual Studio zu Tools > NuGet Package Manager > Package Manager Console
Geben Sie die folgende Zeile auf der Registerkarte der Paketmanager-Konsole ein:
Install-Package IronPdf
Jetzt wird das Paket in das aktuelle Projekt heruntergeladen/installiert und ist einsatzbereit.
IronPdf-Bibliothek im NuGet-Paketmanager
3.3 Direkter Download von der NuGet-Website
Installation mit NuGet
PM > Install-Package IronPdf
Schauen Sie sich IronPDF auf NuGet für eine schnelle Installation an. Mit über 10 Millionen Downloads revolutioniert es die PDF-Entwicklung mit C#. Sie können auch die DLL oder den Windows-Installer herunterladen.
Die dritte Möglichkeit besteht darin, das IronPDF NuGet-Paket direkt von ihrer Website herunterzuladen.
Navigieren Sie zu dem IronPDF-Paket auf NuGet.
Wählen Sie im Menü auf der rechten Seite die Option Paket herunterladen.
Doppelklicken Sie auf das heruntergeladene Paket. Sie wird automatisch installiert.
Laden Sie anschließend die Lösung neu und verwenden Sie sie im Projekt.
3.4 Direktes Herunterladen von der IronPDF-Website
Erwägen Sie, die IronPDF DLL direkt zu installieren. Laden Sie sie manuell für Ihr Projekt oder GAC von /de/packages/IronPdf.zip herunter und installieren Sie sie. Alternativ können Sie sie mit NuGet installieren.
Besuchen Sie die offizielle IronPDF-Website, um das neueste Paket direkt von deren Website herunterzuladen. Nach dem Download folgen Sie den untenstehenden Schritten, um das Paket zum Projekt hinzuzufügen.
Klicken Sie mit der rechten Maustaste auf das Projekt im Lösungsfenster.
Wählen Sie dann die Optionen Referenz und suchen Sie den Speicherort der heruntergeladenen Referenz.
Klicken Sie anschließend auf OK, um die Referenz hinzuzufügen.
4. Text mit IronPDF extrahieren
Das Programm IronPDF ermöglicht die Textextraktion aus der PDF-Datei und die Umwandlung von PDF-Seiten in PDF-Objekte. Nachfolgend ein Beispiel für die Verwendung von IronPDF zum Lesen einer vorhandenen PDF-Datei.
Der erste Ansatz besteht darin, Text aus einer PDF-Datei zu extrahieren, und das folgende Beispiel-Codefragment zeigt dies.
using IronPdf;
var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
using IronPdf;
var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Die statische Methode FromFile wird verwendet, um das PDF-Dokument aus einer vorhandenen Datei zu laden und in PDFDocument-Objekte zu transformieren, wie im obigen Code gezeigt. Mit diesem Objekt können wir den Text und die Bilder lesen, die auf den PDF-Seiten zugänglich sind. Das Objekt verfügt über eine Methode namens ExtractAllText, die den gesamten Text aus dem gesamten PDF-Dokument extrahiert. Anschließend wird der extrahierte Text in der Zeichenfolge gehalten, die wir zur Weiterverarbeitung verwenden können.
Nachfolgend finden Sie ein Codebeispiel für die zweite Methode, mit der Sie Text aus einer PDF-Datei seitenweise extrahieren können.
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
For index = 0 To pdf.PageCount - 1
Dim Text As String = pdf.ExtractTextFromPage(index)
Next index
End Using
$vbLabelText $csharpLabel
Im obigen Code sehen wir, dass zunächst das gesamte PDF-Dokument geladen und in ein PDF-Objekt umgewandelt wird. Dann erhalten wir die Seitenanzahl des gesamten PDF-Dokuments, indem wir eine integrierte Methode namens PageCount verwenden. Diese Methode ruft die Gesamtanzahl der im geladenen PDF-Dokument verfügbaren Seiten ab. Die Verwendung der "for-Schleife" und der ExtractTextFromPage-Funktion ermöglicht es uns, die Seitennummer als Parameter zu übergeben, um Text aus dem geladenen Dokument zu extrahieren. Der genaue Text wird dann in der String-Variablen gespeichert. Ebenso wird der Text mit Hilfe der "for"- oder "for each"-Schleife seitenweise aus der PDF-Datei extrahiert.
5. Schlussfolgerung
IronPDF ist eine vielseitige und leistungsstarke PDF-Bibliothek, die entwickelt wurde, um das Arbeiten mit PDFs in .NET-Anwendungen nahtlos zu gestalten. Seine robusten Funktionen ermöglichen es Entwicklern, Inhalte aus PDFs zu erstellen, zu manipulieren und zu extrahieren, ohne auf Abhängigkeiten von Drittanbietern wie Adobe Reader angewiesen zu sein. Eine der herausragenden Fähigkeiten von IronPDF ist die Möglichkeit, Text aus PDF-Dokumenten zu extrahieren. Dieses Feature ist äußerst wertvoll für die Automatisierung von Aufgaben wie Datenanalyse, Dokumentenindizierung, Inhaltsmigration und die Aktivierung von Barrierefreiheitsfunktionen. Indem IronPDF Entwicklern ermöglicht, Texte programmatisch abzurufen und zu verarbeiten, vereinfacht es Workflows und eröffnet neue Möglichkeiten zur Handhabung von PDF-Inhalten.
Mit unkomplizierter Integration und plattformübergreifender Unterstützung ist IronPDF eine hervorragende Wahl für Entwickler, die PDF-Dokumente effizient verwalten möchten. Darüber hinaus bietet IronPDF eine kostenlose Testversion an, mit der Sie die gesamte Palette der Funktionen risikofrei erkunden können, bevor Sie sich verpflichten. Für Preisinformationen und um mehr über Lizenzierungsoptionen zu erfahren, besuchen Sie unsere Preisseite.
Kye Stuart vereint bei Iron Software die Leidenschaft fürs Programmieren mit der Fähigkeit des Schreibens. Ausgebildet am Yoobee College in der Softwarebereitstellung, verwandeln sie nun komplexe technische Konzepte in klare Bildungsinhalte. Kye schätzt lebenslanges Lernen und nimmt neue technische Herausforderungen an.
Außerhalb der Arbeit genießen sie PC-Spiele, Streaming auf Twitch und Outdoor-Aktivitäten wie Gärtnern und Spaziergänge mit ihrem Hund Jaiya. Kyes unkomplizierte Herangehensweise macht sie zu einem entscheidenden Teil der Mission von Iron Software, Technologie für Entwickler weltweit zu entmystifizieren.