IRONPDF VERWENDEN

C# Text aus PDF extrahieren (Code-Beispiel-Tutorial)

PDF-Dateien (Portable Document Format) spielen eine entscheidende Rolle in unzähligen Branchen und ermöglichen es Unternehmen, Dokumente sicher zu teilen, zu speichern und zu verwalten. Für Entwickler bedeutet die Arbeit mit PDFs oft das Erstellen, Lesen, Konvertieren und Extrahieren von Inhalten, um die Anforderungen der Kunden zu unterstützen. Das Extrahieren von Text aus PDFs ist entscheidend für Aufgaben wie Datenanalyse, Dokumentenindexierung, Inhaltsmigration oder die Aktivierung von Barrierefreiheitsfunktionen. Moderne Bibliotheken wie IronPDF erleichtern diese Aufgaben mehr denn je, indem sie leistungsstarke Werkzeuge für die Bearbeitung von PDF-Dateien mit minimalem Aufwand bieten.

Dieser Leitfaden konzentriert sich auf eine der häufigsten Anforderungen: das Extrahieren von Text aus einer PDF-Datei in C#. Wir führen Sie durch die Einrichtung eines Projekts in Visual Studio, die Installation von IronPDF und die Verwendung zur Textextraktion mit prägnanten Codebeispielen. Unterwegs werden wir die robusten Funktionen von IronPDF hervorheben, einschließlich der Fähigkeit, PDF-Dateien mit .NET zu erstellen, zu bearbeiten und zu konvertieren. Egal, ob Sie dokumentenintensive Anwendungen entwickeln oder einfach nur eine effiziente PDF-Verarbeitung benötigen, dieses Tutorial wird Ihnen den Einstieg erleichtern.

1. IronPDF-Funktionen

IronPDF ist ein robuster PDF-Konverter, der fast alle Operationen ausführen kann, die auch ein Browser ausführen kann. Das Erstellen, Lesen und Bearbeiten von PDF-Dokumenten ist mit der .NET-Bibliothek für Entwickler ganz einfach. IronPDF konvertiert HTML-zu-PDF-Dokumente mit Hilfe der Chrome-Engine. IronPDF unterstützt HTML, ASPX, Razor HTML und MVC View sowie andere Webkomponenten. Die Microsoft .NET-Anwendung wird von IronPDF unterstützt (sowohl ASP.NET-Webanwendungen als auch traditionelle Windows-Anwendungen). IronPDF kann auch verwendet werden, um ein visuell ansprechendes PDF-Dokument zu erstellen.

Mit IronPDF können wir ein PDF-Dokument aus HTML5, JavaScript, CSS und Bildern erstellen. Außerdem können die Dateien Kopf- und Fußzeilen haben. Dank IronPDF können wir ein PDF-Dokument problemlos lesen. IronPDF verfügt auch über eine umfassende PDF-Konvertierungs-Engine und einen leistungsstarken HTML-zu-PDF-Konverter, der PDF-Dokumente verarbeiten kann.

  • PDF-Erstellung: Erstellen Sie PDFs aus HTML, JavaScript, CSS, Bildern oder URLs. Fügen Sie Kopfzeilen, Fußzeilen, Lesezeichen, Wasserzeichen und andere benutzerdefinierte Elemente hinzu, um das Design zu verbessern.
  • HTML-zu-PDF-Konvertierung: Konvertieren Sie HTML, Razor/MVC-Ansichten und CSS-Dateien vom Medientyp direkt in das PDF-Format.
  • Interaktive PDF-Funktionen: Erstellen, ausfüllen und übermitteln Sie interaktive PDF-Formulare.
  • Text- und Bilderextraktion: Extrahieren Sie Text oder Bilder aus bestehenden PDF-Dokumenten zur Datenverarbeitung oder Wiederverwendung.
  • Dokumentenbearbeitung: Zusammenführen, teilen und Anordnen von Seiten in neuen oder vorhandenen PDF-Dateien.
  • Bild- und Seitenerfassung: Rasterisieren Sie PDF-Seiten zu Bildern und konvertieren Sie Bilder in das PDF-Format.
  • Arbeiten mit benutzerdefinierten Anmeldeinformationen: IronPDF ist in der Lage, ein Dokument aus einer URL zu erstellen. Es unterstützt auch benutzerdefinierte Netzwerkanmeldeinformationen, User-Agents, Proxys, Cookies, HTTP-Header und Formularvariablen für Anmeldungen hinter HTML-Anmeldeformularen.
  • Suche und Barrierefreiheit: Suchen Sie nach Texten in PDF-Dokumenten und stellen Sie sicher, dass sie den Barrierefreiheitsstandards entsprechen.
  • Umwandlungsvielfalt: Transformieren Sie PDFs in andere Formate wie HTML und arbeiten Sie mit CSS-Dateien, um PDFs zu erzeugen.
  • Unabhängige Funktionalität: Arbeitet eigenständig, ohne dass Adobe Acrobat oder zusätzliche Drittanbieter-Tools erforderlich sind.

2. Erstellen eines neuen Projekts in Visual Studio

Öffnen Sie Visual Studio und wählen Sie das Menü Datei. Wählen Sie "Neues Projekt" und dann "Konsolenanwendung". In diesem Artikel werden wir eine Konsolenanwendung verwenden, um PDF-Dokumente zu erzeugen.

C# Text aus PDF extrahieren (Code-Beispiel-Tutorial), Abbildung 1: Erstellen Sie ein neues Projekt in Visual Studio Erstellen Sie ein neues Projekt in Visual Studio

Geben Sie den Projektnamen ein und wählen Sie den Dateipfad in dem entsprechenden Textfeld aus. Dann klicken Sie auf die Schaltfläche Erstellen und wählen Sie das erforderliche .NET Framework aus, wie im untenstehenden Screenshot.

C# Text aus PDF extrahieren (Codebeispiel-Tutorial), Abbildung 2: Neues Projekt in Visual Studio konfigurieren Neues Projekt in Visual Studio konfigurieren

Das Visual Studio-Projekt erstellt nun die Struktur für die ausgewählte Anwendung. Wenn Sie die Konsole, Windows und Webanwendung ausgewählt haben, wird die Datei program.cs geöffnet, in der Sie den Code eingeben und die Anwendung erstellen/ausführen können.

C# Text aus PDF extrahieren (Code-Beispiel-Tutorial), Abbildung 3: Auswahl von .NET Core Auswahl von .NET Core

Als nächstes können wir die Bibliothek hinzufügen, um den Code zu testen.

3. Installieren Sie die IronPDF-Bibliothek

Die IronPDF Library kann auf vier Arten heruntergeladen und installiert werden.

Diese sind:

  • Visual Studio verwenden.
  • Verwendung der Visual Studio-Befehlszeile.
  • Direkter Download von der NuGet-Website.
  • Direktes Herunterladen von der IronPDF-Website.

3.1 Visual Studio verwenden

Die Visual Studio-Software bietet die Option NuGet Package Manager, um das Paket direkt in der Lösung zu installieren. Der folgende Screenshot zeigt, wie Sie den NuGet Package Manager öffnen.

C# Text aus PDF extrahieren (Beispielcode-Tutorial), Abbildung 4: Visual Studio program.cs Datei Visual Studio program.cs Datei

Es bietet ein Suchfeld, um die Liste der Pakete von der NuGet-Website anzuzeigen. Im Paketmanager müssen wir nach dem Schlüsselwort "IronPDF" suchen, wie in der folgenden Abbildung zu sehen ist.

C# Text aus PDF extrahieren (Codebeispiel-Tutorial), Abbildung 5: NuGet-Paket-Manager NuGet-Paket-Manager

In der obigen Abbildung sehen Sie die Liste der verwandten Suchbegriffe. Wir müssen die gewünschte Option auswählen, um das Paket in der Lösung zu installieren.

3.2 Verwendung der Visual Studio-Befehlszeile

Gehen Sie in Visual Studio zu Tools > NuGet Package Manager > Package Manager Console

Geben Sie die folgende Zeile auf der Registerkarte der Paketmanager-Konsole ein:

Install-Package IronPdf

Jetzt wird das Paket in das aktuelle Projekt heruntergeladen/installiert und ist einsatzbereit.

C# Text aus PDF extrahieren (Code-Beispiel-Tutorial), Abbildung 6: IronPdf-Bibliothek im NuGet-Paketmanager IronPdf-Bibliothek im NuGet-Paketmanager

3.3 Direkter Download von der NuGet-Website

NuGet Installation mit NuGet

PM >  Install-Package IronPdf

Schauen Sie sich IronPDF auf NuGet für eine schnelle Installation an. Mit über 10 Millionen Downloads revolutioniert es die PDF-Entwicklung mit C#. Sie können auch die DLL oder den Windows-Installer herunterladen.

Die dritte Möglichkeit besteht darin, das IronPDF NuGet-Paket direkt von ihrer Website herunterzuladen.

  • Navigieren Sie zu dem IronPDF-Paket auf NuGet.
  • Wählen Sie im Menü auf der rechten Seite die Option Paket herunterladen.
  • Doppelklicken Sie auf das heruntergeladene Paket. Sie wird automatisch installiert.
  • Laden Sie anschließend die Lösung neu und verwenden Sie sie im Projekt.

3.4 Direktes Herunterladen von der IronPDF-Website

DLL DLL herunterladen
Erwägen Sie, die IronPDF DLL direkt zu installieren. Laden Sie sie manuell für Ihr Projekt oder GAC von /de/packages/IronPdf.zip herunter und installieren Sie sie. Alternativ können Sie sie mit NuGet installieren.

Besuchen Sie die offizielle IronPDF-Website, um das neueste Paket direkt von deren Website herunterzuladen. Nach dem Download folgen Sie den untenstehenden Schritten, um das Paket zum Projekt hinzuzufügen.

  • Klicken Sie mit der rechten Maustaste auf das Projekt im Lösungsfenster.
  • Wählen Sie dann die Optionen Referenz und suchen Sie den Speicherort der heruntergeladenen Referenz.
  • Klicken Sie anschließend auf OK, um die Referenz hinzuzufügen.

4. Text mit IronPDF extrahieren

Das Programm IronPDF ermöglicht die Textextraktion aus der PDF-Datei und die Umwandlung von PDF-Seiten in PDF-Objekte. Nachfolgend ein Beispiel für die Verwendung von IronPDF zum Lesen einer vorhandenen PDF-Datei.

Der erste Ansatz besteht darin, Text aus einer PDF-Datei zu extrahieren, und das folgende Beispiel-Codefragment zeigt dies.

using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Imports IronPdf

Private pdfDocument = PdfDocument.FromFile("result.pdf")
Private AllText As String = pdfDocument.ExtractAllText()
$vbLabelText   $csharpLabel

Die statische Methode FromFile wird verwendet, um das PDF-Dokument aus einer vorhandenen Datei zu laden und in PDFDocument-Objekte zu transformieren, wie im obigen Code gezeigt. Mit diesem Objekt können wir den Text und die Bilder lesen, die auf den PDF-Seiten zugänglich sind. Das Objekt verfügt über eine Methode namens ExtractAllText, die den gesamten Text aus dem gesamten PDF-Dokument extrahiert. Anschließend wird der extrahierte Text in der Zeichenfolge gehalten, die wir zur Weiterverarbeitung verwenden können.

Nachfolgend finden Sie ein Codebeispiel für die zweite Methode, mit der Sie Text aus einer PDF-Datei seitenweise extrahieren können.

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
	For index = 0 To pdf.PageCount - 1
		Dim Text As String = pdf.ExtractTextFromPage(index)
	Next index
End Using
$vbLabelText   $csharpLabel

Im obigen Code sehen wir, dass zunächst das gesamte PDF-Dokument geladen und in ein PDF-Objekt umgewandelt wird. Dann erhalten wir die Seitenanzahl des gesamten PDF-Dokuments, indem wir eine integrierte Methode namens PageCount verwenden. Diese Methode ruft die Gesamtanzahl der im geladenen PDF-Dokument verfügbaren Seiten ab. Die Verwendung der "for-Schleife" und der ExtractTextFromPage-Funktion ermöglicht es uns, die Seitennummer als Parameter zu übergeben, um Text aus dem geladenen Dokument zu extrahieren. Der genaue Text wird dann in der String-Variablen gespeichert. Ebenso wird der Text mit Hilfe der "for"- oder "for each"-Schleife seitenweise aus der PDF-Datei extrahiert.

5. Schlussfolgerung

IronPDF ist eine vielseitige und leistungsstarke PDF-Bibliothek, die entwickelt wurde, um das Arbeiten mit PDFs in .NET-Anwendungen nahtlos zu gestalten. Seine robusten Funktionen ermöglichen es Entwicklern, Inhalte aus PDFs zu erstellen, zu manipulieren und zu extrahieren, ohne auf Abhängigkeiten von Drittanbietern wie Adobe Reader angewiesen zu sein. Eine der herausragenden Fähigkeiten von IronPDF ist die Möglichkeit, Text aus PDF-Dokumenten zu extrahieren. Dieses Feature ist äußerst wertvoll für die Automatisierung von Aufgaben wie Datenanalyse, Dokumentenindizierung, Inhaltsmigration und die Aktivierung von Barrierefreiheitsfunktionen. Indem IronPDF Entwicklern ermöglicht, Texte programmatisch abzurufen und zu verarbeiten, vereinfacht es Workflows und eröffnet neue Möglichkeiten zur Handhabung von PDF-Inhalten.

Mit unkomplizierter Integration und plattformübergreifender Unterstützung ist IronPDF eine hervorragende Wahl für Entwickler, die PDF-Dokumente effizient verwalten möchten. Darüber hinaus bietet IronPDF eine kostenlose Testversion an, mit der Sie die gesamte Palette der Funktionen risikofrei erkunden können, bevor Sie sich verpflichten. Für Preisinformationen und um mehr über Lizenzierungsoptionen zu erfahren, besuchen Sie unsere Preisseite.

Beginnen Sie jetzt mit IronPDF.
green arrow pointer

Kye Stuart
Technischer Redakteur

Kye Stuart vereint bei Iron Software die Leidenschaft fürs Programmieren mit der Fähigkeit des Schreibens. Ausgebildet am Yoobee College in der Softwarebereitstellung, verwandeln sie nun komplexe technische Konzepte in klare Bildungsinhalte. Kye schätzt lebenslanges Lernen und nimmt neue technische Herausforderungen an.

Außerhalb der Arbeit genießen sie PC-Spiele, Streaming auf Twitch und Outdoor-Aktivitäten wie Gärtnern und Spaziergänge mit ihrem Hund Jaiya. Kyes unkomplizierte Herangehensweise macht sie zu einem entscheidenden Teil der Mission von Iron Software, Technologie für Entwickler weltweit zu entmystifizieren.

< PREVIOUS
PDF-Erzeugung in ASP.NET mit C#
NÄCHSTES >
Extrahieren von Daten aus PDF-Dateien in C#