IRONPDF VERWENDEN

C# Text aus PDF extrahieren (Code-Beispiel-Tutorial)

Aktualisiert 3. Dezember 2023
Teilen Sie:

PDF(Portable Document Format)Dateien spielen eine entscheidende Rolle in unzähligen Branchen, indem sie es Unternehmen ermöglichen, Dokumente sicher zu teilen, zu speichern und zu verwalten. Für Entwickler bedeutet die Arbeit mit PDFs oft das Erstellen, Lesen, Konvertieren und Extrahieren von Inhalten, um die Anforderungen der Kunden zu unterstützen. Das Extrahieren von Text aus PDFs ist entscheidend für Aufgaben wie Datenanalyse, Dokumentenindexierung, Inhaltsmigration oder die Aktivierung von Barrierefreiheitsfunktionen. Moderne Bibliotheken wieIronPDFDiese Aufgaben einfacher denn je zu gestalten, indem leistungsstarke Tools zum Verarbeiten von PDF-Dateien mit minimalem Aufwand angeboten werden.

Dieser Leitfaden konzentriert sich auf eine der häufigsten Anforderungen: das Extrahieren von Text aus einer PDF-Datei in C#. Wir führen Sie durch die Einrichtung eines Projekts in Visual Studio, die Installation von IronPDF und die Verwendung zur Textextraktion mit prägnanten Codebeispielen. Unterwegs werden wir die robusten Funktionen von IronPDF hervorheben, einschließlich der Fähigkeit, PDF-Dateien mit .NET zu erstellen, zu bearbeiten und zu konvertieren. Egal, ob Sie dokumentenintensive Anwendungen entwickeln oder einfach nur eine effiziente PDF-Verarbeitung benötigen, dieses Tutorial wird Ihnen den Einstieg erleichtern.

1. IronPDF-Funktionen

IronPDF ist ein robuster PDF-Konverter, der fast alle Operationen ausführen kann, die auch ein Browser ausführen kann. Das Erstellen, Lesen und Bearbeiten von PDF-Dokumenten ist mit der .NET-Bibliothek für Entwickler ganz einfach. IronPDF konvertiert HTML-zu-PDF-Dokumente mit Hilfe der Chrome-Engine. IronPDF unterstützt HTML, ASPX, Razor HTML und MVC View sowie andere Webkomponenten. Die Microsoft .NET-Anwendung wird von IronPDF unterstützt(sowohl ASP.NET-Webanwendungen als auch herkömmliche Windows-Anwendungen). IronPDF kann auch verwendet werden, um ein visuell ansprechendes PDF-Dokument zu erstellen.

Mit IronPDF können wir ein PDF-Dokument aus HTML5, JavaScript, CSS und Bildern erstellen. Außerdem können die Dateien Kopf- und Fußzeilen haben. Dank IronPDF können wir ein PDF-Dokument problemlos lesen. IronPDF verfügt auch über eine umfassende PDF-Konvertierungs-Engine und einen leistungsstarken HTML-zu-PDF-Konverter, der PDF-Dokumente verarbeiten kann.

  • PDF-Erstellung: Erzeugen Sie PDFs aus HTML, JavaScript, CSS, Bildern oder URLs. Fügen Sie Kopfzeilen, Fußzeilen, Lesezeichen, Wasserzeichen und andere benutzerdefinierte Elemente hinzu, um das Design zu verbessern.
  • HTML-zu-PDF-Konvertierung: Konvertieren Sie HTML, Razor/MVC-Ansichten und Medien-CSS-Dateien direkt in das PDF-Format.
  • Interaktive PDF-Funktionen: Erstellen, ausfüllen und einreichen interaktiverPDF-Formulare.
  • Text- und Bilderextraktion: Extrahieren Sie Text oder Bilder aus bestehenden PDF-Dokumenten zur Datenverarbeitung oder Wiederverwendung.
  • Dokumentenmanipulation:Zusammenführen, teilen,und Seiten in neuen oder bestehenden PDF-Dateien neu anordnen.
  • Bild- und Seitenverarbeitung: PDF-Seiten in Bilder rasterisieren und konvertierenBilder im PDF-Format.
  • Mit benutzerdefinierten Anmeldeinformationen arbeiten: IronPDF kann ein Dokument aus einer URL erstellen. Es unterstützt auch benutzerdefinierte Netzwerkanmeldeinformationen, Benutzeragenten, Proxys, Cookies, HTTP-Header und Formularvariablen füranmeldung hinter HTML-Anmeldeformularen.
  • Suche und Barrierefreiheit: Suchen Sie nach Texten innerhalb von PDF-Dokumenten und stellen Sie sicher, dass diese den Barrierefreiheitsstandards entsprechen.
  • Umwandlungsvielfalt: Wandeln Sie PDFs in andere Formate wie HTML um und arbeiten Sie mit CSS-Dateien, um PDFs zu erzeugen.
  • Eigenständige Funktionalität: Arbeitet unabhängig, ohne Adobe Acrobat oder zusätzliche Drittanbieter-Tools zu benötigen.

2. Erstellen eines neuen Projekts in Visual Studio

Öffnen Sie Visual Studio und wählen Sie das Menü Datei. Wählen Sie "Neues Projekt" und dann "Konsolenanwendung". In diesem Artikel werden wir eine Konsolenanwendung verwenden, um PDF-Dokumente zu erzeugen.

C# Text aus PDF extrahieren(Code-Beispiel-Tutorial), Abbildung 1: Erstellen Sie ein neues Projekt in Visual Studio

Erstellen Sie ein neues Projekt in Visual Studio

Geben Sie den Projektnamen ein und wählen Sie den Dateipfad in dem entsprechenden Textfeld aus. Klicken Sie dann auf die Schaltfläche Create und wählen Sie das gewünschte .NET-Framework aus, wie in der folgenden Abbildung dargestellt.

C# Text aus PDF extrahieren(Code-Beispiel-Tutorial), Abbildung 2: Konfigurieren Sie ein neues Projekt in Visual Studio

Neues Projekt in Visual Studio konfigurieren

Das Visual Studio-Projekt generiert nun die Struktur für die ausgewählte Anwendung, und wenn Sie die Konsolen-, Windows- und Webanwendung ausgewählt haben, wird die Datei "program.cs" geöffnet, in die Sie den Code eingeben und die Anwendung erstellen/ausführen können.

C# Text aus PDF extrahieren(Code-Beispiel-Tutorial), Abbildung 3: Auswahl von .NET Core

Auswahl von .NET Core

Als nächstes können wir die Bibliothek hinzufügen, um den Code zu testen.

3. Installieren Sie die IronPDF-Bibliothek

Die IronPDF Library kann auf vier Arten heruntergeladen und installiert werden.

Diese sind:

  • Visual Studio verwenden.
  • Verwendung der Visual Studio-Befehlszeile.
  • Direkter Download von der NuGet-Website.
  • Direktes Herunterladen von der IronPDF-Website.

3.1 Visual Studio verwenden

Die Visual Studio-Software bietet die Option NuGet Package Manager, um das Paket direkt in der Lösung zu installieren. Der folgende Screenshot zeigt, wie Sie den NuGet Package Manager öffnen.

C# Text aus PDF extrahieren(Code-Beispiel-Tutorial), Abbildung 4: Visual Studio program.cs Datei

Visual Studio program.cs Datei

Es bietet ein Suchfeld, um die Liste der Pakete von der NuGet-Website anzuzeigen. Im Paketmanager müssen wir nach dem Schlüsselwort "IronPDF" suchen, wie in der folgenden Abbildung zu sehen ist.

C# Text aus PDF extrahieren (Codebeispiel-Tutorial), Abbildung 5: NuGet-Paketmanager

NuGet Package Manager

In der obigen Abbildung sehen Sie die Liste der verwandten Suchbegriffe. Wir müssen die gewünschte Option auswählen, um das Paket in der Lösung zu installieren.

3.2 Verwendung der Visual Studio-Befehlszeile

Gehen Sie in Visual Studio zu Tools > NuGet Package Manager > Package Manager Console

Geben Sie die folgende Zeile auf der Registerkarte der Paketmanager-Konsole ein:

Install-Package IronPdf

Jetzt wird das Paket in das aktuelle Projekt heruntergeladen/installiert und ist einsatzbereit.

C# Extrahieren von Text aus PDF (Code-Beispiel-Tutorial), Abbildung 6: IronPDF-Bibliothek im NuGet Package Manager

IronPdf-Bibliothek im NuGet Package Manager

3.3 Direkter Download von der NuGet-Website

Die dritte Möglichkeit ist das Herunterladen derIronPDF NuGet-Paket direkt von ihrer Website.

  • Navigieren Sie zu dem IronPDF-Paket auf NuGet.
  • Wählen Sie im Menü auf der rechten Seite die Option Paket herunterladen.
  • Doppelklicken Sie auf das heruntergeladene Paket. Sie wird automatisch installiert.
  • Laden Sie anschließend die Lösung neu und verwenden Sie sie im Projekt.

3.4 Direktes Herunterladen von der IronPDF-Website

Besuchen Siedie offizielle IronPDF-Website um das neueste Paket direkt von der Website herunterzuladen. Führen Sie nach dem Download die folgenden Schritte aus, um das Paket zu Ihrem Projekt hinzuzufügen.

  • Klicken Sie mit der rechten Maustaste auf das Projekt im Lösungsfenster.
  • Wählen Sie dann die Optionen Referenz und suchen Sie den Speicherort der heruntergeladenen Referenz.
  • Klicken Sie anschließend auf OK, um die Referenz hinzuzufügen.

4. Text mit IronPDF extrahieren

Das Programm IronPDF ermöglicht die Textextraktion aus der PDF-Datei und die Umwandlung von PDF-Seiten in PDF-Objekte. Nachfolgend ein Beispiel für die Verwendung von IronPDF zum Lesen einer vorhandenen PDF-Datei.

Der erste Ansatz besteht darin, Text aus einer PDF-Datei zu extrahieren, und das folgende Beispiel-Codefragment zeigt dies.

using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Imports IronPdf

Private pdfDocument = PdfDocument.FromFile("result.pdf")
Private AllText As String = pdfDocument.ExtractAllText()
VB   C#

DievonDatei statische Methode wird verwendet, um das PDF-Dokument aus einer vorhandenen Datei zu laden und es inpDFDocument objekte, wie im obigen Code gezeigt. Mit diesem Objekt können wir den Text und die Bilder lesen, die auf den PDF-Seiten zugänglich sind. Das Objekt hat eine Methode namensextractAllText die den gesamten Text aus dem gesamten PDF-Dokument extrahiert und den extrahierten Text in eine Zeichenkette umwandelt, die wir dann zur Verarbeitung verwenden können.

Nachfolgend finden Sie ein Codebeispiel für die zweite Methode, mit der Sie Text aus einer PDF-Datei seitenweise extrahieren können.

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
	For index = 0 To pdf.PageCount - 1
		Dim Text As String = pdf.ExtractTextFromPage(index)
	Next index
End Using
VB   C#

Im obigen Code sehen wir, dass zunächst das gesamte PDF-Dokument geladen und in ein PDF-Objekt umgewandelt wird. Dann erhalten wir die Seitenzahl des gesamten PDF-Dokuments mit Hilfe einer eingebauten Methode namensseitenzahldadurch wird die Gesamtzahl der verfügbaren Seiten des geladenen PDF-Dokuments ermittelt. Verwendung der "for-Schleife" undextrahiereTextVonSeite ermöglicht die Übergabe der Seitenzahl als Parameter, um Text aus dem geladenen Dokument zu extrahieren. Der genaue Text wird dann in der String-Variablen gespeichert. Ebenso wird der Text mit Hilfe der "for"- oder "for each"-Schleife seitenweise aus der PDF-Datei extrahiert.

5. Schlussfolgerung

IronPDF ist eine vielseitige und leistungsstarke PDF-Bibliothek, die entwickelt wurde, um das Arbeiten mit PDFs in .NET-Anwendungen nahtlos zu gestalten. Seine robusten Funktionen ermöglichen es Entwicklern, Inhalte aus PDFs zu erstellen, zu manipulieren und zu extrahieren, ohne auf Abhängigkeiten von Drittanbietern wie Adobe Reader angewiesen zu sein. Eine der herausragenden Fähigkeiten von IronPDF ist die Möglichkeit, Text aus PDF-Dokumenten zu extrahieren. Dieses Feature ist äußerst wertvoll für die Automatisierung von Aufgaben wie Datenanalyse, Dokumentenindizierung, Inhaltsmigration und die Aktivierung von Barrierefreiheitsfunktionen. Indem IronPDF Entwicklern ermöglicht, Texte programmatisch abzurufen und zu verarbeiten, vereinfacht es Workflows und eröffnet neue Möglichkeiten zur Handhabung von PDF-Inhalten.

Mit unkomplizierter Integration und plattformübergreifender Unterstützung ist IronPDF eine hervorragende Wahl für Entwickler, die PDF-Dokumente effizient verwalten möchten. Zusätzlich bietet IronPDF einekostenloser Test, sodass Sie die volle Bandbreite der Funktionen risikofrei erkunden können, bevor Sie sich festlegen. Für Preisinformationen und um mehr über Lizenzierungsoptionen zu erfahren, besuchen Sie unserepreisseite.

< PREVIOUS
PDF-Erzeugung in ASP.NET mit C#
NÄCHSTES >
Extrahieren von Daten aus PDF-Dateien in C#

Sind Sie bereit, loszulegen? Version: 2024.12 gerade veröffentlicht

Gratis NuGet-Download Downloads insgesamt: 11,810,873 Lizenzen anzeigen >