IRONPDF VERWENDEN

C# Text aus PDF extrahieren (Code-Beispiel-Tutorial)

Aktualisiert 3. Dezember 2023
Teilen Sie:

Dateien im Portable Document Format werden in einer Vielzahl von Unternehmen verwendet. Bei der Entwicklung von Dokumenten verwenden die Entwickler das PDF-Format, um ihre Kunden zu unterstützen. Dank der heutigen Bibliotheken war es noch nie so einfach, PDF-Dateien zu erstellen. Um zu entscheiden, welche kommerzielle Bibliothek am besten für ein Projekt geeignet ist, müssen wir Elemente wie Konstruktion, Lesen und Konvertierung bewerten.

1. IronPDF-Funktionen

IronPDF ist ein robuster PDF-Konverter, der fast alle Operationen ausführen kann, die auch ein Browser ausführen kann. Das Erstellen, Lesen und Bearbeiten von PDF-Dokumenten ist mit der .NET-Bibliothek für Entwickler ganz einfach. IronPDF konvertiert HTML-zu-PDF-Dokumente mit Hilfe der Chrome-Engine. IronPDF unterstützt HTML, ASPX, Razor HTML und MVC View sowie andere Webkomponenten. Die Microsoft .NET-Anwendung wird von IronPDF unterstützt (sowohl ASP.NET-Webanwendungen als auch herkömmliche Windows-Anwendungen). IronPDF kann auch verwendet werden, um ein visuell ansprechendes PDF-Dokument zu erstellen.

Mit IronPDF können wir ein PDF-Dokument aus HTML5, JavaScript, CSS und Bildern erstellen. Außerdem können die Dateien Kopf- und Fußzeilen haben. Dank IronPDF können wir ein PDF-Dokument problemlos lesen. IronPDF verfügt auch über eine umfassende PDF-Konvertierungs-Engine und einen leistungsstarken HTML-zu-PDF-Konverter, der PDF-Dokumente verarbeiten kann.

  • Zu den Quellen, die zur Erstellung einer PDF-Datei verwendet werden können, gehören HTML, HTML5, ASPX und Razor/MVC-Ansicht. Wir können nicht nur HTML-Dateien in PDF-Dateien umwandeln, sondern wir können auch bilddateien in PDF konvertieren.
  • Mit IronPDF können Sie interaktive PDF-Dokumente erstellen und interaktive Formulare ausfüllen und versenden, ein PDF-Dokument zusammenführen und aufteilensie können Text und Bilder aus PDF-Dateien extrahieren, Text in einer PDF-Datei suchen, PDF-Seiten in Bilder umwandeln, PDF in HTML konvertieren und PDF-Dokumente drucken.
  • IronPDF ist in der Lage, ein Dokument aus einer URL zu erstellen. Es unterstützt auch benutzerdefinierte Netzwerkanmeldeinformationen, Benutzeragenten, Proxys, Cookies, HTTP-Header und Formularvariablen für anmeldung hinter HTML-Anmeldeformularen.
  • IronPDF ist ein Programm, mit dem Sie Ihre Daten anzeigen und pDF-Dokumente ausfüllen.
  • Bilder können mit IronPDF aus Dokumenten extrahiert werden.
  • IronPDF ermöglicht uns die Anpassung von Dokumenten mit kopfzeilenfußzeilen, Text, Bilder, Lesezeichen, wasserzeichenund mehr.
  • Mit IronPDF können wir Seiten in einem neuen oder bestehenden Dokument verbinden und trennen.
  • Ohne einen Acrobat-Viewer können wir Dokumente in PDF-Objekte umwandeln.
  • Eine CSS-Datei kann in ein PDF-Dokument umgewandelt werden.
  • CSS-Dateien vom Typ Media können in Dokumente umgewandelt werden.

2. Erstellen eines neuen Projekts in Visual Studio

Öffnen Sie Visual Studio und wählen Sie das Menü Datei. Wählen Sie "Neues Projekt" und dann "Konsolenanwendung". In diesem Artikel werden wir eine Konsolenanwendung verwenden, um PDF-Dokumente zu erzeugen.

C# Text aus PDF extrahieren (Code-Beispiel-Tutorial), Abbildung 1: Erstellen Sie ein neues Projekt in Visual Studio

Erstellen Sie ein neues Projekt in Visual Studio

Geben Sie den Projektnamen ein und wählen Sie den Dateipfad in dem entsprechenden Textfeld aus. Klicken Sie dann auf die Schaltfläche Create und wählen Sie das gewünschte .NET-Framework aus, wie in der folgenden Abbildung dargestellt.

C# Text aus PDF extrahieren (Code-Beispiel-Tutorial), Abbildung 2: Konfigurieren Sie ein neues Projekt in Visual Studio

Neues Projekt in Visual Studio konfigurieren

Das Visual Studio-Projekt generiert nun die Struktur für die ausgewählte Anwendung, und wenn Sie die Konsolen-, Windows- und Webanwendung ausgewählt haben, wird die Datei "program.cs" geöffnet, in die Sie den Code eingeben und die Anwendung erstellen/ausführen können.

C# Text aus PDF extrahieren (Code-Beispiel-Tutorial), Abbildung 3: Auswahl von .NET Core

Auswahl von .NET Core

Als nächstes können wir die Bibliothek hinzufügen, um den Code zu testen.

3. Installieren Sie die IronPDF-Bibliothek

Die IronPDF Library kann auf vier Arten heruntergeladen und installiert werden.

Diese sind:

  • Visual Studio verwenden.
  • Verwendung der Visual Studio-Befehlszeile.
  • Direkter Download von der NuGet-Website.
  • Direktes Herunterladen von der IronPDF-Website.

3.1 Visual Studio verwenden

Die Visual Studio-Software bietet die Option NuGet Package Manager, um das Paket direkt in der Lösung zu installieren. Der folgende Screenshot zeigt, wie Sie den NuGet Package Manager öffnen.

C# Text aus PDF extrahieren (Code-Beispiel-Tutorial), Abbildung 4: Visual Studio program.cs Datei

Visual Studio program.cs Datei

Es bietet ein Suchfeld, um die Liste der Pakete von der NuGet-Website anzuzeigen. Im Paketmanager müssen wir nach dem Schlüsselwort "IronPDF" suchen, wie in der folgenden Abbildung zu sehen ist.

C# Text aus PDF extrahieren (Codebeispiel-Tutorial), Abbildung 5: NuGet-Paketmanager

NuGet Package Manager

In der obigen Abbildung sehen Sie die Liste der verwandten Suchbegriffe. Wir müssen die gewünschte Option auswählen, um das Paket in der Lösung zu installieren.

3.2 Verwendung der Visual Studio-Befehlszeile

Gehen Sie in Visual Studio zu Tools > NuGet Package Manager > Package Manager Console

Geben Sie die folgende Zeile auf der Registerkarte der Paketmanager-Konsole ein:

Install-Package IronPdf

Jetzt wird das Paket in das aktuelle Projekt heruntergeladen/installiert und ist einsatzbereit.

C# Extrahieren von Text aus PDF (Code-Beispiel-Tutorial), Abbildung 6: IronPDF-Bibliothek im NuGet Package Manager

IronPdf-Bibliothek im NuGet Package Manager

3.3 Direkter Download von der NuGet-Website

Die dritte Möglichkeit ist das Herunterladen der NuGet-Paket direkt von der Website.

  • Navigieren Sie zu dem Link.
  • Wählen Sie im Menü auf der rechten Seite die Option Paket herunterladen.
  • Doppelklicken Sie auf das heruntergeladene Paket. Sie wird automatisch installiert.
  • Laden Sie anschließend die Lösung neu und verwenden Sie sie im Projekt.

3.4 Direktes Herunterladen von der IronPDF-Website

Besuchen Sie unsere IronPDF-Website um das neueste Paket direkt von der Website herunterzuladen. Führen Sie nach dem Download die folgenden Schritte aus, um das Paket zum Projekt hinzuzufügen.

  • Klicken Sie mit der rechten Maustaste auf das Projekt im Lösungsfenster.
  • Wählen Sie dann die Optionen Referenz und suchen Sie den Speicherort der heruntergeladenen Referenz.
  • Klicken Sie anschließend auf OK, um die Referenz hinzuzufügen.

4. Text mit IronPDF extrahieren

Das Programm IronPDF ermöglicht die Textextraktion aus der PDF-Datei und die Umwandlung von PDF-Seiten in PDF-Objekte. Nachfolgend ein Beispiel für die Verwendung von IronPDF zum Lesen einer vorhandenen PDF-Datei.

Der erste Ansatz besteht darin, Text aus einer PDF-Datei zu extrahieren, und das folgende Beispiel-Codefragment zeigt dies.

var pdfDocument = IronPdf.PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
var pdfDocument = IronPdf.PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Dim pdfDocument = IronPdf.PdfDocument.FromFile("result.pdf")
Dim AllText As String = pdfDocument.ExtractAllText()
VB   C#

Die vonDatei statische Methode wird verwendet, um das PDF-Dokument aus einer vorhandenen Datei zu laden und es in pDFDocument objekte, wie im obigen Code gezeigt. Mit diesem Objekt können wir den Text und die Bilder lesen, die auf den PDF-Seiten zugänglich sind. Das Objekt hat eine Methode namens extractAllText die den gesamten Text aus dem gesamten PDF-Dokument extrahiert und den extrahierten Text in eine Zeichenkette umwandelt, die wir dann zur Verarbeitung verwenden können.

Nachfolgend finden Sie ein Codebeispiel für die zweite Methode, mit der Sie Text aus einer PDF-Datei seitenweise extrahieren können.

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
	For index = 0 To pdf.PageCount - 1
		Dim PageNumber As Integer = index + 1
		Dim Text As String = pdf.ExtractTextFromPage(index)
	Next index
End Using
VB   C#

Im obigen Code sehen wir, dass zunächst das gesamte PDF-Dokument geladen und in ein PDF-Objekt umgewandelt wird. Dann erhalten wir die Seitenzahl des gesamten PDF-Dokuments mit Hilfe einer eingebauten Methode namens seitenzahldadurch wird die Gesamtzahl der verfügbaren Seiten des geladenen PDF-Dokuments ermittelt. Verwendung der "for-Schleife" und extrahiereTextVonSeite ermöglicht die Übergabe der Seitenzahl als Parameter, um Text aus dem geladenen Dokument zu extrahieren. Der genaue Text wird dann in der String-Variablen gespeichert. Ebenso wird der Text mit Hilfe der "for"- oder "for each"-Schleife seitenweise aus der PDF-Datei extrahiert.

5. Schlussfolgerung

IronPDF ist eine der am häufigsten verwendeten PDF-Bibliotheken. Sie ist nicht von einer anderen Bibliothek eines Drittanbieters abhängig. Es ist unabhängig und benötigt keinen Adobe Reader auf Ihrem Rechner. Es funktioniert auf mehreren Plattformen. Der Einführungspreis für IronPDF beginnt bei $749. Es besteht die Möglichkeit, eine einjährige Gebühr für Produkt-Support und Updates zu zahlen, und IronPDF bietet gegen Aufpreis auch eine lizenzgebührenfreie Weiterverbreitung an. Für weitere Details besuchen Sie bitte unsere preisseite.

< PREVIOUS
PDF-Erzeugung in ASP.NET mit C#
NÄCHSTES >
Extrahieren von Daten aus PDF-Dateien in C#

Sind Sie bereit, loszulegen? Version: 2024.10 gerade veröffentlicht

Gratis NuGet-Download Downloads insgesamt: 11,308,499 Lizenzen anzeigen >