Zum Fußzeileninhalt springen
IRONPDF NUTZEN
C# Text aus PDF extrahieren

C# Text aus PDF extrahieren (Code-Beispiel-Tutorial)

PDF-Dateien (Portable Document Format) spielen eine wesentliche Rolle in zahlreichen Branchen und ermöglichen es Unternehmen, Dokumente sicher zu teilen, zu speichern und zu verwalten. Für Entwickler umfasst die Arbeit mit PDFs oft das Erstellen, Lesen, Konvertieren und Extrahieren von Inhalten, um die Bedürfnisse der Kunden zu unterstützen. Das Extrahieren von Texten aus PDFs ist wichtig für Aufgaben wie Datenanalyse, Dokumentenindexierung, Inhaltsmigration oder das Aktivieren von Barrierefreiheitsfunktionen. Moderne Bibliotheken wie IronPDF erleichtern diese Aufgaben mehr denn je und bieten leistungsstarke Werkzeuge zur Manipulation von PDF-Dateien mit minimalem Aufwand.

Dieser Leitfaden konzentriert sich auf eine der häufigsten Anforderungen: das Extrahieren von Text aus einem PDF in C#. Wir führen Sie durch die Einrichtung eines Projekts in Visual Studio, die Installation von IronPDF und die Nutzung zur Durchführung der Textextraktion mit prägnanten Codebeispielen. Dabei heben wir die robusten Funktionen von IronPDF hervor, einschließlich der Möglichkeit, PDF-Dateien zu erstellen, zu manipulieren und zu konvertieren, indem .NET verwendet wird. Egal, ob Sie dokumentenintensive Anwendungen entwickeln oder einfach eine effiziente PDF-Bearbeitung benötigen, dieses Tutorial wird Ihnen den Einstieg erleichtern.

1. IronPDF-Funktionen

IronPDF ist ein robuster PDF-Konverter, der nahezu jede Operation ausführen kann, die ein Browser kann. Das Erstellen, Lesen und Manipulieren von PDF-Dokumenten ist mit der .NET-Bibliothek für Entwickler einfach. IronPDF konvertiert HTML-zu-PDF-Dokumente mit der Chrome-Engine. IronPDF unterstützt HTML, ASPX, Razor HTML und MVC View sowie andere Webkomponenten. Die Microsoft .NET-Anwendung wird von IronPDF unterstützt (sowohl ASP.NET-Webanwendungen als auch traditionelle Windows-Anwendungen). IronPDF kann auch verwendet werden, um ein visuell ansprechendes PDF-Dokument zu erstellen.

Wir können ein PDF-Dokument aus HTML5, JavaScript, CSS und Bildern mit IronPDF erstellen. Zusätzlich können die Dateien Kopf- und Fußzeilen haben. Dank IronPDF können wir einfach ein PDF-Dokument lesen. IronPDF verfügt auch über eine umfassende PDF-Konvertierungs-Engine und einen leistungsstarken HTML-zu-PDF-Konverter, der PDF-Dokumente verarbeiten kann.

  • PDF-Erstellung: PDFs aus HTML, JavaScript, CSS, Bildern oder URLs erzeugen. Hinzufügen von Kopf- und Fußzeilen, Lesezeichen, Wasserzeichen und anderen benutzerdefinierten Elementen zur Verbesserung des Designs.
  • HTML-zu-PDF-Konvertierung: Konvertieren von HTML, Razor/MVC-Views und medientypischen CSS-Dateien direkt in das PDF-Format.
  • Interaktive PDF-Funktionen: Erstellen, Ausfüllen und Absenden interaktiver PDF-Formulare.
  • Text- und Bildextraktion: Extrahieren von Text oder Bildern aus bestehenden PDF-Dokumenten zur Datenverarbeitung oder Wiederverwendung.
  • Dokumentenmanipulation: Zusammenführen, Teilen, und Neuordnen von Seiten in neuen oder bestehenden PDF-Dateien.
  • Bild- und Seitenverarbeitung: Rastizieren von PDF-Seiten zu Bildern und konvertieren von Bildern ins PDF-Format.
  • Arbeiten mit benutzerdefinierten Anmeldeinformationen: IronPDF ist in der Lage, ein Dokument von einer URL zu erstellen. Es unterstützt auch benutzerdefinierte Netzwerk-Anmeldeinformationen, Benutzeragenten, Proxys, Cookies, HTTP-Header und Formularvariablen für Anmeldungen hinter HTML-Anmeldeformularen.
  • Suche und Barrierefreiheit: Suchen nach Text in PDF-Dokumenten und sicherstellen, dass sie den Barrierefreiheitsstandards entsprechen.
  • Umwandlungsflexibilität: Umwandeln von PDFs in andere Formate wie HTML und arbeiten mit CSS-Dateien, um PDFs zu erzeugen.
  • Eigenständige Funktionalität: Funktioniert unabhängig ohne Bedarf an Adobe Acrobat oder zusätzlichen Tools von Drittanbietern.

2. Erstellen eines neuen Projekts in Visual Studio

Öffnen Sie die Visual Studio-Software und gehen Sie zum Datei-Menü. Wählen Sie "Neues Projekt", und wählen Sie dann "Konsolenanwendung". In diesem Artikel verwenden wir eine Konsolenanwendung, um PDF-Dokumente zu erstellen.

C# Text aus PDF extrahieren (Codebeispiel Tutorial), Abbildung 1: Erstellen eines neuen Projekts in Visual Studio Erstellen eines neuen Projekts in Visual Studio

Geben Sie den Projektnamen ein und wählen Sie den Dateipfad im entsprechenden Textfeld aus. Klicken Sie danach auf die Schaltfläche Erstellen und wählen Sie das benötigte .NET Framework, wie im untenstehenden Screenshot.

C# Text aus PDF extrahieren (Codebeispiel Tutorial), Abbildung 2: Neues Projekt in Visual Studio konfigurieren Neues Projekt in Visual Studio konfigurieren

Das Visual-Studio-Projekt wird nun die Struktur für die ausgewählte Anwendung generieren, und wenn Sie die Konsole, Windows- oder Webanwendung ausgewählt haben, wird die Datei program.cs geöffnet, in die Sie den Code eingeben und die Anwendung erstellen/ausführen können.

C# Text aus PDF extrahieren (Codebeispiel Tutorial), Abbildung 3: .NET Core auswählen .NET Core auswählen

Wir fügen die Bibliothek zum Test des Codes hinzu.

3. IronPDF-Bibliothek installieren

Die IronPDF Library kann auf vier Arten heruntergeladen und installiert werden.

Diese sind:

  • Verwendung von Visual Studio.
  • Verwendung der Visual Studio-Befehlszeile.
  • Direkter Download von der NuGet-Website.
  • Direkter Download von der IronPDF-Website.

3.1 Verwendung von Visual Studio

Die Visual Studio-Software bietet die NuGet-Paket-Manager-Option, um das Paket direkt in die Lösung zu installieren. Der folgende Screenshot zeigt, wie der NuGet-Paketmanager geöffnet wird.

C# Text aus PDF extrahieren (Codebeispiel Tutorial), Abbildung 4: Visual Studio program.cs Datei Visual Studio program.cs Datei

Es bietet das Suchfeld, um die Liste der Pakete von der NuGet-Website anzuzeigen. Im Paketmanager müssen wir nach dem Stichwort "IronPDF" suchen, wie im untenstehenden Screenshot.

C# Text aus PDF extrahieren (Codebeispiel Tutorial), Abbildung 5: NuGet-Paketmanager NuGet-Paketmanager

Im obigen Bild können wir die Liste der verwandten Suchbegriffe sehen. Wir müssen die erforderliche Option auswählen, um das Paket in der Lösung zu installieren.

3.2 Verwendet die Befehlszeile von Visual Studio

In Visual Studio gehen Sie zu Tools > NuGet-Paketmanager > Paket-Manager-Konsole

Geben Sie die folgende Zeile in die Paket-Manager-Konsolenregisterkarte ein:

Install-Package IronPdf

Nun wird das Paket heruntergeladen/installiert und ist bereit zur Verwendung im aktuellen Projekt.

C# Text aus PDF extrahieren (Codebeispiel Tutorial), Abbildung 6: IronPDF-Bibliothek im NuGet-Paketmanager IronPDF-Bibliothek im NuGet-Paketmanager

3.3 Direkter Download von der NuGet-Website

Der dritte Weg ist der Download des IronPDF NuGet-Pakets direkt von ihrer Website.

  • Gehen Sie zum IronPDF-Paket auf NuGet.
  • Wählen Sie die Download-Paket-Option im Menü auf der rechten Seite.
  • Doppelklicken Sie auf das heruntergeladene Paket. Es wird automatisch installiert.
  • Laden Sie dann die Lösung neu und beginnen Sie, es im Projekt zu verwenden.

3.4 Direkter Download von der IronPDF-Website

Besuchen Sie die offizielle IronPDF-Website, um das neueste Paket direkt von ihrer Website herunterzuladen. Sobald heruntergeladen, folgen Sie den untenstehenden Schritten, um das Paket dem Projekt hinzuzufügen.

  • Klicken Sie mit der rechten Maustaste auf das Projekt im Lösungsfenster.
  • Wählen Sie dann die Optionenreferenz und durchsuchen Sie den Speicherort der heruntergeladenen Referenz.
  • Klicken Sie auf OK, um die Referenz hinzuzufügen.

4. mit IronPDF Text extrahieren

Das IronPDF-Programm ermöglicht es uns, Text aus der PDF-Datei zu extrahieren und PDF-Seiten in PDF-Objekte zu konvertieren. Das Folgende ist ein Beispiel, wie man IronPDF verwendet, um eine bestehende PDF-Datei zu lesen.

Der erste Ansatz ist das Extrahieren von Text aus einem PDF und das Beispiel-Code-Snippet ist unten.

using IronPdf;

// Load an existing PDF document from a file
var pdfDocument = PdfDocument.FromFile("result.pdf");

// Extract all text from the entire PDF document
string allText = pdfDocument.ExtractAllText();
using IronPdf;

// Load an existing PDF document from a file
var pdfDocument = PdfDocument.FromFile("result.pdf");

// Extract all text from the entire PDF document
string allText = pdfDocument.ExtractAllText();
Imports IronPdf

' Load an existing PDF document from a file
Private pdfDocument = PdfDocument.FromFile("result.pdf")

' Extract all text from the entire PDF document
Private allText As String = pdfDocument.ExtractAllText()
$vbLabelText   $csharpLabel

Die FromFile-statische Methode wird verwendet, um das PDF-Dokument aus einer vorhandenen Datei zu laden und es in PDFDocument-Objekte zu transformieren, wie im obigen Code gezeigt. Wir können den Text und die Bilder, die auf den PDF-Seiten zugänglich sind, mit diesem Objekt lesen. Das Objekt hat eine Methode namens ExtractAllText, die den gesamten Text aus dem gesamten PDF-Dokument extrahiert und dann den extrahierten Text in der Zeichenkette speichert, die wir zur Verarbeitung verwenden können.

Unten ist das Codebeispiel für die zweite Methode, die wir verwenden können, um Text aus einer PDF-Datei, Seite für Seite, zu extrahieren.

using IronPdf;

// Load an existing PDF document from a file
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");

// Loop through each page of the PDF document
for (var index = 0; index < pdf.PageCount; index++)
{
    // Extract text from the current page
    string text = pdf.ExtractTextFromPage(index);
}
using IronPdf;

// Load an existing PDF document from a file
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");

// Loop through each page of the PDF document
for (var index = 0; index < pdf.PageCount; index++)
{
    // Extract text from the current page
    string text = pdf.ExtractTextFromPage(index);
}
Imports IronPdf

' Load an existing PDF document from a file
Private PdfDocument As using

' Loop through each page of the PDF document
For index = 0 To pdf.PageCount - 1
	' Extract text from the current page
	Dim text As String = pdf.ExtractTextFromPage(index)
Next index
$vbLabelText   $csharpLabel

Im obigen Code sehen wir, dass es zuerst das ganze PDF-Dokument lädt und es in ein PDF-Objekt umwandelt. Dann erhalten wir die Seitenanzahl des gesamten PDF-Dokuments, indem wir eine eingebaute Eigenschaft namens PageCount verwenden, die die Gesamtzahl der in dem geladenen PDF-Dokument verfügbaren Seiten abruft. Die Verwendung der "for-Schleife" und der ExtractTextFromPage-Funktion ermöglicht es uns, die Seitenzahl als Parameter zu übergeben, um Text aus dem geladenen Dokument zu extrahieren. Es wird dann den genauen Text in die String-Variable halten. Ebenso wird es Text aus der PDF-Seite für Seite mit Hilfe der "for" oder der "for each"-Schleife extrahieren.

5. Fazit

IronPDF ist eine vielseitige und leistungsstarke PDF-Bibliothek, die entwickelt wurde, um die Arbeit mit PDFs in .NET-Anwendungen nahtlos zu gestalten. Seine robusten Funktionen ermöglichen es Entwicklern, Inhalte aus PDFs zu erstellen, zu manipulieren und zu extrahieren, ohne von Drittanbieterabhängigkeiten wie Adobe Reader abhängig zu sein. Eine der herausragenden Fähigkeiten von IronPDF ist die Möglichkeit, Text aus PDF-Dokumenten zu extrahieren. Diese Funktion ist unschätzbar für die Automatisierung von Aufgaben wie Datenanalyse, Dokumentenindexierung, Inhaltsmigration und das Aktivieren von Barrierefreiheitsfunktionen. Indem es Entwicklern erlaubt, Texte programmatisch abzurufen und zu verarbeiten, vereinfacht IronPDF Arbeitsabläufe und eröffnet neue Möglichkeiten für den Umgang mit PDF-Inhalten.

Mit einer unkomplizierten Integration und plattformübergreifender Unterstützung ist IronPDF eine ausgezeichnete Wahl für Entwickler, die PDFs effizient handhaben möchten. Zusätzlich bietet IronPDF eine kostenlose Testversion an, die Ihnen ermöglicht, die gesamte Bandbreite der Funktionen risikofrei auszuprobieren, bevor Sie sich binden. Für Preisdetails und um mehr über Lizenzierungsoptionen zu erfahren, besuchen Sie die Preisseite.

Häufig gestellte Fragen

Wie kann ich Text aus einem PDF-Dokument mit C# extrahieren?

Sie können Text aus einem PDF-Dokument in C# mithilfe von IronPDF extrahieren. Laden Sie zuerst das PDF mit der Methode PdfDocument.FromFile und wenden Sie dann die Methode ExtractAllText an, um den Text aus dem Dokument abzurufen.

Welche Schritte sind erforderlich, um IronPDF in einem Visual Studio-Projekt einzurichten?

Um IronPDF in einem Visual Studio-Projekt einzurichten, können Sie es über den NuGet-Paket-Manager installieren. Alternativ können Sie die Befehlszeile von Visual Studio verwenden oder es direkt von der NuGet- oder IronPDF-Website herunterladen.

Welche Funktionen machen IronPDF zu einer umfassenden PDF-Bibliothek?

IronPDF bietet eine Vielzahl von Funktionen, darunter PDF-Erstellung, HTML-zu-PDF-Konvertierung, Text- und Bilderextraktion, Dokumentenmanipulation und Unterstützung für interaktive PDF-Formulare.

Kann IronPDF zum Konvertieren von HTML in PDF in C# verwendet werden?

Ja, IronPDF kann HTML, einschließlich Razor/MVC-Ansichten und CSS-Dateien des Medientyps, direkt in das PDF-Format konvertieren, indem es die integrierte Chrome-Engine verwendet.

Ist IronPDF mit allen Arten von .NET-Anwendungen kompatibel?

Ja, IronPDF ist sowohl mit ASP.NET-Webanwendungen als auch mit traditionellen Windows-Anwendungen kompatibel und bietet .NET-Entwicklern Vielseitigkeit.

Wie erleichtert IronPDF die Barrierefreiheit in PDF-Dokumenten?

IronPDF verbessert die Barrierefreiheit, indem es Benutzern ermöglicht, innerhalb von PDF-Dokumenten nach Text zu suchen und sicherzustellen, dass sie den Barrierefreiheitsstandards entsprechen.

Gibt es Drittanbieterabhängigkeiten, die für IronPDF erforderlich sind?

IronPDF arbeitet unabhängig und erfordert keine Drittanbieter-Tools wie Adobe Acrobat, was eine nahtlose PDF-Manipulation innerhalb Ihrer .NET-Anwendungen ermöglicht.

Welche Vorteile bietet die Verwendung von IronPDF für die Textextraktion aus PDFs?

IronPDF optimiert Arbeitsabläufe, indem es eine programmatische Textextraktion ermöglicht, die für Datenanalyse, Dokumentenindexierung und Inhaltmigration nützlich ist.

Ist eine Testversion von IronPDF verfügbar?

Ja, IronPDF bietet eine kostenlose Testversion an, die Entwicklern ermöglicht, seine Funktionen und Fähigkeiten zu erkunden, bevor sie eine Kaufentscheidung treffen.

Welche Bedeutung hat die Verwendung von IronPDF für das PDF-Management in .NET-Anwendungen?

IronPDF ist aufgrund seines leistungsstarken Funktionsumfangs für das PDF-Management in .NET-Anwendungen von entscheidender Bedeutung. Dazu gehören die PDF-Erstellung, Textextraktion und HTML-zu-PDF-Konvertierung, alles ohne die Notwendigkeit externer Software wie Adobe Acrobat.

Ist der C# PDF-Textextraktionscode in diesem Artikel mit .NET 10 kompatibel?

Ja. Die Beispiele für `PdfDocument.FromFile` und `ExtractText` in diesem Tutorial funktionieren in .NET 10 genauso wie in früheren .NET-Versionen. Nach dem Erstellen eines .NET-10-Projekts installieren Sie das neueste IronPDF-Paket von NuGet. Anschließend können Sie denselben Code verwenden, um PDFs zu lesen und Text in modernen .NET-10-Anwendungen zu extrahieren.

Kye Stuart
Technischer Autor

Kye Stuart verbindet Leidenschaft für das Programmieren und Schreibfähigkeiten bei Iron Software. Nach der Ausbildung am Yoobee College in Software-Bereitstellung transformieren sie nun komplexe technische Konzepte in klares Bildungspotenzial. Kye legt Wert auf lebenslanges Lernen und stellt sich neuen technischen Herausforderungen.

Außerhalb der Arbeit ...

Weiterlesen