Zum Fußzeileninhalt springen
IRONPDF NUTZEN
C# Text aus PDF extrahieren

C# PDF in Text konvertieren (Code-Beispiel)

Dieser Artikel skizziert den Prozess für .NET-Entwickler, um PDF-Dateien in TXT-Format umzuwandeln, um effizienteren Zugriff zu ermöglichen.

Themen im Tutorial behandelt

  • IronPDF
  • Schritte zum Erstellen von PDF-Dateien programmatisch
  • Schritt 1: Erstellen Sie ein C#-Projekt
  • Schritt 2: Installieren Sie die IronPDF-Bibliothek
    • Methode 1: NuGet Paketmanager
    • Methode 2: NuGet Paketmanager-Konsole
    • Methode 3: Verwendung der DLL-Datei
  • Schritt 3: Fügen Sie den IronPDF-Namespace hinzu
  • Schritt 4: Konvertieren Sie PDF in Text
    • Ausgabe
  • Fazit

IronPDF

IronPDF ist eine .NET-Bibliothek für die PDF-Erstellung. Es ist eine native .NET-Bibliothek und hängt nicht von externen DLL oder anderen Tools ab. IronPDF ist eine plattformübergreifende Bibliothek, die in C# und .NET geschrieben ist und alle erforderlichen Funktionen bietet, um mit PDF-Dokumenten zu arbeiten. Es enthält Dokumenten-Rendering, Formularbearbeitung, Textextraktion, Dateiverschlüsselung sowie andere Funktionen. Alle diese Operationen können über eine intuitive API durchgeführt werden, die auf verschiedenen Plattformen wie Windows Forms, WPF, ASP.NET MVC usw. ausführlich getestet wurde.

Die aktuelle Version von IronPDF bietet einfachen Zugriff auf diese Funktionen:

Nur-Lese-Zugriff auf die Dokumenteninternalien (Ansicht, Navigation, Anmerkungen):

Zugriff auf die Metadaten und Dokumenteigenschaften (Titel, Schlüsselwörter, Autor, Thema):

IronPDF enthält auch einige zusätzliche Hilfsklassen, die beim Konvertieren von HTML-Dokumenten in vollständig formatierte PDF-Dateien mit Textextraktion helfen. IronPDF bietet sehr einfache APIs, um PDF in eine Textdatei zu konvertieren.

Beginnen wir damit, wie man mit der IronPDF-Bibliothek ein PDF-Dokument in eine Textdatei konvertiert.

Schritte zur Konvertierung von PDF-Dokumenten in Textdateien

Der erste Schritt ist die Erstellung eines C#-Projekts in Visual Studio. Sie können je nach Bedarf eine beliebige C#-Anwendungsvorlage auswählen. Aus Gründen der Einfachheit wird in diesem Tutorial die Vorlage für Konsolenanwendungen verwendet. Sie können ein bereits bestehendes C#-Projekt für die Konvertierung von PDF in TXT-Dateien verwenden.

Schritt 1: Erstellen Sie ein C#-Projekt

Erstellen Sie ein C#-Projekt in Visual Studio oder öffnen Sie ein bestehendes Projekt. Die neueste Version von Visual Studio wird für ein reibungsloses Arbeiten empfohlen. Befolgen Sie die angegebenen Schritte, um ein C#-Projekt in Visual Studio zu erstellen.

  1. Öffnen Sie Visual Studio.
  2. Wählen Sie die C#-Konsolenanwendungsvorlage oder öffnen Sie ein bestehendes Projekt.
  3. Geben Sie dem Projekt einen passenden Namen.
  4. Wählen Sie die .NET Framework-Version 6.0. Dies ist das neueste und stabilste Framework von .NET, aber Sie können je nach Ihren Bedürfnissen ein anderes .NET Framework auswählen.

Schritt 2: Installation der IronPDF-Bibliothek

IronPDF verfügt auch über einen einfachen Installationsprozess, der die Entwicklungszeit verkürzt und das Durcheinander verringert. Die IronPDF-Bibliothek bietet mehrere Installationsmöglichkeiten:

  • Verwendung des NuGet Paketmanagers
  • Verwendung der NuGet Paketmanager-Konsole
  • Durch DLL-Datei

Methode 1: NuGet Package Manager

Um den NuGet Paketmanager zu verwenden, folgen Sie den unten angegebenen Schritten, um das Paketmanager-Tab zu öffnen.

Öffnen Sie das C#-Projekt und klicken Sie auf Tools > NuGet Paketmanager > NuGet Pakete für die Lösung verwalten.

C#-Konvertierung von PDF in Text (Codebeispiel), Abbildung 0: Navigation zum NuGet Paketmanager Navigation zum NuGet Paketmanager

  • Gehen Sie nun zum Registerkarte "Durchsuchen" und suchen Sie nach IronPDF.
  • Wählen Sie IronPDF aus den Suchergebnissen aus und klicken Sie auf Installieren. Dies installiert die IronPDF-Bibliothek, die es dem Projekt ermöglicht, mit der IronPDF-Bibliothek verwendet zu werden.

C#-Konvertierung von PDF in Text (Codebeispiel), Abbildung 1: IronPDF-Paket aus dem Suchergebnis des NuGet Paketmanagers IronPdf-Paket aus dem Suchergebnis des NuGet Paketmanagers

Methode 2: NuGet-Paketmanager-Konsole

Die Installation der IronPDF-Bibliothek mit der Paketmanager-Konsole ist der einfachste Weg. Befolgen Sie diese einfachen Schritte:

  • Öffnen Sie die Paketmanager-Konsole.
  • Schreiben Sie die folgende Zeile in die Konsole und drücken Sie Enter. Dies wird die IronPDF-Bibliothek sofort installieren.
Install-Package IronPdf

C#-Konvertierung von PDF in Text (Codebeispiel), Abbildung 2: Der Installationsfortschritt in der Benutzeroberfläche der NuGet Paketmanager-Konsole Der Installationsfortschritt in der Benutzeroberfläche der NuGet Paketmanager-Konsole

Methode 3: Verwendung einer DLL-Datei

Sie können die IronPDF DLL-Datei von der Iron Software-Website herunterladen. Sobald der Download abgeschlossen ist, verwenden Sie sie in Ihrem Projekt als Referenz.

Besuchen Sie den IronPDF-Installationsleitfaden für eine detailliertere Installationsanleitung.

Die Installation der IronPDF-Bibliothek ist nun abgeschlossen. Die folgenden Schritte führen Sie an, um eine PDF-Datei in eine Textdatei zu konvertieren.

Schritt 3: Fügen Sie den IronPDF Namespace hinzu

Um IronPDF zu verwenden, ist es notwendig, den IronPDF-Namespace zu jeder Codedatei hinzuzufügen. Schreiben Sie die folgende Codezeile oben in jede verwandte Codedatei. Sie wird es Ihnen ermöglichen, die Funktionen von IronPDF in Ihrem Programm zu verwenden.

using IronPdf;
using IronPdf;
Imports IronPdf
$vbLabelText   $csharpLabel

Schritt 4: Konvertieren des PDF-Dokuments in eine Textdatei

Jetzt müssen wir die PDF-Datei in eine TXT-Datei konvertieren oder nur Text extrahieren. Schreiben Sie dazu den folgenden Beispielcode in Ihre Codedatei:

using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
Imports IronPdf
Imports System

Friend Class Program
	Shared Sub Main()
		' Extracting image and text content from PDF Document

		' Open a 128-bit encrypted PDF
		Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
	
			' Get all text to put in a search index
			Dim allText As String = pdf.ExtractAllText()
	
			' Display the extracted text in the console
			Console.WriteLine(allText)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

Öffnen Sie zuerst das PDF-Dokument mit der FromFile-Funktion der PdfDocument-Klasse. Geben Sie in den Parametern den Dateinamen und das Passwort (falls vorhanden) an. Verwenden Sie danach die ExtractAllText-Funktion, um den gesamten Text aus der PDF-Datei zu extrahieren und in einer Variable namens allText zu speichern. Anschließend den Ausgangstext in der Konsole anzeigen.

Ausgabe

C#-Konvertierung von PDF in Text (Codebeispiel), Abbildung 3: Der extrahierte Text aus dem PDF-Dokument Der extrahierte Text aus dem PDF-Dokument

Dies ist der von IronPDF extrahierte Ausgangstext. Es ist derselbe Text wie in der PDF-Datei, was zeigt, dass die Genauigkeit von IronPDF sehr präzise ist.

Abschluss

Dieser Artikel zeigt, wie man mit der IronPDF for .NET PDF-Bibliothek einfach Text aus PDF-Dateien extrahieren kann. Dies wurde erreicht, indem nur ein paar Codezeilen geschrieben wurden und mit einem hohen Maß an Genauigkeit. Zudem verfügt IronPDF über viele nützliche Funktionen wie die HTML-zu-PDF-Konvertierung, PDF-Formatierungstools, und viele weitere wichtige PDF-Funktionen, die für die PDF-Bearbeitung unerlässlich sind. IronPDF eliminiert auch die Abhängigkeit von Adobe Acrobat.

IronPDF ist für Entwicklungszwecke kostenlos und bietet auch eine kostenlose Testversion für die Produktionstests an. IronPDF bietet eine Vielzahl von Preisplänen, die Sie nach Ihren Bedürfnissen auswählen können. Der Preis von IronPDF ist relativ deutlich niedriger als der seiner Mitbewerber. Mit Preismodellen für Einzelpersonen und große Unternehmen ist es ein überzeugender Kauf mit hoher Leistung.

C#-Konvertierung von PDF in Text (Codebeispiel), Abbildung 4: Die Preispläne für die Iron Software-Suite Die Preispläne für die Iron Software-Suite

Darüber hinaus bietet Iron Software eine Suite von fünf Iron Software-Paketen zum Preis von nur zwei. Bitte besuchen Sie die Iron Software-Lizenzierungsdetails für weitere Informationen.

Häufig gestellte Fragen

Wie kann ich ein PDF-Dokument in einer C#-Anwendung in Text konvertieren?

Sie können IronPDF verwenden, um ein PDF-Dokument in einer C#-Anwendung in Text zu konvertieren, indem Sie die Methode PdfDocument.FromFile verwenden, um das PDF zu laden, und dann die Methode ExtractAllText aufrufen, um den Textinhalt abzurufen.

Was ist der Prozess zur Einrichtung von IronPDF in einem Visual Studio C#-Projekt?

Um IronPDF in einem Visual Studio C#-Projekt einzurichten, müssen Sie ein neues Projekt erstellen, IronPDF über den NuGet-Paketmanager, die Paket-Manager-Konsole oder durch manuelles Hinzufügen der DLL installieren und dann den IronPDF-Namespace in Ihren Code-Dateien einbeziehen.

Kann IronPDF verschlüsselte PDF-Dateien verarbeiten?

Ja, IronPDF kann verschlüsselte PDF-Dateien öffnen und verarbeiten, sodass Sie Textinhalte daraus extrahieren können.

Was sind die Vorteile der Konvertierung von PDF in das TXT-Format?

Die Konvertierung von PDF in das TXT-Format mit IronPDF ermöglicht eine bessere Zugänglichkeit und einfachere Manipulation der Textdaten, was für Anwendungen vorteilhaft ist, die Textverarbeitung oder -suche erfordern.

Wie gewährleistet IronPDF die Genauigkeit bei der Textextraktion aus PDFs?

IronPDF gewährleistet hohe Genauigkeit bei der Textextraktion, indem es die Integrität des Textes beibehält, wie er im PDF erscheint, und liefert zuverlässige Ergebnisse für die weitere Verarbeitung.

Gibt es eine kostenlose Testversion zur Prüfung der IronPDF-Bibliothek?

Ja, IronPDF bietet eine kostenlose Testversion für Entwicklungs- und Prüfungszwecke an, damit Sie seine Funktionen und Fähigkeiten vor dem Kauf evaluieren können.

Was macht IronPDF zu einer geeigneten Wahl für plattformübergreifende Entwicklung?

IronPDF ist in C# und .NET geschrieben, was es zu einer geeigneten Wahl für plattformübergreifende Entwicklung macht, ohne dass zusätzliche externe Werkzeuge erforderlich sind.

Kann IronPDF für andere Zwecke als die Textextraktion verwendet werden?

Ja, IronPDF bietet eine Vielzahl von Funktionen über die Textextraktion hinaus, einschließlich PDF-Generierung, Dokumentenverschlüsselung, Formularbearbeitung und HTML-zu-PDF-Konvertierung.

Wie gut unterstützt IronPDF for .NET 10 für die PDF-zu-Text-Konvertierung?

IronPDF ist vollständig mit .NET 10 kompatibel und unterstützt es ohne zusätzliche Konfiguration. Bei der Verwendung von IronPDF unter .NET 10 zur Konvertierung von PDFs in Text profitieren Sie von Leistungsverbesserungen wie reduzierten Heap-Speicherbelegungen und Laufzeitoptimierungen, die zu einer schnelleren Extraktion und einem geringeren Speicherverbrauch führen.

Welche Plattformen und Projekttypen werden bei der Verwendung von IronPDF mit .NET 10 unterstützt?

IronPDF for .NET 10 unterstützt eine Vielzahl von Plattformen, darunter Windows (10+, Server), macOS, Linux und Containerumgebungen. Es ist kompatibel mit Projekttypen wie Konsole, Desktop (WPF, MAUI) und Web (MVC, Blazor) und unterstützt Sprachen wie C#, F# und VB.NET.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen