C# PDF in Text konvertieren (Code-Beispiel)
Dieser Artikel skizziert den Prozess für .NET-Entwickler, um PDF-Dateien in TXT-Format umzuwandeln, um effizienteren Zugriff zu ermöglichen.
Konvertieren von PDF in Textdateien mit C#
- Herunterladen von Convert PDF to Text C# library
- Ein neues Projekt in Visual Studio erstellen
- Bibliothek zu Ihrem Projekt installieren
- Öffnen Sie das PDF-Dokument mit der Funktion PdfDocument.FromFile
- Ausgabe Text extrahiert anzeigen
Themen im Tutorial behandelt
- IronPDF
- Schritte zum Erstellen von PDF-Dateien programmatisch
- Schritt 1: Erstellen Sie ein C#-Projekt
- Schritt 2: Installieren Sie die IronPDF-Bibliothek
- Methode 1: NuGet Paketmanager
- Methode 2: NuGet Paketmanager-Konsole
- Methode 3: Verwendung der DLL-Datei
- Schritt 3: Fügen Sie den IronPDF-Namespace hinzu
- Schritt 4: Konvertieren Sie PDF in Text
- Ausgabe
- Fazit
IronPDF
IronPDF ist eine .NET-Bibliothek für die PDF-Erstellung. Es ist eine native .NET-Bibliothek und hängt nicht von externen DLL oder anderen Tools ab. IronPDF ist eine plattformübergreifende Bibliothek, die in C# und .NET geschrieben ist und alle erforderlichen Funktionen bietet, um mit PDF-Dokumenten zu arbeiten. Es enthält Dokumenten-Rendering, Formularbearbeitung, Textextraktion, Dateiverschlüsselung sowie andere Funktionen. Alle diese Operationen können über eine intuitive API durchgeführt werden, die auf verschiedenen Plattformen wie Windows Forms, WPF, ASP.NET MVC usw. ausführlich getestet wurde.
Die aktuelle Version von IronPDF bietet einfachen Zugriff auf diese Funktionen:
- PDF-Erzeugung
- PDF-Verschlüsselung
- PDF-Formularfelder mit Vorlagen und Validierungslogik
- Textextraktion aus PDFs (OCR)
- ausfüllbare Formulare
Nur-Lese-Zugriff auf die Dokumenteninternalien (Ansicht, Navigation, Anmerkungen):
Zugriff auf die Metadaten und Dokumenteigenschaften (Titel, Schlüsselwörter, Autor, Thema):
IronPDF enthält auch einige zusätzliche Hilfsklassen, die beim Konvertieren von HTML-Dokumenten in vollständig formatierte PDF-Dateien mit Textextraktion helfen. IronPDF bietet sehr einfache APIs, um PDF in eine Textdatei zu konvertieren.
Beginnen wir damit, wie man mit der IronPDF-Bibliothek ein PDF-Dokument in eine Textdatei konvertiert.
Schritte zur Konvertierung von PDF-Dokumenten in Textdateien
Der erste Schritt ist die Erstellung eines C#-Projekts in Visual Studio. Sie können je nach Bedarf eine beliebige C#-Anwendungsvorlage auswählen. Aus Gründen der Einfachheit wird in diesem Tutorial die Vorlage für Konsolenanwendungen verwendet. Sie können ein bereits bestehendes C#-Projekt für die Konvertierung von PDF in TXT-Dateien verwenden.
Schritt 1: Erstellen Sie ein C#-Projekt
Erstellen Sie ein C#-Projekt in Visual Studio oder öffnen Sie ein bestehendes Projekt. Die neueste Version von Visual Studio wird für ein reibungsloses Arbeiten empfohlen. Befolgen Sie die angegebenen Schritte, um ein C#-Projekt in Visual Studio zu erstellen.
- Öffnen Sie Visual Studio.
- Wählen Sie die C#-Konsolenanwendungsvorlage oder öffnen Sie ein bestehendes Projekt.
- Geben Sie dem Projekt einen passenden Namen.
- Wählen Sie die .NET Framework-Version 6.0. Dies ist das neueste und stabilste Framework von .NET, aber Sie können je nach Ihren Bedürfnissen ein anderes .NET Framework auswählen.
Schritt 2: Installation der IronPDF-Bibliothek
IronPDF verfügt auch über einen einfachen Installationsprozess, der die Entwicklungszeit verkürzt und das Durcheinander verringert. Die IronPDF-Bibliothek bietet mehrere Installationsmöglichkeiten:
- Verwendung des NuGet Paketmanagers
- Verwendung der NuGet Paketmanager-Konsole
- Durch DLL-Datei
Methode 1: NuGet Package Manager
Um den NuGet Paketmanager zu verwenden, folgen Sie den unten angegebenen Schritten, um das Paketmanager-Tab zu öffnen.
Öffnen Sie das C#-Projekt und klicken Sie auf Tools > NuGet Paketmanager > NuGet Pakete für die Lösung verwalten.
Navigation zum NuGet Paketmanager
- Gehen Sie nun zum Registerkarte "Durchsuchen" und suchen Sie nach IronPDF.
- Wählen Sie IronPDF aus den Suchergebnissen aus und klicken Sie auf Installieren. Dies installiert die IronPDF-Bibliothek, die es dem Projekt ermöglicht, mit der IronPDF-Bibliothek verwendet zu werden.
IronPDF-Paket aus dem Suchergebnis des NuGet Paketmanagers
Methode 2: NuGet-Paketmanager-Konsole
Die Installation der IronPDF-Bibliothek mit der Paketmanager-Konsole ist der einfachste Weg. Befolgen Sie diese einfachen Schritte:
- Öffnen Sie die Paketmanager-Konsole.
- Schreiben Sie die folgende Zeile in die Konsole und drücken Sie Enter. Dies wird die IronPDF-Bibliothek sofort installieren.
Install-Package IronPdf
Der Installationsfortschritt in der Benutzeroberfläche der NuGet Paketmanager-Konsole
Methode 3: Verwendung einer DLL-Datei
Sie können die IronPDF DLL-Datei von der Iron Software-Website herunterladen. Sobald der Download abgeschlossen ist, verwenden Sie sie in Ihrem Projekt als Referenz.
Besuchen Sie den IronPDF-Installationsleitfaden für eine detailliertere Installationsanleitung.
Die Installation der IronPDF-Bibliothek ist nun abgeschlossen. Die folgenden Schritte führen Sie an, um eine PDF-Datei in eine Textdatei zu konvertieren.
Schritt 3: Fügen Sie den IronPDF Namespace hinzu
Um IronPDF zu verwenden, ist es notwendig, den IronPDF-Namespace zu jeder Codedatei hinzuzufügen. Schreiben Sie die folgende Codezeile oben in jede verwandte Codedatei. Sie wird es Ihnen ermöglichen, die Funktionen von IronPDF in Ihrem Programm zu verwenden.
using IronPdf;
using IronPdf;
Imports IronPdf
Schritt 4: Konvertieren des PDF-Dokuments in eine Textdatei
Jetzt müssen wir die PDF-Datei in eine TXT-Datei konvertieren oder nur Text extrahieren. Schreiben Sie dazu den folgenden Beispielcode in Ihre Codedatei:
using IronPdf;
using System;
class Program
{
static void Main()
{
// Extracting image and text content from PDF Document
// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
// Display the extracted text in the console
Console.WriteLine(allText);
}
}
using IronPdf;
using System;
class Program
{
static void Main()
{
// Extracting image and text content from PDF Document
// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
// Display the extracted text in the console
Console.WriteLine(allText);
}
}
Imports IronPdf
Imports System
Friend Class Program
Shared Sub Main()
' Extracting image and text content from PDF Document
' Open a 128-bit encrypted PDF
Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
' Get all text to put in a search index
Dim allText As String = pdf.ExtractAllText()
' Display the extracted text in the console
Console.WriteLine(allText)
End Using
End Sub
End Class
Öffnen Sie zunächst das PDF-Dokument mit dem FromFile function vom PdfDocument class . Geben Sie in den Parametern den Dateinamen und das Passwort (falls vorhanden) an. Anschließend verwenden Sie ExtractAllText function , um den gesamten Text aus der PDF-Datei zu extrahieren und in einer Variablen namens allText zu speichern. Anschließend den Ausgangstext in der Konsole anzeigen.
Ausgabe
Der extrahierte Text aus dem PDF-Dokument
Dies ist der von IronPDF extrahierte Ausgangstext. Es ist derselbe Text wie in der PDF-Datei, was zeigt, dass die Genauigkeit von IronPDF sehr präzise ist.
Abschluss
Dieser Artikel zeigt, wie man mit der IronPDF for .NET PDF-Bibliothek einfach Text aus PDF-Dateien extrahieren kann. Dies wurde erreicht, indem nur ein paar Codezeilen geschrieben wurden und mit einem hohen Maß an Genauigkeit. Zudem verfügt IronPDF über viele nützliche Funktionen wie die HTML-zu-PDF-Konvertierung, PDF-Formatierungstools, und viele weitere wichtige PDF-Funktionen, die für die PDF-Bearbeitung unerlässlich sind. IronPDF eliminiert auch die Abhängigkeit von Adobe Acrobat.
IronPDF ist für Entwicklungszwecke kostenlos und bietet auch eine kostenlose Testversion für die Produktionstests an. IronPDF bietet eine Vielzahl von Preisplänen, die Sie nach Ihren Bedürfnissen auswählen können. Der Preis von IronPDF ist relativ deutlich niedriger als der seiner Mitbewerber. Mit Preismodellen für Einzelpersonen und große Unternehmen ist es ein überzeugender Kauf mit hoher Leistung.
Die Preispläne für die Iron Software-Suite
Darüber hinaus bietet Iron Software eine Suite von fünf Iron Software-Paketen zum Preis von nur zwei. Bitte besuchen Sie die Iron Software-Lizenzierungsdetails für weitere Informationen.
Häufig gestellte Fragen
Wie kann ich ein PDF-Dokument in einer C#-Anwendung in Text konvertieren?
Sie können IronPDF verwenden, um ein PDF-Dokument in einer C#-Anwendung in Text zu konvertieren, indem Sie die Methode PdfDocument.FromFile verwenden, um das PDF zu laden, und dann die Methode ExtractAllText aufrufen, um den Textinhalt abzurufen.
Was ist der Prozess zur Einrichtung von IronPDF in einem Visual Studio C#-Projekt?
Um IronPDF in einem Visual Studio C#-Projekt einzurichten, müssen Sie ein neues Projekt erstellen, IronPDF über den NuGet-Paketmanager, die Paket-Manager-Konsole oder durch manuelles Hinzufügen der DLL installieren und dann den IronPDF-Namespace in Ihren Code-Dateien einbeziehen.
Kann IronPDF verschlüsselte PDF-Dateien verarbeiten?
Ja, IronPDF kann verschlüsselte PDF-Dateien öffnen und verarbeiten, sodass Sie Textinhalte daraus extrahieren können.
Was sind die Vorteile der Konvertierung von PDF in das TXT-Format?
Die Konvertierung von PDF in das TXT-Format mit IronPDF ermöglicht eine bessere Zugänglichkeit und einfachere Manipulation der Textdaten, was für Anwendungen vorteilhaft ist, die Textverarbeitung oder -suche erfordern.
Wie gewährleistet IronPDF die Genauigkeit bei der Textextraktion aus PDFs?
IronPDF gewährleistet hohe Genauigkeit bei der Textextraktion, indem es die Integrität des Textes beibehält, wie er im PDF erscheint, und liefert zuverlässige Ergebnisse für die weitere Verarbeitung.
Gibt es eine kostenlose Testversion zur Prüfung der IronPDF-Bibliothek?
Ja, IronPDF bietet eine kostenlose Testversion für Entwicklungs- und Prüfungszwecke an, damit Sie seine Funktionen und Fähigkeiten vor dem Kauf evaluieren können.
Was macht IronPDF zu einer geeigneten Wahl für plattformübergreifende Entwicklung?
IronPDF ist in C# und .NET geschrieben, was es zu einer geeigneten Wahl für plattformübergreifende Entwicklung macht, ohne dass zusätzliche externe Werkzeuge erforderlich sind.
Kann IronPDF für andere Zwecke als die Textextraktion verwendet werden?
Ja, IronPDF bietet eine Vielzahl von Funktionen über die Textextraktion hinaus, einschließlich PDF-Generierung, Dokumentenverschlüsselung, Formularbearbeitung und HTML-zu-PDF-Konvertierung.
Wie gut unterstützt IronPDF for .NET 10 für die PDF-zu-Text-Konvertierung?
IronPDF ist vollständig mit .NET 10 kompatibel und unterstützt es ohne zusätzliche Konfiguration. Bei der Verwendung von IronPDF unter .NET 10 zur Konvertierung von PDFs in Text profitieren Sie von Leistungsverbesserungen wie reduzierten Heap-Speicherbelegungen und Laufzeitoptimierungen, die zu einer schnelleren Extraktion und einem geringeren Speicherverbrauch führen.
Welche Plattformen und Projekttypen werden bei der Verwendung von IronPDF mit .NET 10 unterstützt?
IronPDF for .NET 10 unterstützt eine Vielzahl von Plattformen, darunter Windows (10+, Server), macOS, Linux und Containerumgebungen. Es ist kompatibel mit Projekttypen wie Konsole, Desktop (WPF, MAUI) und Web (MVC, Blazor) und unterstützt Sprachen wie C#, F# und VB.NET.




