IRONPDF VERWENDEN

C# PDF in Text umwandeln (Codebeispiel)

Aktualisiert 8. Februar 2024
Teilen Sie:

Dieser Artikel beschreibt den Prozess, mit dem .NET-Entwickler PDF-Dateien in das TXT-Format konvertieren können, um einen effizienteren Zugriff zu ermöglichen.

Im Tutorial behandelte Themen

  • IronPDF
  • Schritte zur programmgesteuerten Erstellung von PDF-Dateien
  • Schritt 1: Erstellen eines C#-Projekts
  • Schritt 2: Installieren Sie die IronPDF-Bibliothek

    • Methode 1: NuGet-Paketmanager

    • Methode 2: NuGet-Paketmanager-Konsole
  • Methode 3: Verwendung der DLL-Datei
  • Schritt 3: Hinzufügen des IronPDF-Namensraums
  • Schritt 4: PDF in Text umwandeln
  • Ausgabe
  • Schlussfolgerung

IronPDF

IronPDF ist eine .NET-Bibliothek für die PDF-Erzeugung. Es handelt sich um eine systemeigene .NET-Bibliothek, die nicht auf externe DLLs oder andere Tools angewiesen ist. IronPDF ist eine plattformübergreifende, in C# und .NET geschriebene Bibliothek, die alle für die Arbeit mit PDF-Dokumenten erforderlichen Funktionen bietet. Es enthält Dokument-Rendering, Formularbearbeitung, Textextraktion, Dateiverschlüsselung und andere Funktionen. Alle diese Vorgänge können über eine intuitive API ausgeführt werden, die auf verschiedenen Plattformen wie Windows Forms, WPF, ASP.NET MVC usw. ausgiebig getestet wurde.

Die aktuelle Version von IronPDF bietet einen einfachen Zugang zu diesen Funktionen:

Schritte zum Konvertieren von PDF-Dokumenten in Textdateien

Der erste Schritt besteht darin, ein C#-Projekt in Visual Studio zu erstellen. Sie können eine beliebige C#-Anwendungsvorlage nach Ihren Bedürfnissen auswählen. Der Einfachheit halber wird in diesem Lernprogramm die Vorlage Konsolenanwendung verwendet. Sie können ein bereits vorhandenes C#-Projekt für die Konvertierung von PDF- in TXT-Dateien verwenden.

Schritt 1: Erstellen eines C# Projekts

Erstellen Sie ein C#-Projekt in Visual Studio oder öffnen Sie ein bestehendes Projekt. Die neueste Version von Visual Studio wird für ein reibungsloses Arbeiten empfohlen. Folgen Sie den angegebenen Schritten, um ein C#-Projekt in Visual Studio zu erstellen.

  1. Öffnen Sie Visual Studio.

  2. Wählen Sie die C#-Konsolenanwendungsvorlage oder öffnen Sie ein bestehendes Projekt.

  3. Geben Sie dem Projekt einen richtigen Namen.

  4. Wählen Sie das .NET-Framework Version 6.0. Dies ist das neueste und stabilste .NET-Framework, aber Sie können auch jedes andere .NET-Framework nach Ihren Bedürfnissen auswählen.

Schritt 2: Installieren Sie die IronPDF-Bibliothek

IronPDF zeichnet sich auch durch einen einfachen Installationsprozess aus, der die Entwicklungszeit verkürzt und die Verwirrung reduziert. Die IronPDF-Bibliothek bietet mehrere Möglichkeiten der Installation:

  • NuGet-Paketmanager verwenden
  • NuGet-Paketmanager-Konsole verwenden
  • Nach DLL-Datei

Methode 1: NuGet-Paketmanager

Um NuGet Package Manager zu verwenden, folgen Sie den angegebenen Schritten, um die Registerkarte Package Manager zu öffnen.

Öffnen Sie das C#-Projekt und klicken Sie auf Tools > NuGet Package Manager > NuGet-Pakete für die Lösung verwalten.

C# PDF in Text umwandeln (Codebeispiel), Abbildung 0: Navigieren Sie zum NuGet-Paketmanager

Navigieren Sie zum NuGet-Paketmanager

  • Gehen Sie nun auf die Registerkarte Durchsuchen und suchen Sie nach IronPDF.
  • Wählen Sie IronPDF aus den Suchergebnissen aus und klicken Sie auf Installieren. Dadurch wird die IronPDF-Bibliothek installiert, so dass das Projekt mit der IronPDF-Bibliothek verwendet werden kann.

    C# PDF in Text umwandeln (Codebeispiel), Abbildung 1: IronPDF-Paket aus dem Suchergebnis des NuGet Package Managers

    IronPdf-Paket aus dem Suchergebnis des NuGet Package Manager

Methode 2: NuGet-Paketmanager-Konsole

Die Installation der IronPDF-Bibliothek mit der Package Manager Console ist der einfachste Weg. Befolgen Sie diese einfachen Schritte:

  • Öffnen Sie die Paketmanager-Konsole.
  • Schreiben Sie die folgende Zeile in die Konsole und drücken Sie die Eingabetaste. Dadurch wird die IronPDF-Bibliothek sofort installiert.
Install-Package IronPdf

C# PDF in Text umwandeln (Codebeispiel), Abbildung 2: Der Installationsfortschritt wird in der NuGet Package Manager Console UI angezeigt

Der Installationsfortschritt wird in der NuGet Package Manager Console UI angezeigt

Methode 3: Verwendung einer DLL-Datei

Sie können die DLL-Datei von der Iron Software Website herunter. Sobald der Download abgeschlossen ist, verwenden Sie ihn in Ihrem Projekt als Referenz.

Besuchen Sie die installationsseite für eine ausführlichere Installationsanleitung.

Die Installation der IronPDF-Bibliothek ist nun abgeschlossen. Die folgenden Schritte zeigen Ihnen, wie Sie eine PDF-Datei in eine Textdatei umwandeln.

Schritt 3: Hinzufügen des IronPDF-Namensraums

Um IronPDF zu verwenden, müssen Sie den IronPDF-Namensraum zu jeder Codedatei hinzufügen. Schreiben Sie die folgende Codezeile an den Anfang jeder zugehörigen Codedatei. Sie ermöglicht es Ihnen, die Funktionen von IronPDF in Ihrem Programm zu nutzen.

using IronPdf;
using IronPdf;
Imports IronPdf
VB   C#

Schritt 4: Konvertieren des PDF-Dokuments in eine Textdatei

Nun müssen wir die PDF-Datei in eine TXT-Datei umwandeln oder nur den Text extrahieren. Schreiben Sie also den folgenden Beispielcode in Ihre Codedatei:

using IronPdf;
using System.Drawing;

// Extracting image and text content from PDF Document

// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
using IronPdf;
using System.Drawing;

// Extracting image and text content from PDF Document

// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
Imports IronPdf
Imports System.Drawing

' Extracting image and text content from PDF Document

' Open a 128-bit encrypted PDF
Private PdfDocument As using
' Get all text to put in a search index
Private allText As String = pdf.ExtractAllText()
Console.WriteLine(allText)
VB   C#

Öffnen Sie zunächst das PDF-Dokument mit der Option vonDatei funktion aus der pdfDocument klasse. Übergeben Sie in den Parametern den Dateinamen und das Passwort (wenn überhaupt). Danach verwenden Sie die extractAllText funktion, um den gesamten Text aus der PDF-Datei zu extrahieren und in einer Variablen namens allText zu speichern. Anschließend wird der Ausgabetext in der Konsole angezeigt

Ausgabe

C# PDF in Text umwandeln (Codebeispiel), Abbildung 3: Der extrahierte Text aus dem PDF-Dokument

Der extrahierte Text aus dem PDF-Dokument

Dies ist der von IronPDF extrahierte Ausgabetext. Es ist derselbe Text wie in der PDF-Datei, was zeigt, dass IronPDF sehr genau ist.

Schlussfolgerung

Dieser Artikel zeigt, wie man mit der IronPDF for .NET PDF-Bibliothek auf einfache Weise Text aus PDF-Dateien extrahieren kann. Dies wurde durch das Schreiben von nur wenigen Codezeilen und mit einem hohen Prozentsatz an Genauigkeit erreicht. Darüber hinaus verfügt IronPDF über viele nützliche Funktionen wie die Konvertierung von HTML in PDF, PDF-Formatierungstools und zahlreiche weitere grundlegende PDF-Funktionen, die für die PDF-Bearbeitung unerlässlich sind. IronPDF beseitigt auch die Abhängigkeit von Adobe Acrobat.

IronPDF ist für Entwicklungszwecke kostenlos und bietet auch eine kostenloser Test für Produktionstests. IronPDF bietet eine Vielzahl von Preisplänen, die Sie je nach Ihren Bedürfnissen erhalten können. Der Preis von IronPDF ist relativ deutlich niedriger als der seiner Konkurrenten. Die Preise variieren von Einzelpersonen bis hin zu großen Unternehmen und machen die Anschaffung zu einem überzeugenden Kauf mit beeindruckender Leistung.

C# PDF in Text umwandeln (Codebeispiel), Abbildung 4: Die Preispläne für die Iron Software Suite

Die Preispläne für die Iron Software's Suite

Darüber hinaus bietet Iron Software eine Suite von fünf Iron Software-Paketen zum Preis von nur zwei an. Bitte besuchen Sie die lizenzierungsseite um mehr Details zu erhalten.

< PREVIOUS
Byte-Array in PDF speichern C# (Codebeispiel)
NÄCHSTES >
So scannen Sie mehrere Seiten in eine PDF-Datei

Sind Sie bereit, loszulegen? Version: 2024.10 gerade veröffentlicht

Gratis NuGet-Download Downloads insgesamt: 11,308,499 Lizenzen anzeigen >