PRODUKT-VERGLEICHE

Extrahieren von Text aus PDF in C# mit iTextSharp VS IronPDF

Veröffentlicht 14. November 2023
Teilen Sie:

In der dynamischen Landschaft des digitalen Dokumentenmanagements ist die Fähigkeit, mühelos Daten aus PDF-Dateien zu extrahieren, eine grundlegende Aufgabe, die einer Vielzahl von Anwendungen zugrunde liegt. Das Extrahieren von Text ist für Zwecke wie die umfassende Datenanalyse, die Indexierung von Inhalten, die kommerzielle Nutzung und die Textmanipulation unerlässlich. Unter der Vielzahl der verfügbaren Tools erweist sich iTextSharp, eine hoch angesehene C#-Bibliothek, als eine außergewöhnliche Lösung für die Textextraktion aus PDF-Dateien.

In diesem umfassenden Artikel tauchen wir tief in die reichhaltigen Möglichkeiten von iTextSharp ein und erforschen, wie diese leistungsstarke und vielseitige Parser-Bibliothek Entwicklern die Möglichkeit gibt, mit der Programmiersprache C# effizient Textinhalte aus PDF-Dokumenten zu extrahieren. Wir werden die wesentlichen Methoden, Beispieltechniken und Best Practices entschlüsseln und Entwickler mit dem Wissen ausstatten, das sie benötigen, um iTextSharp effektiv für die Textextraktion zu nutzen. In diesem Beitrag werden wir auch die beste und leistungsfähigste PDF-Bibliothek IronPDF besprechen und vergleichen.

Text aus PDF extrahieren C#

  1. Laden Sie die C#-Bibliothek zum Extrahieren von Text aus einer PDF-Datei herunter.

  2. Laden einer vorhandenen PDF-Datei durch Instanziierung des Objekts "PDFReader".

  3. Extrahieren von Text aus dem PdfDocument-Objekt mit der Methode GetTextFromPage.

  4. Instanziieren Sie die "Foreach"-Schleife, um die Zeilen zu durchlaufen.

  5. Schreiben Sie die Zeilen mit der Methode WriteLine in die Datei.

Was ist IronPDF?

IronPDF Überblickeine bekannte und funktionsreiche Bibliothek im Bereich der .NET-Entwicklung, revolutioniert die PDF-Erzeugung und -Bearbeitung. IronPDF bietet Entwicklern eine umfassende Suite von Werkzeugen, die eine nahtlose Integration in C#-Anwendungen ermöglicht und die mühelose Erstellung, Änderung und Darstellung von PDF-Dokumenten erlaubt. Mit ihrer intuitiven API und robusten Funktionalität eröffnet diese vielseitige Bibliothek eine Welt der Möglichkeiten für die Erstellung hochwertiger PDFs aus HTML, Bildern und Inhalten. In diesem Artikel werden wir die Möglichkeiten von IronPDF erkunden, seine Hauptfunktionen näher beleuchten und zeigen, wie es genutzt werden kann, um PDF-bezogene Aufgaben innerhalb von C&num effizient zu erledigen;

iTextSharp-Bibliothek

iTextSharp, eine renommierte und leistungsstarke Bibliothek im Bereich der PDF-Manipulation mit C#, hat die Art und Weise revolutioniert, wie Entwickler mit PDF-Dokumenten umgehen. Es handelt sich um ein vielseitiges und robustes Werkzeug, das die Erstellung, Änderung und Extraktion von Inhalten aus PDF-Dateien erleichtert. iTextSharp ermöglicht es Entwicklern, anspruchsvolle PDFs zu generieren, Bilder zu extrahieren, bestehende Dokumente zu manipulieren und Daten zu extrahieren, was es zu einer idealen Lösung für eine Vielzahl von Anwendungen macht. In diesem Artikel werden wir uns mit den Fähigkeiten und Funktionen von iTextSharp beschäftigen und untersuchen, wie es effektiv genutzt werden kann, um PDFs innerhalb der C#-Programmierumgebung zu verwalten und zu bearbeiten.

IronPDF installieren

Die Installation von IronPDF ist ein unkomplizierter Prozess. Hier sind die Schritte zur Installation und Integration von IronPDF in Ihr C#-Projekt.

  1. Öffnen Sie Visual Studio und erstellen Sie ein neues Projekt oder öffnen Sie ein bestehendes Projekt.

  2. Gehen Sie zu Tools und wählen Sie NuGet Package Manager aus dem Dropdown-Menü.

  3. Wählen Sie im neuen Seitenmenü NuGet Package Manager for Solution.

    Extrahieren von Text aus PDF in C# mit iTextSharp VS IronPDF Abbildung 1 - NuGet Package Manager

  4. Wählen Sie im Fenster "NuGet Package Manager" die Registerkarte "Durchsuchen".

  5. Geben Sie in der Suchleiste "IronPDF" ein und drücken Sie die Eingabetaste.

  6. Die Liste der IronPDF-Instanzen wird angezeigt, wählen Sie die neueste Version aus und drücken Sie auf Installieren.

    Extrahieren von Text aus PDF in C# mit iTextSharp VS IronPDF Abbildung 2 - IronPDF-Installation

    Damit ist IronPDF installiert und kann in Ihrem C#-Projekt verwendet werden.

ITextSharp-Bibliothek installieren

Die Installation der iTextSharp PDF-Bibliothek ist die gleiche wie die Installation von IronPDF. Wiederholen Sie alle oben erklärten Schritte, suchen Sie nur "iTextSharp" anstelle von IronPDF in den Browse-Fenstern, wählen Sie aus der Liste der Pakete und klicken Sie auf Installieren, um die iTextSharp PDF-Bibliothek in Ihr Projekt zu integrieren.

Extrahieren von Text aus PDF in C# mit iTextSharp VS IronPDF Abbildung 3 - iTextSharp

Extrahieren von Text aus PDF-Dateien mit IronPDF

IronPDF bietet die Möglichkeit, Text aus PDF-Dateien zu extrahieren, um den Text automatisch auf Basis bestimmter Seiten zu extrahieren oder Text aus allen PDFs zu extrahieren. Im folgenden Codebeispiel sehen wir, wie man Text aus einer bestimmten Seite eines PDF-Beispiels extrahiert.

using IronPdf;
using System;
using PdfDocument PDF = PdfDocument.FromFile("Watermarked.pdf");
string Text = PDF.ExtractTextFromPage(1);
Console.Write(Text);
using IronPdf;
using System;
using PdfDocument PDF = PdfDocument.FromFile("Watermarked.pdf");
string Text = PDF.ExtractTextFromPage(1);
Console.Write(Text);
Imports IronPdf
Imports System
Private PdfDocument As using
Private Text As String = PDF.ExtractTextFromPage(1)
Console.Write(Text)
VB   C#

Der obige Code verwendet die IronPDF-Bibliothek in C#, um Text aus einer PDF-Datei zu extrahieren und ihn in der Konsole anzuzeigen. Zunächst werden die erforderlichen Namespaces importiert, darunter IronPDF und System. Der Code lädt dann ein PDF-Dokument mit dem Titel "Watermarked.pdf" mit der Methode "FromFile" in ein "PdfDocument"-Objekt. Anschließend wird mit "ExtractTextFromPage" Text aus der zweiten Seite der PDF-Datei extrahiert und in einer String-Variablen namens Text gespeichert. Schließlich wird der extrahierte Text mit "Console.Write" in der Konsole angezeigt.

Extrahieren von Text aus PDF in C# mit iTextSharp VS IronPDF Abbildung 4 - Ausgabe

Text aus PDF-Datei mit iTextSharp-Bibliothek extrahieren

Sie können auch Text aus PDF-Dateien mit iTextSharp extrahieren, hier ist ein Beispiel für die iTextSharp-Bibliothek im Einsatz.

using System;
using System.Text;
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

namespace PDFApp2
{
    class Program
    {
        static void Main(string [] args)
        {
            string filePath = @"C:\Users\buttw\OneDrive\Desktop\highlighted PDF.pdf";
            string outPath = @"C:\Users\buttw\OneDrive\Desktop\name.txt";
            int pagesToScan = 2;

            string strText = string.Empty;
            try
            {
                PdfReader reader = new PdfReader(filePath);
                for (int page = 1; page <= pagesToScan; page++) 
                {
                    ITextExtractionStrategy its = new iTextSharp.text.pdf.parser.LocationTextExtractionStrategy();
                    strText = PdfTextExtractor.GetTextFromPage(reader, page, its);

                    strText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(strText)));
                    string [] lines = strText.Split('\n');
                    foreach (string line in lines)
                    {
                        using (System.IO.StreamWriter file = new System.IO.StreamWriter(outPath, true))
                        {
                            file.WriteLine(line);
                        }
                    }
                }
                reader.Close();
            }
            catch (Exception ex)
            {
                Console.Write(ex);
            }
        }
    }
}
using System;
using System.Text;
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

namespace PDFApp2
{
    class Program
    {
        static void Main(string [] args)
        {
            string filePath = @"C:\Users\buttw\OneDrive\Desktop\highlighted PDF.pdf";
            string outPath = @"C:\Users\buttw\OneDrive\Desktop\name.txt";
            int pagesToScan = 2;

            string strText = string.Empty;
            try
            {
                PdfReader reader = new PdfReader(filePath);
                for (int page = 1; page <= pagesToScan; page++) 
                {
                    ITextExtractionStrategy its = new iTextSharp.text.pdf.parser.LocationTextExtractionStrategy();
                    strText = PdfTextExtractor.GetTextFromPage(reader, page, its);

                    strText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(strText)));
                    string [] lines = strText.Split('\n');
                    foreach (string line in lines)
                    {
                        using (System.IO.StreamWriter file = new System.IO.StreamWriter(outPath, true))
                        {
                            file.WriteLine(line);
                        }
                    }
                }
                reader.Close();
            }
            catch (Exception ex)
            {
                Console.Write(ex);
            }
        }
    }
}
Imports Microsoft.VisualBasic
Imports System
Imports System.Text
Imports iTextSharp.text.pdf
Imports iTextSharp.text.pdf.parser

Namespace PDFApp2
	Friend Class Program
		Shared Sub Main(ByVal args() As String)
			Dim filePath As String = "C:\Users\buttw\OneDrive\Desktop\highlighted PDF.pdf"
			Dim outPath As String = "C:\Users\buttw\OneDrive\Desktop\name.txt"
			Dim pagesToScan As Integer = 2

			Dim strText As String = String.Empty
			Try
				Dim reader As New PdfReader(filePath)
				For page As Integer = 1 To pagesToScan
					Dim its As ITextExtractionStrategy = New iTextSharp.text.pdf.parser.LocationTextExtractionStrategy()
					strText = PdfTextExtractor.GetTextFromPage(reader, page, its)

					strText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(strText)))
					Dim lines() As String = strText.Split(ControlChars.Lf)
					For Each line As String In lines
						Using file As New System.IO.StreamWriter(outPath, True)
							file.WriteLine(line)
						End Using
					Next line
				Next page
				reader.Close()
			Catch ex As Exception
				Console.Write(ex)
			End Try
		End Sub
	End Class
End Namespace
VB   C#

Der bereitgestellte Code ist ein C#-Programm, das die iTextSharp-Bibliothek verwendet, um Text aus bestimmten Seiten eines PDF-Dokuments zu extrahieren und in einer Textdatei zu speichern. Zunächst werden die erforderlichen Namespaces importiert, darunter System.Text, iTextSharp.text.pdf und iTextSharp.text.pdf.parser. Das Programm gibt den Dateinamen, den Pfad der PDF-Eingabedatei, den Pfad der Ausgabetextdatei und die Anzahl der zu scannenden Seiten an. Anschließend wird iTextSharp's PdfReader verwendet, um die PDF-Datei zu lesen. Für jede angegebene Seite wird die neue "LocationTextExtractionStrategy" von iTextSharp verwendet, um den Text zu extrahieren, wobei die Kodierung in UTF-8 konvertiert wird. Der extrahierte Text wird in Zeilen aufgeteilt, und der neue StringBuilder Text aus dem PDF-Code arbeitet in die richtige Richtung. Alle Ausnahmen, die während des Prozesses auftreten, werden abgefangen und in der Konsole angezeigt. Das Programm endet mit dem Schließen des PdfReader.

Extrahieren von Text aus PDF in C# mit iTextSharp VS IronPDF Abbildung 5 - Extrahieren von Text mit iTextSharp

Schlussfolgerung

iTextSharp, eine leistungsstarke und vielseitige C#-Bibliothek, revolutioniert die PDF-Bearbeitung und ermöglicht die nahtlose Erstellung, Änderung und Extraktion von Inhalten. Seine robusten Funktionen machen es zu einer bevorzugten Lösung für Entwickler, die damit anspruchsvolle PDFs erstellen und Textinhalte in PDFs effektiv verwalten können. Darüber hinaus bietet IronPDF, eine weitere prominente Bibliothek im .NET-Bereich, eine umfassende Suite von Werkzeugen für die PDF-Erzeugung und Bildbearbeitung, die es Entwicklern ermöglicht, mühelos hochwertige PDFs aus verschiedenen Quellen zu erstellen, zu ändern und zu rendern. Beim Vergleich dieser beiden PDF-Bibliotheken hat IronPDF aufgrund seiner gut dokumentierten und benutzerfreundlichen API die Nase vorn, die außerdem die gesamte Textextraktion in nur wenigen Codezeilen durchführt, während man bei iTextSharp langwierigen und komplexen Code schreiben muss und tiefgreifende Kenntnisse der Bibliothek und von C# benötigt;

Mehr Informationen überIronPDF's Eigenschaften und seine Funktionen finden Sie auf der offiziellen Webseite. Die vollständige Anleitung zum Extrahieren von Text mit IronPDF finden Sie hierIronPDF-Tutorial zur Textextraktion. Eine vollständige Anleitung zu IronPDF und iTextSharp finden Sie auf der WebsiteIronPDF vs. iTextSharp Vergleich.

< PREVIOUS
iTextSharp-Dokumentation im Vergleich zu IronPDF geprüft
NÄCHSTES >
IronPDF und Puppeteer C#: Ein Vergleich

Sind Sie bereit, loszulegen? Version: 2024.12 gerade veröffentlicht

Gratis NuGet-Download Downloads insgesamt: 11,810,873 Lizenzen anzeigen >