IRONPDF VERWENDEN

Lesen einer PDF-Tabelle in C#

Regan Pun
Regan Pun
25. März 2023
Aktualisiert 3. März 2024
Teilen Sie:

Das Extrahieren von Daten aus einer PDF-Datei kann in C# eine ziemliche Herausforderung sein. Die Daten können in Form von Text, Bildern, Diagrammen, Schaubildern, Tabellen usw. vorliegen. Manchmal müssen Unternehmensanalysten Daten extrahieren, um Datenanalysen durchzuführen und auf der Grundlage dieser Ergebnisse Entscheidungen zu treffen. Die IronPDF C# PDF Library ist eine hervorragende Lösung zum Extrahieren von Daten aus PDF-Dateien.

In diesem Artikel wird gezeigt, wie man mit der IronPDF Library Tabellendaten aus PDF-Dokumenten in C# extrahiert.

IronPDF - C# PDF-Bibliothek

IronPDF ist eine C# .NET-Bibliothekslösung zur PDF-Erstellung in .NET, die Entwicklern hilft, PDF-Dokumente in ihren Softwareanwendungen einfach zu lesen, zu erstellen und zu bearbeiten. Die Chromium-Engine rendert PDF-Dokumente mit hoher Genauigkeit und Geschwindigkeit. Es ermöglicht Entwicklern die nahtlose Konvertierung von verschiedenen Formaten in PDF und umgekehrt. Es unterstützt das neueste .NET 7-Framework, sowie .NET Framework 6, 5, 4, .NET Core und Standard.

Darüber hinaus ermöglicht die IronPDF for .NET API Entwicklern, PDFs zu manipulieren und zu bearbeiten, Kopf- und Fußzeilen hinzuzufügen und Text, Bilder und Tabellen aus PDFs zu extrahieren.

Einige wichtige Merkmale sind

Schritte zum Extrahieren von Tabellendaten in C#; mit IronPDF Library

Um Tabellendaten aus PDF-Dokumenten zu extrahieren, müssen wir die folgenden Komponenten auf dem lokalen Computersystem installieren:

  1. Visual Studio - Visual Studio 2022 ist die offizielle IDE für die C#-Entwicklung und muss auf dem Computer installiert sein. Bitte laden Sie es von der Visual Studio-Website herunter und installieren Sie es.

  2. Projekt erstellen - Erstellen Sie eine Konsolenanwendung zur Datenextraktion. Führen Sie die folgenden Schritte aus, um ein Projekt zu erstellen:

    • Öffnen Sie Visual Studio 2022 und klicken Sie dann auf die Schaltfläche Neues Projekt erstellen.

    Wie man eine PDF-Tabelle in C# liest, Abbildung 1: Startbildschirm von Visual Studio

    Startbildschirm von Visual Studio

    • Wählen Sie als nächstes C# Console Application und klicken Sie auf next

    Wie man eine PDF-Tabelle in C# liest, Abbildung 2: Erstellen Sie eine neue Konsolenanwendung in Visual Studio

    Erstellen Sie eine neue Konsolenanwendung in Visual Studio

    • Geben Sie als nächstes den Namen Ihres Projekts "ReadPDFTable" ein und klicken Sie auf Weiter

    So lesen Sie eine PDF-Tabelle in C#, Abbildung 3: Konfigurieren Sie die neu erstellte Anwendung

    Konfigurieren Sie die neu erstellte Anwendung

    • Wählen Sie ".NET Framework 6 Langzeitunterstützung" für Ihr Projekt.

    So lesen Sie eine PDF-Tabelle in C#, Abbildung 4: Wählen Sie ein .NET Framework aus

    Wählen Sie ein .NET Framework aus

    • Klicken Sie auf die Schaltfläche Erstellen und das Konsolenprojekt wird erstellt. Jetzt sind wir bereit, Tabellendaten aus PDF-Dokumenten programmatisch zu extrahieren.
  3. Installieren Sie IronPDF - Es gibt 3 verschiedene Methoden, um die IronPDF-Bibliothek zu installieren. Sie lauten wie folgt:

    • Verwendung von Visual Studio. Visual Studio enthält den NuGet Package Manager, mit dessen Hilfe sich alle NuGet-Pakete in C#-Anwendungen installieren lassen.

      • Klicken Sie im oberen Menü auf Werkzeuge, oder

      • Klicken Sie mit der rechten Maustaste auf das Projekt im Projektmappen-Explorer

    Wie man PDF-Tabelle in C# liest, Abbildung 5: Tools & NuGet-Pakete verwalten

    Tools & NuGet-Pakete verwalten

    - Sobald der NuGet Package Manager geöffnet ist, suchen Sie nach IronPDF und klicken Sie auf "Installieren", wie unten gezeigt:

    Wie man eine PDF-Tabelle in C# liest, Abbildung 6: Tools & NuGet-Pakete verwalten

    Tools & NuGet-Pakete verwalten

    • Laden Sie das NuGet-Paket direkt herunter. Eine weitere einfache Möglichkeit, IronPDF herunterzuladen und zu installieren, ist der Besuch der NuGet-Paketseite.

    • IronPDF .DLL-Bibliothek herunterladen. IronPDF kann auch von der offiziellen IronPDF-Website heruntergeladen werden. Denken Sie daran, dass Sie die .DLL in Ihrem Projekt referenzieren müssen, um sie zu verwenden.

Ein PDF-Dokument mit Tabellendaten erstellen

Bevor etwas erstellt wird, muss der IronPDF-Namespace in die Datei eingefügt werden, und der Lizenzschlüssel muss gesetzt werden, um die ExtractText-Methoden aus der IronPDF-Bibliothek zu verwenden.

using IronPdf;

License.LicenseKey = "YOUR-TRIAL/PURCHASED-LICENSE-KEY";
using IronPdf;

License.LicenseKey = "YOUR-TRIAL/PURCHASED-LICENSE-KEY";

In diesem Fall wird aus einem HTML-String, der eine Tabelle enthält, ein PDF-Dokument erstellt, aus dem dann mit IronPDF die Daten extrahiert werden. Der HTML-Code wird in einer String-Variablen gespeichert und sieht wie folgt aus:

string HTML = "<html>" +
        "<style>" +
            "table, th, td {" +
                "border:1px solid black;" +
            "}" +
        "</style>" +
        "<body>" +
            "<h1>A Simple table example</h2>" +
            "<table>" +
                "<tr>" +
                    "<th>Company</th>" +
                    "<th>Contact</th>" +
                    "<th>Country</th>" +
                "</tr>" +
                "<tr>" +
                    "<td>Alfreds Futterkiste</td>" +
                    "<td>Maria Anders</td>" +
                    "<td>Germany</td>" +
                "</tr>" +
                "<tr>" +
                    "<td>Centro comercial Moctezuma</td>" +
                    "<td>Francisco Chang</td>" +
                    "<td>Mexico</td>" +
                "</tr>" +
            "</table>" +
            "<p>To understand the example better, we have added borders to the table.</p>" +
        "</body>" +
     "</html>";
string HTML = "<html>" +
        "<style>" +
            "table, th, td {" +
                "border:1px solid black;" +
            "}" +
        "</style>" +
        "<body>" +
            "<h1>A Simple table example</h2>" +
            "<table>" +
                "<tr>" +
                    "<th>Company</th>" +
                    "<th>Contact</th>" +
                    "<th>Country</th>" +
                "</tr>" +
                "<tr>" +
                    "<td>Alfreds Futterkiste</td>" +
                    "<td>Maria Anders</td>" +
                    "<td>Germany</td>" +
                "</tr>" +
                "<tr>" +
                    "<td>Centro comercial Moctezuma</td>" +
                    "<td>Francisco Chang</td>" +
                    "<td>Mexico</td>" +
                "</tr>" +
            "</table>" +
            "<p>To understand the example better, we have added borders to the table.</p>" +
        "</body>" +
     "</html>";

Als nächstes wird der ChromePdfRenderer verwendet, um aus einem HTML-String ein PDF zu erstellen. Der Code lautet wie folgt:

ChromePdfRenderer renderer = new ChromePdfRenderer();
PdfDocument pdfDocument = renderer.RenderHtmlAsPdf(HTML);
pdfDocument.SaveAs("table_example.pdf");
ChromePdfRenderer renderer = new ChromePdfRenderer();
PdfDocument pdfDocument = renderer.RenderHtmlAsPdf(HTML);
pdfDocument.SaveAs("table_example.pdf");

Die Methode SaveAs speichert das PdfDocument-Objekt in einer PDF-Datei mit dem Namen "table_example.pdf". Die gespeicherte Datei ist unten abgebildet:

Wie man eine PDF-Tabelle in C# liest, Abbildung 7: Suchen Sie nach IronPDF im NuGet-Paketmanager-UI

Suche nach IronPDF in der NuGet-Paketmanager-Benutzeroberfläche

Extrahieren von Tabellendaten aus PDF-Dokumenten mit IronPDF

Um Daten aus PDF-Tabellen zu extrahieren, öffnen Sie das Dokument mit dem PdfDocument-Objekt und verwenden Sie dann die ExtractAllText-Methode, um die Daten für weitere Analysen abzurufen. Der folgende Code veranschaulicht, wie diese Aufgabe gelöst werden kann:

PdfDocument pdfDocument = new PdfDocument("table_example.pdf");
string text = pdfDocument.ExtractAllText();
PdfDocument pdfDocument = new PdfDocument("table_example.pdf");
string text = pdfDocument.ExtractAllText();

Der obige Code analysiert das gesamte PDF-Dokument mithilfe der ExtractAllText-Methode und gibt die extrahierten Daten, einschließlich der tabellarischen Daten, in einer string-Variablen zurück. Der Wert der Variablen kann dann angezeigt oder zur späteren Verwendung in einer Datei gespeichert werden. Der folgende Code zeigt sie auf dem Bildschirm an:

Console.WriteLine("The extracted Text is:\n" + text);
Console.WriteLine("The extracted Text is:\n" + text);

Wie man eine PDF-Tabelle in C# liest, Abbildung 8: Die PDF-Datei zur Textextraktion

Die PDF-Datei zum Extrahieren von Text

Extrahieren tabellarischer Daten aus extrahiertem Textinhalt

C# bietet eine Methode String.Split, die hilft, den String basierend auf einem Trennzeichen zu teilen. Mit dem folgenden Code können Sie die Ausgabe auf Tabellendaten beschränken.

string [] textList = text.Split("\n");
foreach (string textItem in textList)
{
    if (textItem.Contains("."))
    {
        continue;
    }
    else
    {
        Console.WriteLine(textItem);
    }
}
string [] textList = text.Split("\n");
foreach (string textItem in textList)
{
    if (textItem.Contains("."))
    {
        continue;
    }
    else
    {
        Console.WriteLine(textItem);
    }
}

Dieses einfache Codebeispiel hilft dabei, nur die Daten der Tabellenzellen aus dem extrahierten Text zu extrahieren. Zunächst werden die Textzeilen aufgeteilt und in einem String-Array gespeichert. Dann wird jedes Array-Element durchlaufen, und die Elemente mit einem Punkt "." am Ende werden übersprungen. In den meisten Fällen werden nur die tabellarischen Daten aus den extrahierten Daten abgerufen, obwohl auch andere Zeilen abgerufen werden können. Die Ausgabe lautet wie folgt:

Wie man eine PDF-Tabelle in C# liest, Abbildung 9: Die Konsole zeigt extrahierte Texte an

Die Konsole zeigt extrahierte Texte an

Anhand des obigen Screenshots ist zu erkennen, dass die Tabellenformatierung und die logische Struktur in der Ausgabe der Console.WriteLine-Methode erhalten bleiben. Weitere Details, wie Sie Daten aus PDF-Dokumenten mit IronPDF extrahieren können, finden Sie in diesem Codebeispiel zum Extrahieren von Daten aus PDF in C#.

Die Ausgabe kann auch in einer CSV-Datei gespeichert werden, die später für weitere Datenanalysen formatiert und bearbeitet werden kann. Der Code lautet wie folgt:

using (StreamWriter file = new StreamWriter("table_example.csv", false))
{
    string [] textList = text.Split("\n");
    foreach (string textItem in textList)
    {
        if (textItem.Contains("."))
        {
            continue;
        }
        else
        {
            file.WriteLine(textItem);
        }
    }
}
using (StreamWriter file = new StreamWriter("table_example.csv", false))
{
    string [] textList = text.Split("\n");
    foreach (string textItem in textList)
    {
        if (textItem.Contains("."))
        {
            continue;
        }
        else
        {
            file.WriteLine(textItem);
        }
    }
}

Die Ausgabe wird in einer CSV-Datei gespeichert, wobei jedes textItem eine Spalte darstellt.

Zusammenfassung

Dieser Artikel zeigt, wie man mit IronPDF Daten und Tabellen aus einem PDF-Dokument extrahiert. IronPDF bietet mehrere nützliche Optionen für die Extraktion von Text aus PDF-Dateien. Es bietet die ExtractTextFromPage-Methode, die die Extraktion von Daten aus einer bestimmten Seite ermöglicht. IronPDF ermöglicht auch die Umwandlung verschiedener Formate in PDF, wie zum Beispiel Markdown-Dateien oder DOCX-Dateien und von PDF in verschiedene Formate. Dies macht es Entwicklern leicht, PDF-Funktionen in die Anwendungsentwicklung zu integrieren. Außerdem benötigt es keinen Adobe Acrobat Reader, um PDF-Dokumente anzuzeigen und zu bearbeiten.

IronPDF ist für die Entwicklung kostenlos und kann für die kommerzielle Nutzung lizenziert werden. Es bietet eine kostenlose Testlizenz für die Erprobung von IronPDF, um die volle Funktionalität der Bibliothek zu testen. Ausführlichere Informationen finden Sie unter diesem Link.

Regan Pun
Software-Ingenieur
Regan schloss sein Studium an der University of Reading mit einem BA in Elektrotechnik ab. Bevor er zu Iron Software kam, konzentrierte er sich in seinen früheren Jobs auf einzelne Aufgaben. Was ihm bei Iron Software am meisten Spaß macht, ist das Spektrum der Aufgaben, die er übernehmen kann, sei es im Vertrieb, im technischen Support, in der Produktentwicklung oder im Marketing. Es macht ihm Spaß, die Art und Weise zu verstehen, wie Entwickler die Bibliothek von Iron Software nutzen, und dieses Wissen zu nutzen, um die Dokumentation und die Produkte kontinuierlich zu verbessern.
< PREVIOUS
QR-Code in PDF umwandeln
NÄCHSTES >
PDF Viewer C# Windows Anwendung (Tutorial)