Zum Fußzeileninhalt springen
IRONPDF NUTZEN

Wie man Daten aus einem PDF in .NET extrahiert

PDF-Dokumente sind überall in Unternehmen; moderne Beispiele sind Rechnungen, Berichte, Verträge und Handbücher. Aber es kann schwierig sein, die wichtigen Informationen daraus programmatisch zu extrahieren. PDFs konzentrieren sich darauf, wie Dinge aussehen, nicht darauf, wie Daten abgerufen werden können.

Für .NET-Entwickler ist IronPDF eine leistungsstarke .NET-PDF-Bibliothek, die das Extrahieren von Daten aus PDF-Dateien erleichtert. Sie können Text, Tabellen, Formularfelder, Bilder und Anhänge direkt aus Eingabe-PDF-Dokumenten abrufen. Ob Sie die Rechnungsverarbeitung automatisieren, eine Wissensdatenbank aufbauen oder Berichte erstellen, diese Bibliothek spart viel Zeit.

Diese Anleitung führt Sie durch praktische Beispiele zur Extraktion von Textinhalten, tabellarischen Daten und Formularfeldwerten, mit Erklärungen nach jedem Codeausschnitt, sodass Sie sie an Ihre eigenen Projekte anpassen können.

Einstieg mit IronPDF

Die Installation von IronPDF dauert Sekunden über den NuGet-Paket-Manager. Öffnen Sie Ihre Package Manager Console und führen Sie aus:

Install-Package IronPdf

Sobald installiert, können Sie sofort mit der Verarbeitung von Eingabe-PDF-Dokumenten beginnen. Hier ist ein minimales .NET-Beispiel, das die Einfachheit der IronPDF-API demonstriert:

using IronPdf;
// Load any PDF document
var pdf = PdfDocument.FromFile("document.pdf");
// Extract all text with one line
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
using IronPdf;
// Load any PDF document
var pdf = PdfDocument.FromFile("document.pdf");
// Extract all text with one line
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Dieser Code lädt ein PDF und extrahiert jeden Text. IronPDF handhabt automatisch komplexe PDF-Strukturen, Formulardaten und Kodierungen, die normalerweise bei anderen Bibliotheken Probleme verursachen. Die extrahierten Daten aus PDF-Dokumenten können in einer Textdatei gespeichert oder weiter zur Analyse verarbeitet werden.

Praktischer Tipp: Sie können den extrahierten Text in einer .txt-Datei zur späteren Verarbeitung speichern oder ihn parsen, um Datenbanken, Excel-Blätter oder Wissensdatenbanken zu füllen. Diese Methode eignet sich gut für Berichte, Verträge oder jedes PDF, bei dem Sie nur schnell den Rohtext benötigen.

Daten aus PDF-Dokumenten extrahieren

Anwendungen aus der realen Welt erfordern oft präzise Datenextraktion. IronPDF bietet mehrere Methoden, um wertvolle Informationen von bestimmten Seiten innerhalb eines PDFs zu extrahieren. Für dieses Beispiel verwenden wir das folgende PDF:

Der folgende Code wird Daten aus bestimmten Seiten innerhalb dieses PDFs extrahieren und die Ergebnisse an unsere Konsole zurückgeben.

using IronPdf;
using System;
// Load any PDF document
var pdf = PdfDocument.FromFile("AnnualReport2024.pdf");
// Extract from selected pages
int[] pagesToExtract = { 0, 2, 4 }; // Pages 1, 3, and 5
foreach (var pageIndex in pagesToExtract)
{
    string pageText = pdf.ExtractTextFromPage(pageIndex);
    // Split on 2 or more spaces (tables often flatten into space-separated values)
    var tokens = Regex.Split(pageText, @"\s{2,}");
    foreach (string token in tokens)
    {
        // Match totals, invoice headers, and invoice rows
        if (token.Contains("Invoice") || token.Contains("Total") || token.StartsWith("INV-"))
        {
            Console.WriteLine($"Important: {token.Trim()}");
        }
    }
}
using IronPdf;
using System;
// Load any PDF document
var pdf = PdfDocument.FromFile("AnnualReport2024.pdf");
// Extract from selected pages
int[] pagesToExtract = { 0, 2, 4 }; // Pages 1, 3, and 5
foreach (var pageIndex in pagesToExtract)
{
    string pageText = pdf.ExtractTextFromPage(pageIndex);
    // Split on 2 or more spaces (tables often flatten into space-separated values)
    var tokens = Regex.Split(pageText, @"\s{2,}");
    foreach (string token in tokens)
    {
        // Match totals, invoice headers, and invoice rows
        if (token.Contains("Invoice") || token.Contains("Total") || token.StartsWith("INV-"))
        {
            Console.WriteLine($"Important: {token.Trim()}");
        }
    }
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Dieses Beispiel zeigt, wie man Text aus PDF-Dokumenten extrahiert, nach Schlüsselinformationen sucht und es auf die Speicherung in Datendateien oder eine Wissensdatenbank vorbereitet. Die Methode ExtractTextFromPage() behält die Leserichtung des Dokuments bei, was sie perfekt für Dokumentenanalyse- und Inhaltsindizierungsaufgaben macht.

Tabellendaten aus PDF-Dokumenten extrahieren

Tabellen in PDF-Dateien haben keine native Struktur; sie sind einfach Textinhalte, die so positioniert sind, dass sie wie Tabellen aussehen. IronPDF extrahiert tabellarische Daten unter Wahrung der Layouts, sodass Sie diese in Excel- oder Textdateien verarbeiten können. Für dieses Beispiel verwenden wir dieses PDF:

using IronPdf;
using System.Text;
using System.Text.RegularExpressions;
var pdf = PdfDocument.FromFile("example.pdf");
string rawText = pdf.ExtractAllText();
// Split into lines for processing
string[] lines = rawText.Split('\n');
var csvBuilder = new StringBuilder();
foreach (string line in lines)
{
    if (string.IsNullOrWhiteSpace(line) || line.Contains("Page"))
        continue;
    string[] rawCells = Regex.Split(line.Trim(), @"\s+");
    string[] cells;
    // If the line starts with "Product", combine first two tokens as product name
    if (rawCells[0].StartsWith("Product") && rawCells.Length >= 5)
    {
        cells = new string[rawCells.Length - 1];
        cells[0] = rawCells[0] + " " + rawCells[1]; // Combine Product + letter
        Array.Copy(rawCells, 2, cells, 1, rawCells.Length - 2);
    }
    else
    {
        cells = rawCells;
    }
    // Keep header or table rows
    bool isTableOrHeader = cells.Length >= 2
                           && (cells[0].StartsWith("Item") || cells[0].StartsWith("Product")
                               || Regex.IsMatch(cells[0], @"^INV-\d+"));
    if (isTableOrHeader)
    {
        Console.WriteLine($"Row: {string.Join("|", cells)}");
        string csvRow = string.Join(",", cells).Trim();
        csvBuilder.AppendLine(csvRow);
    }
}
// Save as CSV for Excel import
File.WriteAllText("extracted_table.csv", csvBuilder.ToString());
Console.WriteLine("Table data exported to CSV");
using IronPdf;
using System.Text;
using System.Text.RegularExpressions;
var pdf = PdfDocument.FromFile("example.pdf");
string rawText = pdf.ExtractAllText();
// Split into lines for processing
string[] lines = rawText.Split('\n');
var csvBuilder = new StringBuilder();
foreach (string line in lines)
{
    if (string.IsNullOrWhiteSpace(line) || line.Contains("Page"))
        continue;
    string[] rawCells = Regex.Split(line.Trim(), @"\s+");
    string[] cells;
    // If the line starts with "Product", combine first two tokens as product name
    if (rawCells[0].StartsWith("Product") && rawCells.Length >= 5)
    {
        cells = new string[rawCells.Length - 1];
        cells[0] = rawCells[0] + " " + rawCells[1]; // Combine Product + letter
        Array.Copy(rawCells, 2, cells, 1, rawCells.Length - 2);
    }
    else
    {
        cells = rawCells;
    }
    // Keep header or table rows
    bool isTableOrHeader = cells.Length >= 2
                           && (cells[0].StartsWith("Item") || cells[0].StartsWith("Product")
                               || Regex.IsMatch(cells[0], @"^INV-\d+"));
    if (isTableOrHeader)
    {
        Console.WriteLine($"Row: {string.Join("|", cells)}");
        string csvRow = string.Join(",", cells).Trim();
        csvBuilder.AppendLine(csvRow);
    }
}
// Save as CSV for Excel import
File.WriteAllText("extracted_table.csv", csvBuilder.ToString());
Console.WriteLine("Table data exported to CSV");
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Tabellen in PDFs sind normalerweise nur Text, der so positioniert ist, dass er wie ein Raster aussieht. Diese Überprüfung hilft zu bestimmen, ob eine Zeile zu einer Tabellenzeile oder einem -header gehört. Indem Sie Header, Footer und nicht verwandten Text herausfiltern, können Sie saubere tabellarische Daten aus einem PDF extrahieren, und sie werden bereit für CSV oder Excel sein.

Dieser Workflow funktioniert für PDF-Formulare, Finanzdokumente und Berichte. Sie können später die Daten aus PDFs in xlsx-Dateien konvertieren oder sie in eine ZIP-Datei zusammenführen, die alle nützlichen Daten enthält. Für komplexe Tabellen mit zusammengeführten Zellen müssen Sie möglicherweise die Parsing-Logik basierend auf den Spaltenpositionen anpassen.

Wie man Daten aus einem PDF in .NET extrahiert: Abbildung 5 - Extrahierte Tabellendaten

Formulardaten aus PDFs extrahieren

IronPDF ermöglicht auch die Extraktion und Bearbeitung von Formulardaten:

using IronPdf;
using System.Drawing;
using System.Linq;
var pdf = PdfDocument.FromFile("form_document.pdf");
// Extract form field data
var form = pdf.Form;
foreach (var field in form) // Removed '.Fields' as 'FormFieldCollection' is enumerable
{
    Console.WriteLine($"{field.Name}: {field.Value}");
    // Update form values if needed
    if (field.Name == "customer_name")
    {
        field.Value = "Updated Value";
    }
}
// Save modified form
pdf.SaveAs("updated_form.pdf");
using IronPdf;
using System.Drawing;
using System.Linq;
var pdf = PdfDocument.FromFile("form_document.pdf");
// Extract form field data
var form = pdf.Form;
foreach (var field in form) // Removed '.Fields' as 'FormFieldCollection' is enumerable
{
    Console.WriteLine($"{field.Name}: {field.Value}");
    // Update form values if needed
    if (field.Name == "customer_name")
    {
        field.Value = "Updated Value";
    }
}
// Save modified form
pdf.SaveAs("updated_form.pdf");
IRON VB CONVERTER ERROR developers@ironsoftware.com
$vbLabelText   $csharpLabel

Dieses Snippet extrahiert Formularfeldwerte aus PDFs und lässt Sie diese programmatisch aktualisieren. Dies erleichtert die Verarbeitung von PDF-Formularen und die Extraktion festgelegter Informationen zur Analyse oder Berichtserstellung. Dies ist nützlich zur Automatisierung von Arbeitsabläufen wie Kundeneinführung, Umfrageverarbeitung oder Datenvalidierung.

Wie man Daten aus einem PDF in .NET extrahiert: Abbildung 6 - Extrahierte Formulardaten und das aktualisierte Formular

Nächste Schritte

IronPDF macht die Datenextraktion aus PDFs in .NET praktisch und effizient. Sie können Bilder, Text, Tabellen, Formularfelder und sogar Anhänge aus einer Vielzahl von PDF-Dokumenten extrahieren, einschließlich gescannter PDFs, die normalerweise zusätzliche OCR-Verarbeitung erfordern.

Ob Ihr Ziel der Aufbau einer Wissensdatenbank, die Automatisierung von Berichtserstellungsabläufen oder die Extraktion von Daten aus Finanz-PDFs ist, diese Bibliothek gibt Ihnen die Werkzeuge an die Hand, um dies ohne manuelle Kopie oder fehleranfälliges Parsen zu erreichen. Es ist einfach, schnell und integriert sich direkt in Visual Studio-Projekte. Probieren Sie es aus, Sie werden höchstwahrscheinlich viel Zeit sparen und die üblichen Kopfschmerzen beim Arbeiten mit PDFs vermeiden.

Starten Sie jetzt mit IronPDF.
green arrow pointer

Bereit, PDF-Datenextraktion in Ihre Anwendungen zu integrieren? Klingt IronPDF nach der .NET-Bibliothek für Sie? Starten Sie Ihre kostenlose Testversion für die kommerzielle Nutzung. Besuchen Sie unsere Dokumentation für umfassende Anleitungen und API-Referenzen.

Häufig gestellte Fragen

Was ist die beste Methode, um Text aus PDF-Dokumenten mit .NET zu extrahieren?

Mit IronPDF können Sie leicht Text aus PDF-Dokumenten in .NET-Anwendungen extrahieren. Es bietet Methoden, um Textdaten effizient abzurufen, sodass Sie auf den benötigten Inhalt zugreifen können.

Kann IronPDF gescannte PDFs zur Datenextraktion verarbeiten?

Ja, IronPDF unterstützt OCR (Optische Zeichenerkennung), um Daten aus gescannten PDFs zu verarbeiten und zu extrahieren, was den Zugriff auf Texte sogar in bildbasierten Dokumenten ermöglicht.

Wie kann ich Tabellen aus einem PDF mit C# extrahieren?

IronPDF bietet Funktionen zum Parsen und Extrahieren von Tabellen aus PDF-Dokumenten in C#. Sie können spezielle Methoden verwenden, um Tabellendaten genau zu identifizieren und abzurufen.

Welche Vorteile bietet die Verwendung von IronPDF für die PDF-Datenextraktion?

IronPDF bietet eine umfassende Lösung zur PDF-Datenextraktion, einschließlich der Texterfassung, des Tabellenparsens und des OCRs für gescannte Dokumente. Es integriert sich nahtlos in .NET-Anwendungen und bietet eine zuverlässige und effiziente Möglichkeit, PDF-Daten zu verarbeiten.

Ist es möglich, Bilder aus einem PDF mit IronPDF zu extrahieren?

Ja, IronPDF ermöglicht es, Bilder aus PDFs zu extrahieren. Diese Funktion ist nützlich, wenn Sie auf in PDF-Dokumenten eingebettete Bilder zugreifen und diese manipulieren müssen.

Wie geht IronPDF bei der Datenextraktion mit komplexen PDF-Layouts um?

IronPDF ist so konzipiert, dass es komplexe PDF-Layouts verwalten kann, indem es robuste Werkzeuge bietet, um Daten zu navigieren und zu extrahieren, sodass Sie Dokumente mit komplexen Formatierungen und Strukturen handhaben können.

Kann ich die PDF-Datenextraktion in einer .NET-Anwendung automatisieren?

Absolut. IronPDF kann in .NET-Anwendungen integriert werden, um die PDF-Datenextraktion zu automatisieren, was Prozesse rationalisiert, die regelmäßige und konsistente Datenabfragen erfordern.

Welche Programmiersprachen kann ich mit IronPDF zur PDF-Datenextraktion verwenden?

IronPDF wird hauptsächlich mit C# im .NET-Framework verwendet und bietet umfassende Unterstützung und Funktionalität für Entwickler, die programmgesteuert Daten aus PDFs extrahieren möchten.

Unterstützt IronPDF das Extrahieren von Metadaten aus PDF-Dokumenten?

Ja, IronPDF kann Metadaten aus PDF-Dokumenten extrahieren, sodass Sie auf Informationen wie den Autor, das Erstellungsdatum und andere Dokumenteigenschaften zugreifen können.

Welche Beispielcodes sind verfügbar, um PDF-Datenextraktion mit IronPDF zu lernen?

Das Entwicklerhandbuch bietet vollständige C#-Tutorials mit funktionierenden Codebeispielen, um Ihnen zu helfen, die PDF-Datenextraktion mit IronPDF in Ihren .NET-Anwendungen zu meistern.

Ist IronPDF vollständig mit der neuen .NET 10-Version kompatibel und welche Vorteile ergeben sich daraus für die Datenextraktion?

Ja – IronPDF ist vollständig kompatibel mit .NET 10 und unterstützt alle Leistungs-, API- und Laufzeitverbesserungen wie reduzierte Heap-Speicherbelegung, Devirtualisierung der Array-Schnittstelle und erweiterte Sprachfunktionen. Diese Verbesserungen ermöglichen schnellere und effizientere Workflows zur PDF-Datenextraktion in C#-Anwendungen.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen