IRONPDF VERWENDEN

Extrahieren von Daten aus PDF-Dateien in C#

Einführung

Das Extrahieren von Daten aus PDFs ist entscheidend, um Zeit bei der manuellen Eingabe zu sparen. In diesem Artikel wird erklärt, wie Entwickler die IronPDF-Bibliothek verwenden können, um Text und Bilder aus PDF-Dokumenten zu extrahieren.

IronPDF: C# PDF-Bibliothek

IronPDF ist eine .NET-Bibliothek, die verwendet werden kann, um PDF-Dateien zu erstellen, zu bearbeiten und zu konvertieren. Es bietet eine benutzerfreundliche API, die Entwickler in ihren Anwendungen verwenden können. Es ist eine der beliebtesten Bibliotheken zum Erstellen, Bearbeiten und Konvertieren von PDF-Dateien weltweit. Mit IronPDF können Sie eine unkomplizierte und schnelle Lösung für PDFs erstellen. Ihr Text wird angepasst für jedes Dokument, Ihr Layout wird für einfaches Lesen eingerichtet, und Ihre Grafiken werden mit Hilfe des begleitenden .NET-Programms gestaltet.

Die IronPDF-Bibliothek bietet eine fantastische Funktion zur Extraktion von Daten aus PDF-Dateien. In diesem Artikel geht es darum, wie man mit IronPDF Daten extrahieren kann. Zunächst muss ein C#-Projekt erstellt oder geöffnet werden. Fahren wir mit dem nächsten Abschnitt fort.

Erstellen oder öffnen Sie ein C#-Projekt in Visual Studio

In diesem Tutorial wird empfohlen, die neueste Version von Visual Studio zu verwenden.

Sobald Visual Studio geöffnet ist, folgen Sie den nachstehenden Schritten, um ein neues C#-Projekt zu erstellen. Wenn Sie ein bestehendes Projekt verwenden möchten, überspringen Sie diese Schritte und fahren Sie direkt mit dem nächsten Abschnitt fort.

  • Visual Studio öffnen
  • Klicken Sie auf die Schaltfläche "Ein neues Projekt erstellen".

    Wie man Daten aus PDFs in C# extrahiert, Abbildung 1: Öffnende Benutzeroberfläche von Visual Studio

    Öffnen von Visual Studio-Benutzeroberfläche

  • Wählen Sie die "C#-Konsolenanwendung" aus den Vorlagen aus.

    Wie man Daten aus PDFs in C# extrahiert, Abbildung 2: Ein neues Projekt erstellen

    Ein neues Projekt erstellen

  • Geben Sie dem Projekt einen Namen und klicken Sie auf die Schaltfläche Weiter.
  • Wählen Sie ein .NET Framework entsprechend den Anforderungen Ihres Projekts aus und klicken Sie auf die Schaltfläche Erstellen.

    Wie man Daten aus PDFs in C# extrahiert, Abbildung 3: Auswahl des .NET Frameworks

    Auswahl des .NET Frameworks

    Visual Studio erzeugt nun ein neues C# .NET-Projekt.

Installieren Sie die IronPDF-Bibliothek

Die IronPDF-Bibliothek kann auf verschiedene Arten installiert werden.

Paketmanager-Konsole verwenden

  • Öffnen Sie die Package Manager-Konsole, indem Sie zu Tools > NuGet-Paket-Manager > Package Manager-Konsole navigieren.
  • Führen Sie den folgenden Befehl aus:
Install-Package IronPdf

Wie man Daten aus PDFs in C# extrahiert, Abbildung 4: Installationsfortschritt im Register der Package Manager Console

Installationsfortschritt im Paket-Manager-Konsole-Tab

Nach der Installation sehen Sie die IronPDF-Abhängigkeit im dependencies-Abschnitt des Solution Explorers, wie unten gezeigt.

Wie man Daten aus PDFs in C\# extrahiert, Abbildung 5: IronPdf-Paket im Solution Explorer referenzieren

IronPdf-Paket im Solution Explorer referenzieren

Verwendung des NuGet-Paketmanagers

Eine andere Möglichkeit, die IronPDF-Bibliothek zu installieren, ist die Verwendung der in Visual Studio integrierten NuGet-Paketmanager-Benutzeroberfläche.

  • Gehen Sie über das Hauptmenü zu den Tools. Bewegen Sie den Mauszeiger auf "NuGet Package Manager" aus dem Dropdown-Menü und wählen Sie die "NuGet Package Manager Solution".

    Wie man Daten aus PDFs in C# extrahiert, Abbildung 6: Navigieren Sie zum NuGet-Paket-Manager

    Zu NuGet-Paket-Manager navigieren

  • Dadurch wird das Fenster NuGet Package Manager geöffnet. Gehen Sie zur Registerkarte Durchsuchen, geben Sie IronPdf in das Suchfeld ein und drücken Sie die Eingabetaste.
  • Wählen Sie IronPDF aus den Suchergebnissen aus und klicken Sie auf die Schaltfläche "Installieren", um die Installation zu starten.

    Wie man Daten aus PDFs in C# extrahiert, Abbildung 7: Installieren Sie das IronPdf-Paket vom NuGet-Paket-Manager

    Installieren Sie das IronPdf-Paket über den NuGet-Paket-Manager

Daten aus PDF-Dateien extrahieren

Schauen wir uns den folgenden Code an, wie man mit IronPDF Daten extrahiert:

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}
'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing

'  Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private PdfDocument As using

'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()

'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()

'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim PageNumber As Integer = index + 1
	Dim Text As String = pdf.ExtractTextFromPage(index)
	Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
	'''...
Next index
$vbLabelText   $csharpLabel

Zunächst wird die FromFile-Methode verwendet, um das Eingabe-PDF-Dokument im Programm zu laden. Eine verschlüsselte PDF-Datei wird bereitgestellt, die ein Passwort benötigt, um auf die Datei zuzugreifen. Anschließend werden Textdaten mit der ExtractAllText-Methode extrahiert, um alle Textdaten in eine String-Variable zu ziehen. Von hier aus bietet PdfDocument viele Funktionen: als einfachen Text ausgeben, es in eine TXT-Datei werfen, in einer Datenbank speichern usw.

IronPDF kann Text aus PDF-Tabellen extrahieren zur Aufnahme in eine oder mehrere CSV-Dateien.

Zeile 11 verwendet die ExtractAllImages-Methode, um alle eingebetteten Bilder aus dem PDF-Dokument zu extrahieren.

IronPDF kann auch Inhalte aus bestimmten PDF-Seiten extrahieren. Die verbleibenden Codezeilen im obigen Beispiel demonstrieren, wie die Methoden ExtractTextFromPage und ExtractImagesFromPage verwendet werden, um Text und Bilder aus einem Teil der Seiten abzurufen. Beide Methoden akzeptieren ein ganzzahliges Argument, das den nullbasierten Index der gewünschten Seite darstellt.

Schlussfolgerung

IronPDF ermöglicht es Entwicklern, Text und Bilder aus PDF-Dateien in nur einer Codezeile zu extrahieren, indem sie ExtractAllText und ExtractAllImages verwenden, um den gesamten Inhalt einer PDF-Datei sofort zu extrahieren. Alternativ ruft das Aufrufen von ExtractAllImage oder ExtractAllText Text und Bilder von nur einer bestimmten PDF-Seite ab. Das vorangegangene Codebeispiel zeigte, wie beide Methoden verwendet werden können, um Text und Bilder aus einer Reihe von Seiten zu lesen.

Zusätzlich ist IronPDF auch in der Lage, Diagramme in PDFs zu rendern, Barcodes hinzuzufügen, die Sicherheit mit Passwörtern zu erhöhen und Wasserzeichen hinzuzufügen und sogar PDF-Formulare programmgesteuert zu bearbeiten.

IronPDF ist für die Entwicklung völlig kostenlos. Während für die kommerzielle Nutzung eine Zahlung erforderlich ist, können Sie auf die kostenlose Testversion von IronPDF für die Produktion zugreifen, ohne eine Zahlung leisten zu müssen.

Kaufen Sie die vollständige Suite von Iron Software's Dokumentbibliotheken zum Preis von zwei IronPDF Lite Lizenzen.

Laden Sie IronPDF jetzt herunter, um noch heute mit der Datenextraktion aus PDFs zu beginnen!

Chipego
Software-Ingenieur
Chipego hat eine natürliche Fähigkeit zum Zuhören, die ihm hilft, Kundenprobleme zu verstehen und intelligente Lösungen anzubieten. Er trat dem Iron Software-Team 2023 bei, nachdem er einen Bachelor of Science in Informationstechnologie erworben hatte. IronPDF und IronOCR sind die beiden Produkte, auf die sich Chipego konzentriert hat, aber sein Wissen über alle Produkte wächst täglich, da er neue Wege findet, Kunden zu unterstützen. Er genießt die Zusammenarbeit bei Iron Software, da Teammitglieder aus dem gesamten Unternehmen ihre unterschiedlichen Erfahrungen einbringen und so zu effektiven, innovativen Lösungen beitragen. Wenn Chipego nicht an seinem Schreibtisch sitzt, kann man ihn oft bei einem guten Buch oder beim Fußballspielen antreffen.
< PREVIOUS
C# Text aus PDF extrahieren (Code-Beispiel-Tutorial)
NÄCHSTES >
Hinzufügen von Seitenzahlen in PDF mit C#