IRONPDF VERWENDEN

Extrahieren von Daten aus PDF-Dateien in C#

Aktualisiert 21. Januar 2024
Teilen Sie:

Einführung

Das Extrahieren von Daten aus PDFs ist entscheidend, um Zeit bei der manuellen Eingabe zu sparen. Dieser Artikel erklärt, wie Entwickler die IronPDF-Bibliothek verwenden können, um text und Bilder extrahieren aus PDF-Dokumenten.

IronPDF: C# PDF-Bibliothek

IronPDF ist eine .NET-Bibliothek, die zum Erstellen, Bearbeiten und Konvertieren von PDF-Dateien verwendet werden kann. Es bietet eine benutzerfreundliche API, die Entwickler in ihren Anwendungen verwenden können. Es ist eine der beliebtesten Bibliotheken zum Erstellen, Bearbeiten und Konvertieren von PDF-Dateien weltweit. Mit IronPDF können Sie eine unkomplizierte und schnelle Lösung für PDFs erstellen. Ihr Text wird individuell angepasst für jedes Dokument, ihr Layout wird für eine einfache Lesbarkeit eingerichtet, und Ihre Grafiken werden mit Hilfe des zugehörigen .NET-Programms gestaltet.

Die IronPDF-Bibliothek bietet eine fantastische Funktion zur Extraktion von Daten aus PDF-Dateien. In diesem Artikel geht es darum, wie man mit IronPDF Daten extrahieren kann. Zunächst muss ein C#-Projekt erstellt oder geöffnet werden. Fahren wir mit dem nächsten Abschnitt fort.

Erstellen oder Öffnen eines C#-Projekts in Visual Studio

In diesem Tutorial wird empfohlen, die neueste Version von Visual Studio zu verwenden.

Sobald Visual Studio geöffnet ist, folgen Sie den nachstehenden Schritten, um ein neues C#-Projekt zu erstellen. Wenn Sie ein bestehendes Projekt verwenden möchten, überspringen Sie diese Schritte und fahren Sie direkt mit dem nächsten Abschnitt fort.

  • Visual Studio öffnen
  • Klicken Sie auf die Schaltfläche "Ein neues Projekt erstellen".

    Extrahieren von Daten aus PDFs in C#, Abbildung 1: Visual Studio öffnet die Benutzeroberfläche

    Visual Studio öffnet UI

  • Wählen Sie die "C#-Konsolenanwendung" aus den Vorlagen aus.

    Extrahieren von Daten aus PDFs in C#, Abbildung 2: Erstellen eines neuen Projekts

    Ein neues Projekt erstellen

  • Geben Sie dem Projekt einen Namen und klicken Sie auf die Schaltfläche Next.
  • Wählen Sie das .NET-Framework entsprechend den Anforderungen Ihres Projekts aus und klicken Sie auf die Schaltfläche Erstellen.

    Wie man Daten aus PDFs in C# extrahiert, Abbildung 3: .NET-Framework Auswahl

    .NET-Framework-Auswahl

    Visual Studio erzeugt nun ein neues C# .NET-Projekt.

Installieren Sie die IronPDF-Bibliothek

Die IronPDF-Bibliothek kann auf verschiedene Arten installiert werden.

Paketmanager-Konsole verwenden

  • Öffnen Sie die Paketmanager-Konsole, indem Sie zu Tools > NuGet Package Manager > Paketmanager-Konsole gehen.
  • Führen Sie den folgenden Befehl aus:
Install-Package IronPdf

Extrahieren von Daten aus PDFs in C#, Abbildung 4: Installationsfortschritt auf der Registerkarte der Paketmanager-Konsole

Installationsfortschritt auf der Registerkarte der Paketmanager-Konsole

Nach der Installation sehen Sie die IronPDF-Abhängigkeit im Abschnitt "Abhängigkeiten" des Projektmappen-Explorers, wie unten dargestellt.

Extrahieren von Daten aus PDFs in C#, Abbildung 5: Verweis auf das IronPDF-Paket im Solution Explorer

Referenzieren Sie das IronPDF-Paket im Solution Explorer

Verwendung des NuGet-Paketmanagers

Eine andere Möglichkeit, die IronPDF-Bibliothek zu installieren, ist die Verwendung der in Visual Studio integrierten NuGet-Paketmanager-Benutzeroberfläche.

  • Gehen Sie über das Hauptmenü zu den Tools. Bewegen Sie den Mauszeiger auf "NuGet Package Manager" aus dem Dropdown-Menü und wählen Sie die "NuGet Package Manager Solution".

    Extrahieren von Daten aus PDFs in C#, Abbildung 6: Navigieren zu NuGet Package Manager

    Navigieren Sie zu NuGet Package Manager

  • Dadurch wird das Fenster NuGet Package Manager geöffnet. Gehen Sie auf die Registerkarte Durchsuchen, geben Sie IronPdf in die Suche ein und drücken Sie die Eingabetaste.
  • Wählen Sie IronPDF aus den Suchergebnissen aus und klicken Sie auf die Schaltfläche "Installieren", um die Installation zu starten.

    Extrahieren von Daten aus PDFs in C#, Abbildung 7: Installieren Sie das IronPDF-Paket über den NuGet-Paketmanager

    Installieren Sie das IronPDF-Paket über den NuGet-Paketmanager

Daten aus PDF-Dateien extrahieren

Schauen wir uns den folgenden Code an, wie man mit IronPDF Daten extrahiert:

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}
'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing

'  Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private PdfDocument As using

'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()

'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()

'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim PageNumber As Integer = index + 1
	Dim Text As String = pdf.ExtractTextFromPage(index)
	Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
	'''...
Next index
VB   C#

Erstens, die vonDatei methode wird verwendet, um das eingegebene PDF-Dokument in das Programm zu laden. Es wird eine verschlüsselte PDF-Datei bereitgestellt, für die ein Kennwort erforderlich ist, um auf die Datei zuzugreifen. Anschließend werden die Textdaten mit Hilfe des extractAllText methode, um alle Textdaten in eine String-Variable zu ziehen. Von hier aus bietet PdfDocument eine Vielzahl von Funktionen: als reinen Text ausgebenin eine TXT-Datei ausgeben, in einer Datenbank speichern usw.

IronPDF kann text aus PDF-Tabellen extrahieren zur Aufnahme in eine oder mehrere CSV-Dateien.

In Zeile 11 wird die extractAllImages methode, um alle eingebetteten Bilder aus dem PDF-Dokument zu extrahieren.

IronPDF kann auch Inhalte aus bestimmten PDF-Seiten extrahieren. Die verbleibenden Codezeilen des obigen Beispiels zeigen, wie man die extrahiereTextVonSeite und extrahiereBilderVonSeite methoden, um den Text und die Bilder von einer Teilmenge der Seiten abzurufen. Beide Methoden akzeptieren ein ganzzahliges Argument, das den nullbasierten Index der gewünschten Seite darstellt.

Schlussfolgerung

IronPDF ermöglicht es Entwicklern, Text und Bilder aus PDF-Dateien in nur einer Zeile Code zu extrahieren. Mit ExtractAllText und ExtractAllImages kann der gesamte Inhalt einer PDF-Datei sofort extrahiert werden. Alternativ können Sie auch ExtractAllImage oder ExtractAllText aufrufen, um Text und Bilder von nur einer bestimmten PDF-Seite zu holen. Das vorangegangene Codebeispiel zeigte, wie beide Methoden verwendet werden können, um Text und Bilder aus einer Reihe von Seiten zu lesen.

Darüber hinaus kann IronPDF auch rendering-Diagramme in PDFs, hinzufügen von Barcodes, erhöhung der Sicherheit durch Passwörter und wasserzeichenund sogar umgang mit PDF-Formularen programmatisch.

IronPDF ist für die Entwicklung völlig kostenlos. Während die kommerzielle Nutzung kostenpflichtig ist, können Sie die kostenloser Test für die Produktion ohne jegliche Bezahlung.

Kaufen Sie die vollständige Suite von Iron Softwares Dokumentenbibliotheken zum Preis von zwei ironPDF Lite-Lizenzen.

Herunterladen IronPDF um noch heute mit der Extraktion von Daten aus PDFs zu beginnen!

< PREVIOUS
C# Text aus PDF extrahieren (Code-Beispiel-Tutorial)
NÄCHSTES >
Hinzufügen von Seitenzahlen in PDF mit C#

Sind Sie bereit, loszulegen? Version: 2024.10 gerade veröffentlicht

Gratis NuGet-Download Downloads insgesamt: 11,308,499 Lizenzen anzeigen >