using IronPdf; // Disable local disk access or cross-origin requests Installation.EnableWebSecurity = true; // Instantiate Renderer var renderer = new ChromePdfRenderer(); // Create a PDF from a HTML string using C# var pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>"); // Export to a file or Stream pdf.SaveAs("output.pdf"); // Advanced Example with HTML Assets // Load external html assets: Images, CSS and JavaScript. // An optional BasePath 'C:\site\assets\' is set as the file location to load assets from var myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", @"C:\site\assets\"); myAdvancedPdf.SaveAs("html-with-assets.pdf");

IRONPDF VERWENDEN

Extrahieren von Daten aus PDF-Dateien in C#

Regan Pun

26. Juni 2022

Aktualisiert 21. Januar 2024

Teilen Sie:

Einführung

Ihr Unternehmen gibt zu viel für jährliche Abonnements für PDF-Sicherheit und -Compliance aus. Betrachten IronSecureDoc, das Lösungen zur Verwaltung von SaaS-Diensten wie digitale Signatur, Redaktion, Verschlüsselung und Schutz bietet, alles gegen eine einmalige Zahlung. Erfahren Sie mehr über IronSecureDoc

Das Extrahieren von Daten aus PDFs ist entscheidend, um Zeit bei der manuellen Eingabe zu sparen. Dieser Artikel erklärt, wie Entwickler die IronPDF-Bibliothek verwenden können, umtext und Bilder extrahieren aus PDF-Dokumenten.

Extrahieren von Daten aus PDF-Dateien in C#

Herunterladen der C#-Bibliothek Extract Data from PDF
Ein neues Projekt in Visual Studio erstellen
Bibliothek in Ihr Projekt installieren
Extrahieren Sie die Daten von bestimmten Seiten und extrahieren Sie bestimmte aus PDF
Datenausgabe aus PDF-Dokument anzeigen

IronPDF: C# PDF-Bibliothek

IronPDF ist eine .NET-Bibliothek, die zum Erstellen, Bearbeiten und Konvertieren von PDF-Dateien verwendet werden kann. Es bietet eine benutzerfreundliche API, die Entwickler in ihren Anwendungen verwenden können. Es ist eine der beliebtesten Bibliotheken zum Erstellen, Bearbeiten und Konvertieren von PDF-Dateien weltweit. Mit IronPDF können Sie eine unkomplizierte und schnelle Lösung für PDFs erstellen. Ihr Text wird individuell angepasst für jedes Dokument,ihr Layout wird für eine einfache Lesbarkeit eingerichtet, und Ihre Grafiken werden mit Hilfe des zugehörigen .NET-Programms gestaltet.

Die IronPDF-Bibliothek bietet eine fantastische Funktion zur Extraktion von Daten aus PDF-Dateien. In diesem Artikel geht es darum, wie man mit IronPDF Daten extrahieren kann. Zunächst muss ein C#-Projekt erstellt oder geöffnet werden. Fahren wir mit dem nächsten Abschnitt fort.

Erstellen oder Öffnen eines C#-Projekts in Visual Studio

In diesem Tutorial wird empfohlen, die neueste Version von Visual Studio zu verwenden.

Sobald Visual Studio geöffnet ist, folgen Sie den nachstehenden Schritten, um ein neues C#-Projekt zu erstellen. Wenn Sie ein bestehendes Projekt verwenden möchten, überspringen Sie diese Schritte und fahren Sie direkt mit dem nächsten Abschnitt fort.

Visual Studio öffnen
Klicken Sie auf die Schaltfläche "Ein neues Projekt erstellen".

Visual Studio öffnet UI
Wählen Sie die "C#-Konsolenanwendung" aus den Vorlagen aus.

Ein neues Projekt erstellen
Geben Sie dem Projekt einen Namen und klicken Sie auf die Schaltfläche Next.
Wählen Sie ein .NET Framework, das den Anforderungen Ihres Projekts entspricht, und klicken Sie auf die Schaltfläche Erstellen.

.NET-Framework-Auswahl

Visual Studio erzeugt nun ein neues C# .NET-Projekt.

Installieren Sie die IronPDF-Bibliothek

Die IronPDF-Bibliothek kann auf verschiedene Arten installiert werden.

Paketmanager-Konsole verwenden

Öffnen Sie die Paketmanager-Konsole, indem Sie zu Tools > NuGet Package Manager > Paketmanager-Konsole gehen.
Führen Sie den folgenden Befehl aus:

Install-Package IronPdf

Extrahieren von Daten aus PDFs in C#, Abbildung 4: Installationsfortschritt auf der Registerkarte der Paketmanager-Konsole

Installationsfortschritt auf der Registerkarte der Paketmanager-Konsole

Nach der Installation sehen Sie die IronPDF-Abhängigkeit im Abschnitt "Abhängigkeiten" des Projektmappen-Explorers, wie unten dargestellt.

Extrahieren von Daten aus PDFs in C#, Abbildung 5: Verweis auf das IronPDF-Paket im Solution Explorer

Referenzieren Sie das IronPDF-Paket im Solution Explorer

Verwendung des NuGet-Paketmanagers

Eine andere Möglichkeit, die IronPDF-Bibliothek zu installieren, ist die Verwendung der in Visual Studio integrierten NuGet-Paketmanager-Benutzeroberfläche.

Gehen Sie über das Hauptmenü zu den Tools. Bewegen Sie den Mauszeiger auf "NuGet Package Manager" aus dem Dropdown-Menü und wählen Sie die "NuGet Package Manager Solution".

Navigieren Sie zu NuGet Package Manager
Dadurch wird das Fenster NuGet Package Manager geöffnet. Gehen Sie auf die Registerkarte Durchsuchen, geben Sie IronPdf in die Suche ein und drücken Sie die Eingabetaste.
Wählen Sie IronPDF aus den Suchergebnissen aus und klicken Sie auf die Schaltfläche "Installieren", um die Installation zu starten.

Installieren Sie das IronPDF-Paket über den NuGet-Paketmanager

Daten aus PDF-Dateien extrahieren

Schauen wir uns den folgenden Code an, wie man mit IronPDF Daten extrahiert:

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}

'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing

'  Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private PdfDocument As using

'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()

'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()

'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim PageNumber As Integer = index + 1
	Dim Text As String = pdf.ExtractTextFromPage(index)
	Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
	'''...
Next index

Erstens, dievonDatei methode wird verwendet, um das eingegebene PDF-Dokument in das Programm zu laden. Es wird eine verschlüsselte PDF-Datei bereitgestellt, für die ein Kennwort erforderlich ist, um auf die Datei zuzugreifen. Anschließend werden die Textdaten mit Hilfe desextractAllText methode, um alle Textdaten in eine String-Variable zu ziehen. Von hier aus bietet PdfDocument eine Vielzahl von Funktionen:als reinen Text ausgebenin eine TXT-Datei ausgeben, in einer Datenbank speichern usw.

IronPDF kanntext aus PDF-Tabellen extrahieren zur Aufnahme in eine oder mehrereCSV-Dateien.

In Zeile 11 wird dieextractAllImages methode, um alle eingebetteten Bilder aus dem PDF-Dokument zu extrahieren.

IronPDF kann auch Inhalte aus bestimmten PDF-Seiten extrahieren. Die verbleibenden Codezeilen des obigen Beispiels zeigen, wie man dieextrahiereTextVonSeite undextrahiereBilderVonSeite methoden, um den Text und die Bilder von einer Teilmenge der Seiten abzurufen. Beide Methoden akzeptieren ein ganzzahliges Argument, das den nullbasierten Index der gewünschten Seite darstellt.

Schlussfolgerung

IronPDF ermöglicht es Entwicklern, Text und Bilder aus PDF-Dateien in nur einer Zeile Code zu extrahieren. Mit ExtractAllText und ExtractAllImages kann der gesamte Inhalt einer PDF-Datei sofort extrahiert werden. Alternativ können Sie auch ExtractAllImage oder ExtractAllText aufrufen, um Text und Bilder von nur einer bestimmten PDF-Seite zu holen. Das vorangegangene Codebeispiel zeigte, wie beide Methoden verwendet werden können, um Text und Bilder aus einer Reihe von Seiten zu lesen.

Darüber hinaus kann IronPDF auchrendering-Diagramme in PDFs,hinzufügen von Barcodes, erhöhung der Sicherheit durch Passwörter undwasserzeichenund sogarumgang mit PDF-Formularen programmatisch.

IronPDF ist für die Entwicklung völlig kostenlos. Während die kommerzielle Nutzung kostenpflichtig ist, können Sie diekostenlose Testversion von IronPDF für die Produktion ohne jegliche Bezahlung.

Kaufen Sie dievollständige Suite der Dokumentenbibliotheken von Iron Software zum Preis von zweiIronPDF Lite Lizenzen.

HerunterladenIronPDF jetzt um noch heute mit der Extraktion von Daten aus PDFs zu beginnen!

Regan Pun

Jetzt mit dem Ingenieurteam chatten

Software-Ingenieur

Regan schloss sein Studium an der University of Reading mit einem BA in Elektrotechnik ab. Bevor er zu Iron Software kam, konzentrierte er sich in seinen früheren Jobs auf einzelne Aufgaben. Was ihm bei Iron Software am meisten Spaß macht, ist das Spektrum der Aufgaben, die er übernehmen kann, sei es im Vertrieb, im technischen Support, in der Produktentwicklung oder im Marketing. Es macht ihm Spaß, die Art und Weise zu verstehen, wie Entwickler die Bibliothek von Iron Software nutzen, und dieses Wissen zu nutzen, um die Dokumentation und die Produkte kontinuierlich zu verbessern.

< PREVIOUS
C# Text aus PDF extrahieren (Code-Beispiel-Tutorial)

NÄCHSTES >
Hinzufügen von Seitenzahlen in PDF mit C#