Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
Das Extrahieren von Daten aus PDFs ist entscheidend, um Zeit bei der manuellen Eingabe zu sparen. Dieser Artikel erklärt, wie Entwickler die IronPDF-Bibliothek verwenden können, um text und Bilder extrahieren aus PDF-Dokumenten.
IronPDF ist eine .NET-Bibliothek, die zum Erstellen, Bearbeiten und Konvertieren von PDF-Dateien verwendet werden kann. Es bietet eine benutzerfreundliche API, die Entwickler in ihren Anwendungen verwenden können. Es ist eine der beliebtesten Bibliotheken zum Erstellen, Bearbeiten und Konvertieren von PDF-Dateien weltweit. Mit IronPDF können Sie eine unkomplizierte und schnelle Lösung für PDFs erstellen. Ihr Text wird individuell angepasst für jedes Dokument, ihr Layout wird für eine einfache Lesbarkeit eingerichtet, und Ihre Grafiken werden mit Hilfe des zugehörigen .NET-Programms gestaltet.
Die IronPDF-Bibliothek bietet eine fantastische Funktion zur Extraktion von Daten aus PDF-Dateien. In diesem Artikel geht es darum, wie man mit IronPDF Daten extrahieren kann. Zunächst muss ein C#-Projekt erstellt oder geöffnet werden. Fahren wir mit dem nächsten Abschnitt fort.
In diesem Tutorial wird empfohlen, die neueste Version von Visual Studio zu verwenden.
Sobald Visual Studio geöffnet ist, folgen Sie den nachstehenden Schritten, um ein neues C#-Projekt zu erstellen. Wenn Sie ein bestehendes Projekt verwenden möchten, überspringen Sie diese Schritte und fahren Sie direkt mit dem nächsten Abschnitt fort.
Klicken Sie auf die Schaltfläche "Ein neues Projekt erstellen".
Visual Studio öffnet UI
Wählen Sie die "C#-Konsolenanwendung" aus den Vorlagen aus.
Ein neues Projekt erstellen
Wählen Sie das .NET-Framework entsprechend den Anforderungen Ihres Projekts aus und klicken Sie auf die Schaltfläche Erstellen.
.NET-Framework-Auswahl
Visual Studio erzeugt nun ein neues C# .NET-Projekt.
Die IronPDF-Bibliothek kann auf verschiedene Arten installiert werden.
Install-Package IronPdf
Installationsfortschritt auf der Registerkarte der Paketmanager-Konsole
Nach der Installation sehen Sie die IronPDF-Abhängigkeit im Abschnitt "Abhängigkeiten" des Projektmappen-Explorers, wie unten dargestellt.
Referenzieren Sie das IronPDF-Paket im Solution Explorer
Eine andere Möglichkeit, die IronPDF-Bibliothek zu installieren, ist die Verwendung der in Visual Studio integrierten NuGet-Paketmanager-Benutzeroberfläche.
Gehen Sie über das Hauptmenü zu den Tools. Bewegen Sie den Mauszeiger auf "NuGet Package Manager" aus dem Dropdown-Menü und wählen Sie die "NuGet Package Manager Solution".
Navigieren Sie zu NuGet Package Manager
IronPdf
in die Suche ein und drücken Sie die Eingabetaste.Wählen Sie IronPDF aus den Suchergebnissen aus und klicken Sie auf die Schaltfläche "Installieren", um die Installation zu starten.
Installieren Sie das IronPDF-Paket über den NuGet-Paketmanager
Schauen wir uns den folgenden Code an, wie man mit IronPDF Daten extrahiert:
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing
' Extracting Image and Text content from Pdf Documents
' open a 128 bit encrypted PDF
Private PdfDocument As using
'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()
'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()
'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
Dim PageNumber As Integer = index + 1
Dim Text As String = pdf.ExtractTextFromPage(index)
Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
'''...
Next index
Erstens, die vonDatei methode wird verwendet, um das eingegebene PDF-Dokument in das Programm zu laden. Es wird eine verschlüsselte PDF-Datei bereitgestellt, für die ein Kennwort erforderlich ist, um auf die Datei zuzugreifen. Anschließend werden die Textdaten mit Hilfe des extractAllText methode, um alle Textdaten in eine String-Variable zu ziehen. Von hier aus bietet PdfDocument
eine Vielzahl von Funktionen: als reinen Text ausgebenin eine TXT-Datei ausgeben, in einer Datenbank speichern usw.
IronPDF kann text aus PDF-Tabellen extrahieren zur Aufnahme in eine oder mehrere CSV-Dateien.
In Zeile 11 wird die extractAllImages methode, um alle eingebetteten Bilder aus dem PDF-Dokument zu extrahieren.
IronPDF kann auch Inhalte aus bestimmten PDF-Seiten extrahieren. Die verbleibenden Codezeilen des obigen Beispiels zeigen, wie man die extrahiereTextVonSeite und extrahiereBilderVonSeite methoden, um den Text und die Bilder von einer Teilmenge der Seiten abzurufen. Beide Methoden akzeptieren ein ganzzahliges Argument, das den nullbasierten Index der gewünschten Seite darstellt.
IronPDF ermöglicht es Entwicklern, Text und Bilder aus PDF-Dateien in nur einer Zeile Code zu extrahieren. Mit ExtractAllText
und ExtractAllImages
kann der gesamte Inhalt einer PDF-Datei sofort extrahiert werden. Alternativ können Sie auch ExtractAllImage
oder ExtractAllText
aufrufen, um Text und Bilder von nur einer bestimmten PDF-Seite zu holen. Das vorangegangene Codebeispiel zeigte, wie beide Methoden verwendet werden können, um Text und Bilder aus einer Reihe von Seiten zu lesen.
Darüber hinaus kann IronPDF auch rendering-Diagramme in PDFs, hinzufügen von Barcodes, erhöhung der Sicherheit durch Passwörter und wasserzeichenund sogar umgang mit PDF-Formularen programmatisch.
IronPDF ist für die Entwicklung völlig kostenlos. Während die kommerzielle Nutzung kostenpflichtig ist, können Sie die kostenloser Test für die Produktion ohne jegliche Bezahlung.
Kaufen Sie die vollständige Suite von Iron Softwares Dokumentenbibliotheken zum Preis von zwei ironPDF Lite-Lizenzen.
Herunterladen IronPDF um noch heute mit der Extraktion von Daten aus PDFs zu beginnen!
9 .NET API-Produkte für Ihre Bürodokumente