Wie man Daten aus PDF in C# extrahiert
Das Extrahieren von Daten aus PDFs ist entscheidend, um Zeit bei der manuellen Eingabe zu sparen. Dieser Artikel erklärt, wie Entwickler die IronPDF-Bibliothek verwenden können, um Text und Bilder aus PDF-Dokumenten zu extrahieren.
Wie man Daten aus PDF in C# extrahiert
- Herunterladen von Extract Data from PDF C# library
- Ein neues Projekt in Visual Studio erstellen
- Bibliothek zu Ihrem Projekt installieren
- Extrahieren von Daten aus bestimmten Seiten und Extrahieren bestimmter Daten aus PDF
- Datenoutput aus PDF-Dokument anzeigen
IronPDF: C# PDF-Bibliothek
IronPDF ist eine .NET-Bibliothek, die zum Erstellen, Bearbeiten und Konvertieren von PDF-Dateien verwendet werden kann. Sie bietet eine benutzerfreundliche API für Entwickler, die in ihren Anwendungen verwendet werden kann. Sie ist weltweit eine der beliebtesten Bibliotheken zum Erstellen, Bearbeiten und Konvertieren von PDF-Dateien. Mit IronPDF können Sie eine einfache und schnelle Lösung für PDFs erstellen. Ihr Text wird für jedes Dokument angepasst, Ihr Layout wird für ein leichtes Lesen eingerichtet und Ihre Grafiken werden mit Hilfe des begleitenden .NET-Programms gestaltet.
Die IronPDF-Bibliothek verfügt über eine fantastische Funktion zum Extrahieren von Daten aus PDF-Dateien. Dieser Artikel wird sich damit befassen, wie man Daten mit IronPDF extrahieren kann. Zuerst muss ein C#-Projekt erstellt oder geöffnet werden. Kommen wir zum nächsten Abschnitt.
Erstellen oder Öffnen eines C#-Projekts in Visual Studio
Dieses Tutorial empfiehlt die Verwendung der neuesten Version von Visual Studio.
Sobald Visual Studio geöffnet ist, befolgen Sie die unten stehenden Schritte, um ein neues C#-Projekt zu erstellen. Wenn ein bestehendes Projekt verwendet werden soll, dann überspringen Sie diese nächsten Schritte und fahren direkt mit dem nächsten Abschnitt fort.
- Öffnen Sie Visual Studio
- Klicken Sie auf die Schaltfläche "Ein neues Projekt erstellen".
Visual Studio Benutzeroberfläche öffnen
- Wählen Sie die "C# Console Application" aus den Vorlagen.
Ein neues Projekt erstellen
- Geben Sie dem Projekt einen Namen und klicken Sie auf die Schaltfläche Next.
- Wählen Sie ein .NET-Framework entsprechend den Anforderungen Ihres Projekts aus und klicken Sie auf die Schaltfläche Create.
.NET Framework-Auswahl
Visual Studio wird jetzt ein neues C# .NET-Projekt generieren.
Die IronPDF-Bibliothek installieren
Die IronPDF-Bibliothek kann auf unterschiedliche Weise installiert werden.
Verwendung der Paket-Manager-Konsole
- Öffnen Sie die Paket-Manager-Konsole, indem Sie zu Tools > NuGet Package Manager > Package Manager Console gehen.
- Führen Sie den folgenden Befehl aus, um die IronPDF-Bibliothek zu installieren:
Install-Package IronPdf
Installationsfortschritt im Package Manager Console-Tab
Nach der Installation wird die IronPDF Abhängigkeit im Abschnitt dependencies des Projektmappen-Explorers angezeigt, wie unten dargestellt.
IronPDF-Paket im Solution Explorer referenzieren
Verwendung des NuGet Package Managers
Eine andere Möglichkeit, die IronPDF-Bibliothek zu installieren, ist die Verwendung der integrierten NuGet Package Manager-UI von Visual Studio.
- Gehen Sie zu den Tools im Hauptmenü. Fahren Sie im Dropdown-Menü mit der Maus über "NuGet Package Manager" und wählen Sie "Manage NuGet Packages for Solution...".
Zu NuGet Package Manager navigieren
- Dadurch wird das Fenster des NuGet-Paket-Managers geöffnet. Gehen Sie zum Tab "Durchsuchen", geben Sie
IronPdfin das Suchfeld ein und drücken Sie die Eingabetaste. - Wählen Sie IronPDF aus den Suchergebnissen aus und klicken Sie auf die "Install"-Schaltfläche, um die Installation zu starten.
Das IronPDF-Paket aus dem NuGet-Paket-Manager installieren
Daten aus PDF-Dateien extrahieren
Werfen wir einen Blick auf den folgenden Code, der zeigt, wie man mit IronPDF Daten extrahiert:
// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;
public class PDFExtractor
{
public void ExtractDataFromPDF()
{
// Open a 128-bit encrypted PDF file by providing the filename and password
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Extract all text from the PDF document
string allText = pdf.ExtractAllText();
// Extract all images from the PDF document
IEnumerable<Image> allImages = pdf.ExtractAllImages();
// Iterate over each page in the PDF document
for (var index = 0; index < pdf.PageCount; index++)
{
int pageNumber = index + 1;
// Extract text from the specific page
string text = pdf.ExtractTextFromPage(index);
// Extract images from the specific page
IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);
// Code to process the extracted text and images
//...
}
}
}
// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;
public class PDFExtractor
{
public void ExtractDataFromPDF()
{
// Open a 128-bit encrypted PDF file by providing the filename and password
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Extract all text from the PDF document
string allText = pdf.ExtractAllText();
// Extract all images from the PDF document
IEnumerable<Image> allImages = pdf.ExtractAllImages();
// Iterate over each page in the PDF document
for (var index = 0; index < pdf.PageCount; index++)
{
int pageNumber = index + 1;
// Extract text from the specific page
string text = pdf.ExtractTextFromPage(index);
// Extract images from the specific page
IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);
// Code to process the extracted text and images
//...
}
}
}
' Import necessary namespaces
Imports IronPdf
Imports System.Collections.Generic
Imports System.Drawing
Public Class PDFExtractor
Public Sub ExtractDataFromPDF()
' Open a 128-bit encrypted PDF file by providing the filename and password
Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
' Extract all text from the PDF document
Dim allText As String = pdf.ExtractAllText()
' Extract all images from the PDF document
Dim allImages As IEnumerable(Of Image) = pdf.ExtractAllImages()
' Iterate over each page in the PDF document
For index = 0 To pdf.PageCount - 1
Dim pageNumber As Integer = index + 1
' Extract text from the specific page
Dim text As String = pdf.ExtractTextFromPage(index)
' Extract images from the specific page
Dim images As IEnumerable(Of Image) = pdf.ExtractImagesFromPage(index)
' Code to process the extracted text and images
'...
Next index
End Using
End Sub
End Class
In diesem Codebeispiel:
- Die Methode
FromFilewird verwendet, um das Eingabe-PDF-Dokument zu laden, das verschlüsselt ist und ein Passwort erfordert. - Die Methode
ExtractAllTextextrahiert den gesamten Textinhalt aus der PDF-Datei. - Die Methode
ExtractAllImagesruft alle eingebetteten Bilder ab. - Eine Schleife durchläuft jede Seite des Dokuments, um Text und Bilder von dieser spezifischen Seite mithilfe von
ExtractTextFromPageundExtractImagesFromPagezu extrahieren.
Abschluss
IronPDF ermöglicht es Entwicklern, mit Leichtigkeit Text und Bilder aus PDF-Dateien zu extrahieren. Mit ExtractAllText und ExtractAllImages kann der gesamte Inhalt einer PDF-Datei sofort extrahiert werden. Alternativ können diese Methoden auch verwendet werden, um Inhalte von spezifischen Seiten zu extrahieren. Der vorhergehende Code zeigte, wie man beide Methoden verwendet, um Text und Bilder von einer Reihe von Seiten zu lesen.
Zusätzlich bietet IronPDF Funktionen wie Diagrammerstellung, Hinzufügen von Barcodes, Sicherheitsverbesserungen mit Passwörtern, Wasserzeichen und die Verwaltung von PDF-Formularen programmatisch.
IronPDF ist während der Entwicklung kostenlos verfügbar, bei kommerzieller Nutzung ist eine Zahlung erforderlich. Ein kostenloser Test von IronPDF ist für die Produktion ohne Zahlung verfügbar.
Kaufen Sie das [vollständige Angebot der Dokumentbibliotheken von Iron Software](Iron Suite) zum Preis von zwei IronPDF Lite-Lizenzen.
Laden Sie IronPDF jetzt herunter, um heute noch mit dem Extrahieren von Daten aus PDFs zu beginnen!
Häufig gestellte Fragen
Wie kann ich Text aus einem PDF in C# extrahieren?
Sie können die Methode ExtractAllText von IronPDF verwenden, um den gesamten Text aus einem PDF-Dokument zu extrahieren. Diese Methode vereinfacht den Prozess, indem sie einen einfachen Zugriff auf den Textinhalt des PDFs ermöglicht.
Wie ist der Prozess zur Extrahierung von Bildern aus einem PDF mit C#?
Mit IronPDF können Sie Bilder aus einem PDF extrahieren, indem Sie die Methode ExtractAllImages verwenden. Diese Methode ruft effizient alle eingebetteten Bilder aus der PDF-Datei ab.
Wie installiere ich eine PDF-Manipulationsbibliothek in einem C#-Projekt?
Um IronPDF in einem C#-Projekt zu installieren, können Sie die Paket-Manager-Konsole mit dem Befehl Install-Package IronPDF verwenden oder über die NuGet-Paket-Manager-Benutzeroberfläche in Visual Studio navigieren, um das Paket zu installieren.
Ist es möglich, mit C# verschlüsselte PDFs zu behandeln?
Ja, IronPDF ermöglicht es Ihnen, verschlüsselte PDF-Dateien zu öffnen und zu manipulieren, indem Sie die Methode FromFile verwenden, bei der Sie den Dateinamen und das Passwort zur Verfügung stellen können, um auf den Inhalt zuzugreifen.
Kann ich Daten von bestimmten Seiten eines PDFs in C# extrahieren?
IronPDF ermöglicht es Ihnen, über jede Seite eines PDF-Dokuments zu iterieren und Methoden wie ExtractTextFromPage und ExtractImagesFromPage zu verwenden, um Daten von bestimmten Seiten zu extrahieren.
Welche zusätzlichen Funktionen bietet die C# PDF-Bibliothek?
Neben der Datenextraktion bietet IronPDF Funktionen wie das Rendern von Diagrammen, das Hinzufügen von Barcodes, das Erhöhen der Dokumentensicherheit mit Passwörtern, das Watermarking und die programmatische Bearbeitung von PDF-Formularen.
Wie kann ich HTML in PDF in C# konvertieren?
Mit der Methode RenderHtmlAsPdf von IronPDF können Sie HTML-Strings in PDFs umwandeln, was besonders nützlich ist, um PDF-Dokumente aus Webinhalten zu erstellen.
Gibt es eine Testversion für die C# PDF-Bibliothek?
IronPDF kann während der Entwicklung kostenlos verwendet werden, sodass Sie seine Fähigkeiten testen können. Für die produktive Nutzung ist eine kommerzielle Lizenz erforderlich, aber eine kostenlose Testversion ist ebenfalls verfügbar.
Wie kann ich die C#-Bibliothek für die Datenextraktion aus PDFs verwenden?
Um mit der Verwendung von IronPDF für die Datenextraktion zu beginnen, laden Sie die Bibliothek herunter, erstellen oder öffnen Sie ein C#-Projekt in Visual Studio, installieren Sie IronPDF und folgen Sie den Codebeispielen, um effizient Text und Bilder aus PDFs zu extrahieren.
.NET 10-Kompatibilität: Kann ich die Datenextraktionsfunktionen von IronPDF mit .NET 10 verwenden?
Ja – IronPDF wird vollständig unter .NET 10 unterstützt, einschließlich seiner Datenextraktionsfunktionen wie Text- und Bildextraktion. Sie können IronPDF ohne spezielle Konfiguration in .NET 10-Projekten verwenden. Es unterstützt .NET 10, .NET 9, .NET 8 und frühere Versionen sowie .NET Standard und .NET Framework. (ironpdf.com)




