using IronPdf;
// Disable local disk access or cross-origin requests
Installation.EnableWebSecurity = true;
// Instantiate Renderer
var renderer = new ChromePdfRenderer();
// Create a PDF from a HTML string using C#
var pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>");
// Export to a file or Stream
pdf.SaveAs("output.pdf");
// Advanced Example with HTML Assets
// Load external html assets: Images, CSS and JavaScript.
// An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
var myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", @"C:\site\assets\");
myAdvancedPdf.SaveAs("html-with-assets.pdf");
Ihr Unternehmen gibt zu viel für jährliche Abonnements für PDF-Sicherheit und -Compliance aus. Erwägen Sie IronSecureDoc, das Lösungen für die Verwaltung von SaaS-Diensten wie digitale Signatur, Schwärzung, Verschlüsselung und Schutz bietet — alles gegen eine einmalige Zahlung. Erfahren Sie mehr über IronSecureDoc
Das Extrahieren von Daten aus PDFs ist entscheidend, um Zeit bei der manuellen Eingabe zu sparen. In diesem Artikel wird erklärt, wie Entwickler die IronPDF-Bibliothek verwenden können, um Text und Bilder aus PDF-Dokumenten zu extrahieren.
Extrahieren Sie die Daten von bestimmten Seiten und extrahieren Sie bestimmte aus PDF
Datenausgabe aus PDF-Dokument anzeigen
IronPDF: C# PDF-Bibliothek
IronPDF ist eine .NET-Bibliothek, die verwendet werden kann, um PDF-Dateien zu erstellen, zu bearbeiten und zu konvertieren. Es bietet eine benutzerfreundliche API, die Entwickler in ihren Anwendungen verwenden können. Es ist eine der beliebtesten Bibliotheken zum Erstellen, Bearbeiten und Konvertieren von PDF-Dateien weltweit. Mit IronPDF können Sie eine unkomplizierte und schnelle Lösung für PDFs erstellen. Ihr Text wird angepasst für jedes Dokument, Ihr Layout wird für einfaches Lesen eingerichtet, und Ihre Grafiken werden mit Hilfe des begleitenden .NET-Programms gestaltet.
Die IronPDF-Bibliothek bietet eine fantastische Funktion zur Extraktion von Daten aus PDF-Dateien. In diesem Artikel geht es darum, wie man mit IronPDF Daten extrahieren kann. Zunächst muss ein C#-Projekt erstellt oder geöffnet werden. Fahren wir mit dem nächsten Abschnitt fort.
Erstellen oder öffnen Sie ein C#-Projekt in Visual Studio
In diesem Tutorial wird empfohlen, die neueste Version von Visual Studio zu verwenden.
Sobald Visual Studio geöffnet ist, folgen Sie den nachstehenden Schritten, um ein neues C#-Projekt zu erstellen. Wenn Sie ein bestehendes Projekt verwenden möchten, überspringen Sie diese Schritte und fahren Sie direkt mit dem nächsten Abschnitt fort.
Visual Studio öffnen
Klicken Sie auf die Schaltfläche "Ein neues Projekt erstellen".
Öffnen von Visual Studio-Benutzeroberfläche
Wählen Sie die "C#-Konsolenanwendung" aus den Vorlagen aus.
Ein neues Projekt erstellen
Geben Sie dem Projekt einen Namen und klicken Sie auf die Schaltfläche Weiter.
Wählen Sie ein .NET Framework entsprechend den Anforderungen Ihres Projekts aus und klicken Sie auf die Schaltfläche Erstellen.
Auswahl des .NET Frameworks
Visual Studio erzeugt nun ein neues C# .NET-Projekt.
Installieren Sie die IronPDF-Bibliothek
Die IronPDF-Bibliothek kann auf verschiedene Arten installiert werden.
Paketmanager-Konsole verwenden
Öffnen Sie die Package Manager-Konsole, indem Sie zu Tools > NuGet-Paket-Manager > Package Manager-Konsole navigieren.
Führen Sie den folgenden Befehl aus:
Install-Package IronPdf
Installationsfortschritt im Paket-Manager-Konsole-Tab
Nach der Installation sehen Sie die IronPDF-Abhängigkeit im dependencies-Abschnitt des Solution Explorers, wie unten gezeigt.
IronPdf-Paket im Solution Explorer referenzieren
Verwendung des NuGet-Paketmanagers
Eine andere Möglichkeit, die IronPDF-Bibliothek zu installieren, ist die Verwendung der in Visual Studio integrierten NuGet-Paketmanager-Benutzeroberfläche.
Gehen Sie über das Hauptmenü zu den Tools. Bewegen Sie den Mauszeiger auf "NuGet Package Manager" aus dem Dropdown-Menü und wählen Sie die "NuGet Package Manager Solution".
Zu NuGet-Paket-Manager navigieren
Dadurch wird das Fenster NuGet Package Manager geöffnet. Gehen Sie zur Registerkarte Durchsuchen, geben Sie IronPdf in das Suchfeld ein und drücken Sie die Eingabetaste.
Wählen Sie IronPDF aus den Suchergebnissen aus und klicken Sie auf die Schaltfläche "Installieren", um die Installation zu starten.
Installieren Sie das IronPdf-Paket über den NuGet-Paket-Manager
Daten aus PDF-Dateien extrahieren
Schauen wir uns den folgenden Code an, wie man mit IronPDF Daten extrahiert:
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing
' Extracting Image and Text content from Pdf Documents
' open a 128 bit encrypted PDF
Private PdfDocument As using
'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()
'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()
'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
Dim PageNumber As Integer = index + 1
Dim Text As String = pdf.ExtractTextFromPage(index)
Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
'''...
Next index
$vbLabelText $csharpLabel
Zunächst wird die FromFile-Methode verwendet, um das Eingabe-PDF-Dokument im Programm zu laden. Eine verschlüsselte PDF-Datei wird bereitgestellt, die ein Passwort benötigt, um auf die Datei zuzugreifen. Anschließend werden Textdaten mit der ExtractAllText-Methode extrahiert, um alle Textdaten in eine String-Variable zu ziehen. Von hier aus bietet PdfDocument viele Funktionen: als einfachen Text ausgeben, es in eine TXT-Datei werfen, in einer Datenbank speichern usw.
Zeile 11 verwendet die ExtractAllImages-Methode, um alle eingebetteten Bilder aus dem PDF-Dokument zu extrahieren.
IronPDF kann auch Inhalte aus bestimmten PDF-Seiten extrahieren. Die verbleibenden Codezeilen im obigen Beispiel demonstrieren, wie die Methoden ExtractTextFromPage und ExtractImagesFromPage verwendet werden, um Text und Bilder aus einem Teil der Seiten abzurufen. Beide Methoden akzeptieren ein ganzzahliges Argument, das den nullbasierten Index der gewünschten Seite darstellt.
Schlussfolgerung
IronPDF ermöglicht es Entwicklern, Text und Bilder aus PDF-Dateien in nur einer Codezeile zu extrahieren, indem sie ExtractAllText und ExtractAllImages verwenden, um den gesamten Inhalt einer PDF-Datei sofort zu extrahieren. Alternativ ruft das Aufrufen von ExtractAllImage oder ExtractAllText Text und Bilder von nur einer bestimmten PDF-Seite ab. Das vorangegangene Codebeispiel zeigte, wie beide Methoden verwendet werden können, um Text und Bilder aus einer Reihe von Seiten zu lesen.
IronPDF ist für die Entwicklung völlig kostenlos. Während für die kommerzielle Nutzung eine Zahlung erforderlich ist, können Sie auf die kostenlose Testversion von IronPDF für die Produktion zugreifen, ohne eine Zahlung leisten zu müssen.
Chipego hat eine natürliche Fähigkeit zum Zuhören, die ihm hilft, Kundenprobleme zu verstehen und intelligente Lösungen anzubieten. Er trat dem Iron Software-Team 2023 bei, nachdem er einen Bachelor of Science in Informationstechnologie erworben hatte. IronPDF und IronOCR sind die beiden Produkte, auf die sich Chipego konzentriert hat, aber sein Wissen über alle Produkte wächst täglich, da er neue Wege findet, Kunden zu unterstützen. Er genießt die Zusammenarbeit bei Iron Software, da Teammitglieder aus dem gesamten Unternehmen ihre unterschiedlichen Erfahrungen einbringen und so zu effektiven, innovativen Lösungen beitragen. Wenn Chipego nicht an seinem Schreibtisch sitzt, kann man ihn oft bei einem guten Buch oder beim Fußballspielen antreffen.
< PREVIOUS C# Text aus PDF extrahieren (Code-Beispiel-Tutorial)
NÄCHSTES > Hinzufügen von Seitenzahlen in PDF mit C#