using IronPdf;
// Disable local disk access or cross-origin requests
Installation.EnableWebSecurity = true;
// Instantiate Renderer
var renderer = new ChromePdfRenderer();
// Create a PDF from a HTML string using C#
var pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>");
// Export to a file or Stream
pdf.SaveAs("output.pdf");
// Advanced Example with HTML Assets
// Load external html assets: Images, CSS and JavaScript.
// An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
var myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", @"C:\site\assets\");
myAdvancedPdf.SaveAs("html-with-assets.pdf");
Ihr Unternehmen gibt zu viel für jährliche Abonnements für PDF-Sicherheit und -Compliance aus. Betrachten IronSecureDoc, das Lösungen zur Verwaltung von SaaS-Diensten wie digitale Signatur, Redaktion, Verschlüsselung und Schutz bietet, alles gegen eine einmalige Zahlung. Erfahren Sie mehr über IronSecureDoc
Das Extrahieren von Daten aus PDFs ist entscheidend, um Zeit bei der manuellen Eingabe zu sparen. Dieser Artikel erklärt, wie Entwickler die IronPDF-Bibliothek verwenden können, umtext und Bilder extrahieren aus PDF-Dokumenten.
Extrahieren Sie die Daten von bestimmten Seiten und extrahieren Sie bestimmte aus PDF
Datenausgabe aus PDF-Dokument anzeigen
IronPDF: C# PDF-Bibliothek
IronPDF ist eine .NET-Bibliothek, die zum Erstellen, Bearbeiten und Konvertieren von PDF-Dateien verwendet werden kann. Es bietet eine benutzerfreundliche API, die Entwickler in ihren Anwendungen verwenden können. Es ist eine der beliebtesten Bibliotheken zum Erstellen, Bearbeiten und Konvertieren von PDF-Dateien weltweit. Mit IronPDF können Sie eine unkomplizierte und schnelle Lösung für PDFs erstellen. Ihr Text wird individuell angepasst für jedes Dokument,ihr Layout wird für eine einfache Lesbarkeit eingerichtet, und Ihre Grafiken werden mit Hilfe des zugehörigen .NET-Programms gestaltet.
Die IronPDF-Bibliothek bietet eine fantastische Funktion zur Extraktion von Daten aus PDF-Dateien. In diesem Artikel geht es darum, wie man mit IronPDF Daten extrahieren kann. Zunächst muss ein C#-Projekt erstellt oder geöffnet werden. Fahren wir mit dem nächsten Abschnitt fort.
Erstellen oder Öffnen eines C#-Projekts in Visual Studio
In diesem Tutorial wird empfohlen, die neueste Version von Visual Studio zu verwenden.
Sobald Visual Studio geöffnet ist, folgen Sie den nachstehenden Schritten, um ein neues C#-Projekt zu erstellen. Wenn Sie ein bestehendes Projekt verwenden möchten, überspringen Sie diese Schritte und fahren Sie direkt mit dem nächsten Abschnitt fort.
Visual Studio öffnen
Klicken Sie auf die Schaltfläche "Ein neues Projekt erstellen".
Visual Studio öffnet UI
Wählen Sie die "C#-Konsolenanwendung" aus den Vorlagen aus.
Ein neues Projekt erstellen
Geben Sie dem Projekt einen Namen und klicken Sie auf die Schaltfläche Next.
Wählen Sie ein .NET Framework, das den Anforderungen Ihres Projekts entspricht, und klicken Sie auf die Schaltfläche Erstellen.
.NET-Framework-Auswahl
Visual Studio erzeugt nun ein neues C# .NET-Projekt.
Installieren Sie die IronPDF-Bibliothek
Die IronPDF-Bibliothek kann auf verschiedene Arten installiert werden.
Paketmanager-Konsole verwenden
Öffnen Sie die Paketmanager-Konsole, indem Sie zu Tools > NuGet Package Manager > Paketmanager-Konsole gehen.
Führen Sie den folgenden Befehl aus:
Install-Package IronPdf
Installationsfortschritt auf der Registerkarte der Paketmanager-Konsole
Nach der Installation sehen Sie die IronPDF-Abhängigkeit im Abschnitt "Abhängigkeiten" des Projektmappen-Explorers, wie unten dargestellt.
Referenzieren Sie das IronPDF-Paket im Solution Explorer
Verwendung des NuGet-Paketmanagers
Eine andere Möglichkeit, die IronPDF-Bibliothek zu installieren, ist die Verwendung der in Visual Studio integrierten NuGet-Paketmanager-Benutzeroberfläche.
Gehen Sie über das Hauptmenü zu den Tools. Bewegen Sie den Mauszeiger auf "NuGet Package Manager" aus dem Dropdown-Menü und wählen Sie die "NuGet Package Manager Solution".
Navigieren Sie zu NuGet Package Manager
Dadurch wird das Fenster NuGet Package Manager geöffnet. Gehen Sie auf die Registerkarte Durchsuchen, geben Sie IronPdf in die Suche ein und drücken Sie die Eingabetaste.
Wählen Sie IronPDF aus den Suchergebnissen aus und klicken Sie auf die Schaltfläche "Installieren", um die Installation zu starten.
Installieren Sie das IronPDF-Paket über den NuGet-Paketmanager
Daten aus PDF-Dateien extrahieren
Schauen wir uns den folgenden Code an, wie man mit IronPDF Daten extrahiert:
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing
' Extracting Image and Text content from Pdf Documents
' open a 128 bit encrypted PDF
Private PdfDocument As using
'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()
'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()
'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
Dim PageNumber As Integer = index + 1
Dim Text As String = pdf.ExtractTextFromPage(index)
Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
'''...
Next index
Erstens, dievonDatei methode wird verwendet, um das eingegebene PDF-Dokument in das Programm zu laden. Es wird eine verschlüsselte PDF-Datei bereitgestellt, für die ein Kennwort erforderlich ist, um auf die Datei zuzugreifen. Anschließend werden die Textdaten mit Hilfe desextractAllText methode, um alle Textdaten in eine String-Variable zu ziehen. Von hier aus bietet PdfDocument eine Vielzahl von Funktionen:als reinen Text ausgebenin eine TXT-Datei ausgeben, in einer Datenbank speichern usw.
In Zeile 11 wird dieextractAllImages methode, um alle eingebetteten Bilder aus dem PDF-Dokument zu extrahieren.
IronPDF kann auch Inhalte aus bestimmten PDF-Seiten extrahieren. Die verbleibenden Codezeilen des obigen Beispiels zeigen, wie man dieextrahiereTextVonSeite undextrahiereBilderVonSeite methoden, um den Text und die Bilder von einer Teilmenge der Seiten abzurufen. Beide Methoden akzeptieren ein ganzzahliges Argument, das den nullbasierten Index der gewünschten Seite darstellt.
Schlussfolgerung
IronPDF ermöglicht es Entwicklern, Text und Bilder aus PDF-Dateien in nur einer Zeile Code zu extrahieren. Mit ExtractAllText und ExtractAllImages kann der gesamte Inhalt einer PDF-Datei sofort extrahiert werden. Alternativ können Sie auch ExtractAllImage oder ExtractAllText aufrufen, um Text und Bilder von nur einer bestimmten PDF-Seite zu holen. Das vorangegangene Codebeispiel zeigte, wie beide Methoden verwendet werden können, um Text und Bilder aus einer Reihe von Seiten zu lesen.
IronPDF ist für die Entwicklung völlig kostenlos. Während die kommerzielle Nutzung kostenpflichtig ist, können Sie diekostenlose Testversion von IronPDF für die Produktion ohne jegliche Bezahlung.
Regan schloss sein Studium an der University of Reading mit einem BA in Elektrotechnik ab. Bevor er zu Iron Software kam, konzentrierte er sich in seinen früheren Jobs auf einzelne Aufgaben. Was ihm bei Iron Software am meisten Spaß macht, ist das Spektrum der Aufgaben, die er übernehmen kann, sei es im Vertrieb, im technischen Support, in der Produktentwicklung oder im Marketing. Es macht ihm Spaß, die Art und Weise zu verstehen, wie Entwickler die Bibliothek von Iron Software nutzen, und dieses Wissen zu nutzen, um die Dokumentation und die Produkte kontinuierlich zu verbessern.
< PREVIOUS C# Text aus PDF extrahieren (Code-Beispiel-Tutorial)
NÄCHSTES > Hinzufügen von Seitenzahlen in PDF mit C#