using IronPdf;
// Disable local disk access or cross-origin requests
Installation.EnableWebSecurity = true;
// Instantiate Renderer
var renderer = new ChromePdfRenderer();
// Create a PDF from a HTML string using C#
var pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>");
// Export to a file or Stream
pdf.SaveAs("output.pdf");
// Advanced Example with HTML Assets
// Load external html assets: Images, CSS and JavaScript.
// An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
var myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", @"C:\site\assets\");
myAdvancedPdf.SaveAs("html-with-assets.pdf");
In diesem Tutorial wird gezeigt, wie man mit der erstklassigen Unterstützung von IronPDF programmatisch Texte und Bilder aus PDF-Dateien extrahieren kann.
Effiziente PDF-Konvertierung. Fast alles, was eine Maschine kann, kann IronPDF auch. Dank dieser PDF-Bibliothek können Entwickler schnell PDFs erstellen, Textinhalte lesen, schreiben, laden und manipulieren.
IronPDF wandelt HTML mit Hilfe der Chrome-Engine in einen PDF-Datensatz um. Zusammen mit Windows Forms, HTML, ASPX, Razor HTML, .NET Core, ASP.NET, Windows Forms und WPF. IronPDF unterstützt auch Xamarin-, Blazor-, Unity- und HoloLense-Anwendungen. IronPDF unterstützt sowohl Microsoft .NET als auch .NET Core Anwendungen (sowohl ASP.NET Web-Pakete als auch herkömmliche Windows-Pakete). IronPDF kann für die Erstellung ästhetisch ansprechender PDFs verwendet werden.
IronPDF kann eine PDF-Datei mit HTML5, JavaScript, CSS und Bildern erstellen. IronPDF verfügt auch über einen leistungsstarken HTML-zu-PDF-Konverter, der in PDF integriert ist. IronPDF verfügt über einen leistungsfähigen PDF-Konvertierungsmechanismus, der die Chromium-Rendering-Engine nutzt. Es ist auch nicht mit externen Quellen verbunden.
Ein PDF-Bild kann aus einer Vielzahl von Quellen erstellt werden, darunter HTML, HTML5, ASPX und Razor/MVC View. Sowohl HTML- als auch Bilddateien können in PDF konvertiert werden.
Sie können eine PDF-Datei aus einer CSS-Datei erstellen.
Weitere Informationen finden Sie auf dieser IronPDF-Lizenzierungsinformationsseite für einen kostenlosen limitierten Schlüssel und die professionelle Version.
IronPDF- Schriftartformatierung
Text aus PDF-Datei extrahieren
IronPDF kann mit Hilfe der IronPDF-Bibliotheken auch Text aus PDF-Dateien lesen und extrahieren. Nachfolgend finden Sie ein Muster des IronPDF-Codes, das zur Untersuchung vorhandener PDF-Dateien verwendet werden kann.
Text aus allen Seiten extrahieren
Das folgende Code-Beispiel demonstriert die erste Methode, um den gesamten PDF-Inhalt mit nur wenigen Zeilen als String zu erfassen.
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractAllText()
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractAllText()
Console.WriteLine(AllText)
End Sub
End Module
VB.NET
Der obige Beispielcode zeigt, wie man die FromFile-Methode verwendet, um eine PDF-Datei aus einer vorhandenen Datei zu lesen und in ein PDF-Dokumentobjekt zu konvertieren. Das Objekt stellt eine Methode namens ExtractAllText bereit, die den Plaintext aus der PDF-Datei extrahiert und in einen String umwandelt.
Text nach Seitenzahl extrahieren
Der nachstehende Beispielcode zeigt, wie man Daten aus einer PDF-Datei anhand der Seitenzahl extrahiert.
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPage(0)
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPage(0)
Console.WriteLine(AllText)
End Sub
End Module
VB.NET
Der obige Code zeigt, wie man ein PDF aus einer vorhandenen Datei liest und es mit der FromFile-Funktion in ein PDF-Dokumentobjekt umwandelt. Über dieses Objekt kann auf Texte und Bilder in der PDF-Datei zugegriffen werden. Das Objekt bietet eine Methode namens ExtractTextFromPage, die es ermöglicht, eine Seitennummer als Parameter zu übergeben, um einen String zu erhalten, der jedes Wort enthält, das auf der Seite des PDFs vorhanden war.
Text zwischen Seiten extrahieren
Der folgende Code zeigt, wie man die Daten zwischen mehreren Seiten extrahiert.
Imports IronPdf
Module Program
Sub Main(args As String())
Dim Pages As List(Of Integer) = New List(Of Integer)
Pages.Add(3)
Pages.Add(5)
Pages.Add(7)
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPages(Pages)
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim Pages As List(Of Integer) = New List(Of Integer)
Pages.Add(3)
Pages.Add(5)
Pages.Add(7)
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPages(Pages)
Console.WriteLine(AllText)
End Sub
End Module
VB.NET
Der obige Code zeigt, wie die FromFile-Methode verwendet wird, um eine PDF-Datei aus einer vorhandenen Datei zu lesen und in ein PDF-Dokumentobjekt umzuwandeln. Mit diesem Objekt können Sie den Text und die Bilder im PDF-Format prüfen. Das Objekt verfügt über eine Methode namens ExtractTextFromPages, die verwendet werden kann, um einen String zu erhalten, der den gesamten Textinhalt auf einer bestimmten Seite des Dokuments enthält, indem eine Liste von Seitenzahlen als Parameter übergeben wird. Auf der linken Seite befindet sich das Quell-PDF und auf der rechten Seite die extrahierten Daten.
Extrahiere Text zwischen den Seiten
Bild aus PDF-Datei extrahieren
IronPDF bietet eine Reihe von Methoden zum Extrahieren von Bildern, wie z. B:
Jede Methode ermöglicht die Extraktion von Bildern aus einer Seite oder mehreren Seiten des Dokuments.
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each As Byte() In images
Dim ms As New IO.MemoryStream(CType(, Byte()))
Dim image = New Bitmap(ms)
image.Save("output//test.jpg")
Next
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each As Byte() In images
Dim ms As New IO.MemoryStream(CType(, Byte()))
Dim image = New Bitmap(ms)
image.Save("output//test.jpg")
Next
VB.NET
Der obige Code zeigt, wie man ein Dokument aus einer bestehenden Datei liest und es mit der FromFile-Funktion in ein PDF-Dokumentobjekt umwandelt. Indem man eine Liste von Seitennummern an die Methode ExtractRawImagesFromPage des Objekts übergibt, kann eine Liste von Bytes erhalten werden, die jedes Bild enthält, das auf einer bestimmten Seite des Dokuments vorhanden war. Verwenden Sie eine foreach-Schleife, um jedes Byte zu verarbeiten und es in einen Speicherstrom zu verwandeln. Dann wird es in eine Bitmap umgewandelt, was das Speichern von Bildern erleichtert. Das folgende Bild zeigt die Ausgabe des obigen Codes.
Bilder aus PDF-Ausgabe extrahieren
Um mehr über das IronPDF API-Code-Tutorial zu erfahren, beachten Sie die IronPDF-Dokumentation. Sie können auch andere Tutorials besuchen, um zu lernen, wie Sie PDF-Text mit C# parsen.
Schlussfolgerung
Die Entwicklungslizenz für die Bibliothek IronPDF ist kostenlos. Wenn IronPDF in einer Produktionsumgebung eingesetzt wird, können je nach den Bedürfnissen des Entwicklers verschiedene Lizenzen erworben werden. Der Lite-Plan beginnt bei $749 und hat keine laufenden Kosten. SaaS- und OEM-Vertriebsalternativen werden ebenfalls angeboten. Alle Lizenzen beinhalten Updates, ein Jahr Produktsupport und eine Dauerlizenz. Sie sind auch für die Herstellung, die Bereitstellung und die Entwicklung nützlich. Es handelt sich um einen einmaligen Kauf. Es sind zusätzliche kostenlose, zeitlich begrenzte Lizenzen erhältlich. Besuchen Sie die umfassenden Lizenzierungsinformationen für IronPDF, um die vollständigen Preis- und Lizenzierungsdetails für IronPDF zu lesen. IronPDF bietet auch kostenlose Lizenzen für den Kopierschutz an.
Regan schloss sein Studium an der University of Reading mit einem BA in Elektrotechnik ab. Bevor er zu Iron Software kam, konzentrierte er sich in seinen früheren Jobs auf einzelne Aufgaben. Was ihm bei Iron Software am meisten Spaß macht, ist das Spektrum der Aufgaben, die er übernehmen kann, sei es im Vertrieb, im technischen Support, in der Produktentwicklung oder im Marketing. Es macht ihm Spaß, die Art und Weise zu verstehen, wie Entwickler die Bibliothek von Iron Software nutzen, und dieses Wissen zu nutzen, um die Dokumentation und die Produkte kontinuierlich zu verbessern.
< PREVIOUS Wie man eine PDF-Datei unsicher macht (Anleitung für Anfänger)