Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
In diesem Tutorial wird gezeigt, wie man mit der erstklassigen Unterstützung von IronPDF programmatisch Texte und Bilder aus PDF-Dateien extrahieren kann.
FromFile
methodeee zum Parsen von PDF-Dateien in VB.NETExtractAllText
methodeeExtractTextFromPages
methodee to extract text from certain pagesExtractRawImagesFromPage
methodeeEffiziente PDF-Konvertierung. Fast alles, was eine Maschine kann, kann IronPDF auch. Dank dieser PDF-Bibliothek können Entwickler schnell PDF erstellen, Textinhalte lesen, schreiben, laden und manipulieren.
IronPDF wandelt HTML mit Hilfe der Chrome-Engine in einen PDF-Datensatz um. Zusammen mit Windows Forms, HTML, ASPX, Razor HTML, .NET Core, ASP.NET, Windows Forms und WPF. IronPDF unterstützt auch Xamarin-, Blazor-, Unity- und HoloLense-Anwendungen. IronPDF unterstützt sowohl Microsoft .NET- als auch .NET Core-Anwendungen (Sowohl ASP.NET-Webpakete als auch herkömmliche Windows-Pakete). IronPDF kann für die Erstellung ästhetisch ansprechender PDFs verwendet werden.
IronPDF kann eine PDF-Datei mit HTML5, JavaScript, CSS und Bildern erstellen. IronPDF verfügt auch über einen leistungsstarken HTML-zu-PDF-Konverter, der in PDF integriert ist. IronPDF verfügt über einen leistungsfähigen PDF-Konvertierungsmechanismus, der die Chromium-Rendering-Engine nutzt. Es ist auch nicht mit externen Quellen verbunden.
Sie können eine PDF-Datei aus einer CSS-Datei erstellen.
Weitere Informationen finden Sie hier seite für einen kostenlosen begrenzten Schlüssel und eine professionelle Version.
IronPDF- Schriftformatierung
IronPDF kann mit Hilfe der IronPDF-Bibliotheken auch Text aus PDF-Dateien lesen und extrahieren. Nachfolgend finden Sie ein Muster des IronPDF-Codes, das zur Untersuchung vorhandener PDF-Dateien verwendet werden kann.
Das folgende Code-Beispiel demonstriert die erste Methode, um den gesamten PDF-Inhalt mit nur wenigen Zeilen als String zu erfassen.
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractAllText()
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractAllText()
Console.WriteLine(AllText)
End Sub
End Module
Das obige Codebeispiel zeigt, wie die Methode "FromFile" verwendet wird, um ein PDF-Dokument aus einer vorhandenen Datei zu lesen und in ein PDF-Dokumentobjekt zu konvertieren. Das Objekt bietet eine Methode namens extractAllText die den reinen Text aus der PDF-Datei extrahiert und in eine Zeichenkette umwandelt.
Der nachstehende Beispielcode zeigt, wie man Daten aus einer PDF-Datei anhand der Seitenzahl extrahiert.
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPage(0)
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPage(0)
Console.WriteLine(AllText)
End Sub
End Module
Der obige Code zeigt, wie eine PDF-Datei aus einer bestehenden Datei gelesen und in ein PDF-Dokumentenobjekt umgewandelt wird, indem die vonDatei funktion. Über dieses Objekt kann auf Texte und Bilder in der PDF-Datei zugegriffen werden. Das Objekt bietet eine Methode namens extrahiereTextVonSeite die es ermöglicht, eine Seitenzahl als Parameter zu senden, um eine Zeichenkette zu erhalten, die jedes Wort enthält, das auf der Seite der PDF-Datei stand.
Der folgende Code zeigt, wie man die Daten zwischen mehreren Seiten extrahiert.
Imports IronPdf
Module Program
Sub Main(args As String())
Dim Pages As List(Of Integer) = New List(Of Integer)
Pages.Add(3)
Pages.Add(5)
Pages.Add(7)
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPages(Pages)
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim Pages As List(Of Integer) = New List(Of Integer)
Pages.Add(3)
Pages.Add(5)
Pages.Add(7)
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPages(Pages)
Console.WriteLine(AllText)
End Sub
End Module
Der obige Code zeigt, wie die Methode "FromFile" verwendet wird, um ein PDF-Dokument aus einer vorhandenen Datei zu lesen und in ein PDF-Dokumentobjekt zu konvertieren. Dieses Objekt ermöglicht es, den Text und die Bilder im PDF zu untersuchen. Das Objekt hat eine Methode namens extrahiereTextVonSeiten kann verwendet werden, um eine Zeichenkette zu erhalten, die den gesamten Textinhalt auf einer bestimmten Seite des Dokuments enthält, indem eine Liste von Seitenzahlen als Parameter übergeben wird. Auf der linken Seite befindet sich das Quell-PDF und auf der rechten Seite die extrahierten Daten.
Text zwischen den Seiten extrahieren
IronPDF bietet eine Reihe von Methoden zum Extrahieren von Bildern, wie z. B:
extractRawImagesFromPages" (Rohbilder von Seiten extrahieren)
Jede Methode ermöglicht die Extraktion von Bildern aus einer Seite oder mehreren Seiten des Dokuments.
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each As Byte() In images
Dim ms As New IO.MemoryStream(CType(, Byte()))
Dim image = New Bitmap(ms)
image.Save("output//test.jpg")
Next
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each As Byte() In images
Dim ms As New IO.MemoryStream(CType(, Byte()))
Dim image = New Bitmap(ms)
image.Save("output//test.jpg")
Next
Der obige Code zeigt, wie ein Dokument aus einer vorhandenen Datei gelesen und mit der Funktion FromFile
in ein PDF-Dokumentobjekt umgewandelt wird. Durch die Übergabe einer Liste von Seitenzahlen an die Methode "ExtractRawImagesFromPage" des Objekts kann eine Liste von Bytes erhalten werden, die jedes Bild enthält, das auf einer bestimmten Seite des Dokuments vorhanden war. Verwendung einer "Foreach"-Schleife, um jedes Byte zu verarbeiten und es in einen Speicherstrom zu verwandeln. Dann wird es in eine Bitmap umgewandelt, was das Speichern von Bildern erleichtert. Das folgende Bild zeigt die Ausgabe des obigen Codes.
Bilder aus PDF-Ausgabe extrahieren
Weitere Informationen über das IronPDF API Code-Tutorial finden Sie in der dokumentationsseiten. Sie können auch andere Tutorials besuchen, um zu erfahren, wie man pDF-Text mit C# parsen.
Die Entwicklungslizenz für die Bibliothek IronPDF ist kostenlos. Wenn IronPDF in einer Produktionsumgebung eingesetzt wird, können je nach den Bedürfnissen des Entwicklers verschiedene Lizenzen erworben werden. Der Lite-Plan beginnt bei $749 und hat keine laufenden Kosten. SaaS- und OEM-Vertriebsalternativen werden ebenfalls angeboten. Alle Lizenzen beinhalten Updates, ein Jahr Produktsupport und eine Dauerlizenz. Sie sind auch für die Herstellung, die Bereitstellung und die Entwicklung nützlich. Es handelt sich um einen einmaligen Kauf. Es sind zusätzliche kostenlose, zeitlich begrenzte Lizenzen erhältlich. Besuchen Sie diese lizenzierungsseite um die vollständigen Preis- und Lizenzierungsdetails für IronPDF zu lesen. IronPDF bietet auch kostenlose Lizenzen für den Kopierschutz an.
9 .NET API-Produkte für Ihre Bürodokumente