IRONPDF VERWENDEN

Wie man PDF-Dateien in VB.NET auswertet

Aktualisiert 10. März 2024
Teilen Sie:

In diesem Tutorial wird gezeigt, wie man mit der erstklassigen Unterstützung von IronPDF programmatisch Texte und Bilder aus PDF-Dateien extrahieren kann.

IronPDF

Eigenschaften

Effiziente PDF-Konvertierung. Fast alles, was eine Maschine kann, kann IronPDF auch. Dank dieser PDF-Bibliothek können Entwickler schnell PDF erstellen, Textinhalte lesen, schreiben, laden und manipulieren.

IronPDF wandelt HTML mit Hilfe der Chrome-Engine in einen PDF-Datensatz um. Zusammen mit Windows Forms, HTML, ASPX, Razor HTML, .NET Core, ASP.NET, Windows Forms und WPF. IronPDF unterstützt auch Xamarin-, Blazor-, Unity- und HoloLense-Anwendungen. IronPDF unterstützt sowohl Microsoft .NET- als auch .NET Core-Anwendungen (Sowohl ASP.NET-Webpakete als auch herkömmliche Windows-Pakete). IronPDF kann für die Erstellung ästhetisch ansprechender PDFs verwendet werden.

IronPDF kann eine PDF-Datei mit HTML5, JavaScript, CSS und Bildern erstellen. IronPDF verfügt auch über einen leistungsstarken HTML-zu-PDF-Konverter, der in PDF integriert ist. IronPDF verfügt über einen leistungsfähigen PDF-Konvertierungsmechanismus, der die Chromium-Rendering-Engine nutzt. Es ist auch nicht mit externen Quellen verbunden.

Text aus PDF-Datei extrahieren

IronPDF kann mit Hilfe der IronPDF-Bibliotheken auch Text aus PDF-Dateien lesen und extrahieren. Nachfolgend finden Sie ein Muster des IronPDF-Codes, das zur Untersuchung vorhandener PDF-Dateien verwendet werden kann.

Text aus allen Seiten extrahieren

Das folgende Code-Beispiel demonstriert die erste Methode, um den gesamten PDF-Inhalt mit nur wenigen Zeilen als String zu erfassen.

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
VB.NET

Das obige Codebeispiel zeigt, wie die Methode "FromFile" verwendet wird, um ein PDF-Dokument aus einer vorhandenen Datei zu lesen und in ein PDF-Dokumentobjekt zu konvertieren. Das Objekt bietet eine Methode namens extractAllText die den reinen Text aus der PDF-Datei extrahiert und in eine Zeichenkette umwandelt.

Text nach Seitenzahl extrahieren

Der nachstehende Beispielcode zeigt, wie man Daten aus einer PDF-Datei anhand der Seitenzahl extrahiert.

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
VB.NET

Der obige Code zeigt, wie eine PDF-Datei aus einer bestehenden Datei gelesen und in ein PDF-Dokumentenobjekt umgewandelt wird, indem die vonDatei funktion. Über dieses Objekt kann auf Texte und Bilder in der PDF-Datei zugegriffen werden. Das Objekt bietet eine Methode namens extrahiereTextVonSeite die es ermöglicht, eine Seitenzahl als Parameter zu senden, um eine Zeichenkette zu erhalten, die jedes Wort enthält, das auf der Seite der PDF-Datei stand.

Text zwischen Seiten extrahieren

Der folgende Code zeigt, wie man die Daten zwischen mehreren Seiten extrahiert.

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
VB.NET

Der obige Code zeigt, wie die Methode "FromFile" verwendet wird, um ein PDF-Dokument aus einer vorhandenen Datei zu lesen und in ein PDF-Dokumentobjekt zu konvertieren. Dieses Objekt ermöglicht es, den Text und die Bilder im PDF zu untersuchen. Das Objekt hat eine Methode namens extrahiereTextVonSeiten kann verwendet werden, um eine Zeichenkette zu erhalten, die den gesamten Textinhalt auf einer bestimmten Seite des Dokuments enthält, indem eine Liste von Seitenzahlen als Parameter übergeben wird. Auf der linken Seite befindet sich das Quell-PDF und auf der rechten Seite die extrahierten Daten.

How to Parse PDF File in VB.NET, Abbildung 2: Extrahieren von Text zwischen den Seiten ausgegeben

Text zwischen den Seiten extrahieren

Bild aus PDF-Datei extrahieren

IronPDF bietet eine Reihe von Methoden zum Extrahieren von Bildern, wie z. B:

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
VB.NET

Der obige Code zeigt, wie ein Dokument aus einer vorhandenen Datei gelesen und mit der Funktion FromFile in ein PDF-Dokumentobjekt umgewandelt wird. Durch die Übergabe einer Liste von Seitenzahlen an die Methode "ExtractRawImagesFromPage" des Objekts kann eine Liste von Bytes erhalten werden, die jedes Bild enthält, das auf einer bestimmten Seite des Dokuments vorhanden war. Verwendung einer "Foreach"-Schleife, um jedes Byte zu verarbeiten und es in einen Speicherstrom zu verwandeln. Dann wird es in eine Bitmap umgewandelt, was das Speichern von Bildern erleichtert. Das folgende Bild zeigt die Ausgabe des obigen Codes.

Analysieren von PDF-Dateien in VB.NET, Abbildung 3: Extrahieren von Bildern aus der PDF-Ausgabe

Bilder aus PDF-Ausgabe extrahieren

Weitere Informationen über das IronPDF API Code-Tutorial finden Sie in der dokumentationsseiten. Sie können auch andere Tutorials besuchen, um zu erfahren, wie man pDF-Text mit C# parsen.

Schlussfolgerung

Die Entwicklungslizenz für die Bibliothek IronPDF ist kostenlos. Wenn IronPDF in einer Produktionsumgebung eingesetzt wird, können je nach den Bedürfnissen des Entwicklers verschiedene Lizenzen erworben werden. Der Lite-Plan beginnt bei $749 und hat keine laufenden Kosten. SaaS- und OEM-Vertriebsalternativen werden ebenfalls angeboten. Alle Lizenzen beinhalten Updates, ein Jahr Produktsupport und eine Dauerlizenz. Sie sind auch für die Herstellung, die Bereitstellung und die Entwicklung nützlich. Es handelt sich um einen einmaligen Kauf. Es sind zusätzliche kostenlose, zeitlich begrenzte Lizenzen erhältlich. Besuchen Sie diese lizenzierungsseite um die vollständigen Preis- und Lizenzierungsdetails für IronPDF zu lesen. IronPDF bietet auch kostenlose Lizenzen für den Kopierschutz an.

< PREVIOUS
Wie man eine PDF-Datei unsicher macht (Anleitung für Anfänger)
NÄCHSTES >
Konvertieren von PDF in JPG in .NET

Sind Sie bereit, loszulegen? Version: 2024.10 gerade veröffentlicht

Gratis NuGet-Download Downloads insgesamt: 11,308,499 Lizenzen anzeigen >