IRONPDF VERWENDEN

Wie man PDF-Dateien in VB.NET auswertet

Aktualisiert 10. März 2024
Teilen Sie:

In diesem Tutorial wird gezeigt, wie man mit der erstklassigen Unterstützung von IronPDF programmatisch Texte und Bilder aus PDF-Dateien extrahieren kann.

IronPDF

Eigenschaften

Effiziente PDF-Konvertierung. Fast alles, was eine Maschine kann, kann IronPDF auch. Dank dieser PDF-Bibliothek können Entwickler schnell PDFs erstellen, Textinhalte lesen, schreiben, laden und manipulieren.

IronPDF wandelt HTML mit Hilfe der Chrome-Engine in einen PDF-Datensatz um. Zusammen mit Windows Forms, HTML, ASPX, Razor HTML, .NET Core, ASP.NET, Windows Forms und WPF. IronPDF unterstützt auch Xamarin-, Blazor-, Unity- und HoloLense-Anwendungen. IronPDF unterstützt sowohl Microsoft .NET- als auch .NET Core-Anwendungen(Sowohl ASP.NET-Webpakete als auch herkömmliche Windows-Pakete). IronPDF kann für die Erstellung ästhetisch ansprechender PDFs verwendet werden.

IronPDF kann eine PDF-Datei mit HTML5, JavaScript, CSS und Bildern erstellen. IronPDF verfügt auch über einen leistungsstarken HTML-zu-PDF-Konverter, der in PDF integriert ist. IronPDF verfügt über einen leistungsfähigen PDF-Konvertierungsmechanismus, der die Chromium-Rendering-Engine nutzt. Es ist auch nicht mit externen Quellen verbunden.

  • Ein PDF-Bild kann aus einer Vielzahl von Quellen erstellt werden, darunter HTML, HTML5, ASPX und Razor/MVC View. Sowohl HTML- als auch Bilddateien können in PDF konvertiert werden.
  • Folgende Werkzeuge können für die Arbeit mit interaktiven PDFs verwendet werdenausfüllen und Absenden von interaktiven Formularen.
  • PDFs zusammenführen und aufteilen, text und Bilder extrahieren aus PDF-Dateien, Text in PDF-Dateien suchen,rasterung von PDFs in Bilder, Schriftgröße ändern und PDF-Dateien konvertieren.
  • Es ermöglicht die Überprüfung von HTML-Anmeldeformularen mit Hilfe von User-Agents, Proxies, Cookies, HTTP-Headern und Formularvariablen.
  • Der Zugriff auf gesicherte Dokumente wird von IronPDF durch die Angabe von Benutzernamen und Passwörtern ermöglicht.
  • IronPDF ist ein Programm, das Text in PDF-Dateien liest und die Lücken vervollständigt.
  • Ermöglicht das Hinzufügen von Text und Bildern,lesezeichen, wasserzeichenund mehr.
  • Sie können eine PDF-Datei aus einer CSS-Datei erstellen.

    Weitere Informationen finden Sie hierIronPDF-Lizenzierungsinformationsseite für eine kostenlose limitierte Schlüssel- und Professional-Version.

    Wie man PDF-Dateien in VB.NET analysiert, Abbildung 1: IronPDF - Schriftformatierung

    IronPDF- Schriftformatierung

Text aus PDF-Datei extrahieren

IronPDF kann mit Hilfe der IronPDF-Bibliotheken auch Text aus PDF-Dateien lesen und extrahieren. Nachfolgend finden Sie ein Muster des IronPDF-Codes, das zur Untersuchung vorhandener PDF-Dateien verwendet werden kann.

Text aus allen Seiten extrahieren

Das folgende Code-Beispiel demonstriert die erste Methode, um den gesamten PDF-Inhalt mit nur wenigen Zeilen als String zu erfassen.

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
VB.NET

Das obige Codebeispiel zeigt, wie die Methode "FromFile" verwendet wird, um ein PDF-Dokument aus einer vorhandenen Datei zu lesen und in ein PDF-Dokumentobjekt zu konvertieren. Das Objekt bietet eine Methode namensextractAllText die den reinen Text aus der PDF-Datei extrahiert und in eine Zeichenkette umwandelt.

Text nach Seitenzahl extrahieren

Der nachstehende Beispielcode zeigt, wie man Daten aus einer PDF-Datei anhand der Seitenzahl extrahiert.

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
VB.NET

Der obige Code zeigt, wie eine PDF-Datei aus einer bestehenden Datei gelesen und in ein PDF-Dokumentenobjekt umgewandelt wird, indem dievonDatei funktion. Über dieses Objekt kann auf Texte und Bilder in der PDF-Datei zugegriffen werden. Das Objekt bietet eine Methode namensextrahiereTextVonSeite die es ermöglicht, eine Seitenzahl als Parameter zu senden, um eine Zeichenkette zu erhalten, die jedes Wort enthält, das auf der Seite der PDF-Datei stand.

Text zwischen Seiten extrahieren

Der folgende Code zeigt, wie man die Daten zwischen mehreren Seiten extrahiert.

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
VB.NET

Der obige Code zeigt, wie die Methode "FromFile" verwendet wird, um ein PDF-Dokument aus einer vorhandenen Datei zu lesen und in ein PDF-Dokumentobjekt zu konvertieren. Mit diesem Objekt können Sie den Text und die Bilder im PDF-Format prüfen. Das Objekt hat eine Methode namensextrahiereTextVonSeiten die verwendet werden kann, um eine Zeichenfolge zu erhalten, die den gesamten Textinhalt auf einer bestimmten Seite des Dokuments enthält, indem eine Liste von Seitenzahlen als Parameter übergeben wird. Auf der linken Seite befindet sich das Quell-PDF und auf der rechten Seite die extrahierten Daten.

How to Parse PDF File in VB.NET, Abbildung 2: Extrahieren von Text zwischen den Seiten ausgegeben

Text zwischen den Seiten extrahieren

Bild aus PDF-Datei extrahieren

IronPDF bietet eine Reihe von Methoden zum Extrahieren von Bildern, wie z. B:

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
VB.NET

Der obige Code zeigt, wie ein Dokument aus einer vorhandenen Datei gelesen und mit der Funktion FromFile in ein PDF-Dokumentobjekt umgewandelt wird. Durch die Übergabe einer Liste von Seitenzahlen an die Methode "ExtractRawImagesFromPage" des Objekts kann eine Liste von Bytes erhalten werden, die jedes Bild enthält, das auf einer bestimmten Seite des Dokuments vorhanden war. Verwendung einer "Foreach"-Schleife, um jedes Byte zu verarbeiten und es in einen Speicherstrom zu verwandeln. Dann wird es in eine Bitmap umgewandelt, was das Speichern von Bildern erleichtert. Das folgende Bild zeigt die Ausgabe des obigen Codes.

Analysieren von PDF-Dateien in VB.NET, Abbildung 3: Extrahieren von Bildern aus der PDF-Ausgabe

Bilder aus PDF-Ausgabe extrahieren

Weitere Informationen über das IronPDF API Code-Tutorial finden Sie in derIronPDF-Dokumentation. Sie können auch andere Tutorials besuchen, um zu erfahren, wie manpDF-Text mit C# parsen.

Schlussfolgerung

Die Entwicklungslizenz für die Bibliothek IronPDF ist kostenlos. Wenn IronPDF in einer Produktionsumgebung eingesetzt wird, können je nach den Bedürfnissen des Entwicklers verschiedene Lizenzen erworben werden. Der Lite-Plan beginnt bei $749 und hat keine laufenden Kosten. SaaS- und OEM-Vertriebsalternativen werden ebenfalls angeboten. Alle Lizenzen beinhalten Updates, ein Jahr Produktsupport und eine Dauerlizenz. Sie sind auch für die Herstellung, die Bereitstellung und die Entwicklung nützlich. Es handelt sich um einen einmaligen Kauf. Es sind zusätzliche kostenlose, zeitlich begrenzte Lizenzen erhältlich. Besuchen Sie dieumfassende IronPDF-Lizenzierungsinformationen um die vollständigen Preis- und Lizenzierungsdetails für IronPDF zu lesen. IronPDF bietet auch kostenlose Lizenzen für den Kopierschutz an.

< PREVIOUS
Wie man eine PDF-Datei unsicher macht (Anleitung für Anfänger)
NÄCHSTES >
Konvertieren von PDF in JPG in .NET

Sind Sie bereit, loszulegen? Version: 2024.12 gerade veröffentlicht

Gratis NuGet-Download Downloads insgesamt: 11,810,873 Lizenzen anzeigen >