IRONPDF VERWENDEN

Wie man PDF-Dateien in VB.NET auswertet

Regan Pun
Regan Pun
19. April 2023
Aktualisiert 10. März 2024
Teilen Sie:

In diesem Tutorial wird gezeigt, wie man mit der erstklassigen Unterstützung von IronPDF programmatisch Texte und Bilder aus PDF-Dateien extrahieren kann.

IronPDF

Eigenschaften

Effiziente PDF-Konvertierung. Fast alles, was eine Maschine kann, kann IronPDF auch. Dank dieser PDF-Bibliothek können Entwickler schnell PDFs erstellen, Textinhalte lesen, schreiben, laden und manipulieren.

IronPDF wandelt HTML mit Hilfe der Chrome-Engine in einen PDF-Datensatz um. Zusammen mit Windows Forms, HTML, ASPX, Razor HTML, .NET Core, ASP.NET, Windows Forms und WPF. IronPDF unterstützt auch Xamarin-, Blazor-, Unity- und HoloLense-Anwendungen. IronPDF unterstützt sowohl Microsoft .NET als auch .NET Core Anwendungen (sowohl ASP.NET Web-Pakete als auch herkömmliche Windows-Pakete). IronPDF kann für die Erstellung ästhetisch ansprechender PDFs verwendet werden.

IronPDF kann eine PDF-Datei mit HTML5, JavaScript, CSS und Bildern erstellen. IronPDF verfügt auch über einen leistungsstarken HTML-zu-PDF-Konverter, der in PDF integriert ist. IronPDF verfügt über einen leistungsfähigen PDF-Konvertierungsmechanismus, der die Chromium-Rendering-Engine nutzt. Es ist auch nicht mit externen Quellen verbunden.

  • Ein PDF-Bild kann aus einer Vielzahl von Quellen erstellt werden, darunter HTML, HTML5, ASPX und Razor/MVC View. Sowohl HTML- als auch Bilddateien können in PDF konvertiert werden.
  • Werkzeuge, die zum Arbeiten mit interaktiven PDFs verwendet werden können, umfassen das Ausfüllen und Einreichen interaktiver Formulare.
  • PDFs zusammenführen und teilen, Text und Bilder aus PDF-Dateien extrahieren, Text in PDF-Dateien suchen, PDFs in Bilder rasterisieren, Schriftgröße ändern und PDF-Dateien konvertieren.
  • Es ermöglicht die Überprüfung von HTML-Anmeldeformularen mit Hilfe von User-Agents, Proxies, Cookies, HTTP-Headern und Formularvariablen.
  • Der Zugriff auf gesicherte Dokumente wird von IronPDF durch die Angabe von Benutzernamen und Passwörtern ermöglicht.
  • IronPDF ist ein Programm, das Text in PDF-Dateien liest und die Lücken vervollständigt.
  • Ermöglicht das Hinzufügen von Text, Bildern, Lesezeichen, Wasserzeichen und mehr.
  • Sie können eine PDF-Datei aus einer CSS-Datei erstellen.

    Weitere Informationen finden Sie auf dieser IronPDF-Lizenzierungsinformationsseite für einen kostenlosen limitierten Schlüssel und die professionelle Version.

    Wie man eine PDF-Datei in VB.NET analysiert, Abbildung 1: IronPDF-Schriftartenformatierung

    IronPDF- Schriftartformatierung

Text aus PDF-Datei extrahieren

IronPDF kann mit Hilfe der IronPDF-Bibliotheken auch Text aus PDF-Dateien lesen und extrahieren. Nachfolgend finden Sie ein Muster des IronPDF-Codes, das zur Untersuchung vorhandener PDF-Dateien verwendet werden kann.

Text aus allen Seiten extrahieren

Das folgende Code-Beispiel demonstriert die erste Methode, um den gesamten PDF-Inhalt mit nur wenigen Zeilen als String zu erfassen.

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
VB.NET

Der obige Beispielcode zeigt, wie man die FromFile-Methode verwendet, um eine PDF-Datei aus einer vorhandenen Datei zu lesen und in ein PDF-Dokumentobjekt zu konvertieren. Das Objekt stellt eine Methode namens ExtractAllText bereit, die den Plaintext aus der PDF-Datei extrahiert und in einen String umwandelt.

Text nach Seitenzahl extrahieren

Der nachstehende Beispielcode zeigt, wie man Daten aus einer PDF-Datei anhand der Seitenzahl extrahiert.

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
VB.NET

Der obige Code zeigt, wie man ein PDF aus einer vorhandenen Datei liest und es mit der FromFile-Funktion in ein PDF-Dokumentobjekt umwandelt. Über dieses Objekt kann auf Texte und Bilder in der PDF-Datei zugegriffen werden. Das Objekt bietet eine Methode namens ExtractTextFromPage, die es ermöglicht, eine Seitennummer als Parameter zu übergeben, um einen String zu erhalten, der jedes Wort enthält, das auf der Seite des PDFs vorhanden war.

Text zwischen Seiten extrahieren

Der folgende Code zeigt, wie man die Daten zwischen mehreren Seiten extrahiert.

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
VB.NET

Der obige Code zeigt, wie die FromFile-Methode verwendet wird, um eine PDF-Datei aus einer vorhandenen Datei zu lesen und in ein PDF-Dokumentobjekt umzuwandeln. Mit diesem Objekt können Sie den Text und die Bilder im PDF-Format prüfen. Das Objekt verfügt über eine Methode namens ExtractTextFromPages, die verwendet werden kann, um einen String zu erhalten, der den gesamten Textinhalt auf einer bestimmten Seite des Dokuments enthält, indem eine Liste von Seitenzahlen als Parameter übergeben wird. Auf der linken Seite befindet sich das Quell-PDF und auf der rechten Seite die extrahierten Daten.

Wie man eine PDF-Datei in VB.NET analysiert, Abbildung 2: Textausgabe zwischen Seiten extrahieren

Extrahiere Text zwischen den Seiten

Bild aus PDF-Datei extrahieren

IronPDF bietet eine Reihe von Methoden zum Extrahieren von Bildern, wie z. B:

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
VB.NET

Der obige Code zeigt, wie man ein Dokument aus einer bestehenden Datei liest und es mit der FromFile-Funktion in ein PDF-Dokumentobjekt umwandelt. Indem man eine Liste von Seitennummern an die Methode ExtractRawImagesFromPage des Objekts übergibt, kann eine Liste von Bytes erhalten werden, die jedes Bild enthält, das auf einer bestimmten Seite des Dokuments vorhanden war. Verwenden Sie eine foreach-Schleife, um jedes Byte zu verarbeiten und es in einen Speicherstrom zu verwandeln. Dann wird es in eine Bitmap umgewandelt, was das Speichern von Bildern erleichtert. Das folgende Bild zeigt die Ausgabe des obigen Codes.

Wie man PDF-Dateien in VB.NET parst, Abbildung 3: Bilder aus PDF-Ausgabe extrahieren

Bilder aus PDF-Ausgabe extrahieren

Um mehr über das IronPDF API-Code-Tutorial zu erfahren, beachten Sie die IronPDF-Dokumentation. Sie können auch andere Tutorials besuchen, um zu lernen, wie Sie PDF-Text mit C# parsen.

Schlussfolgerung

Die Entwicklungslizenz für die Bibliothek IronPDF ist kostenlos. Wenn IronPDF in einer Produktionsumgebung eingesetzt wird, können je nach den Bedürfnissen des Entwicklers verschiedene Lizenzen erworben werden. Der Lite-Plan beginnt bei $749 und hat keine laufenden Kosten. SaaS- und OEM-Vertriebsalternativen werden ebenfalls angeboten. Alle Lizenzen beinhalten Updates, ein Jahr Produktsupport und eine Dauerlizenz. Sie sind auch für die Herstellung, die Bereitstellung und die Entwicklung nützlich. Es handelt sich um einen einmaligen Kauf. Es sind zusätzliche kostenlose, zeitlich begrenzte Lizenzen erhältlich. Besuchen Sie die umfassenden Lizenzierungsinformationen für IronPDF, um die vollständigen Preis- und Lizenzierungsdetails für IronPDF zu lesen. IronPDF bietet auch kostenlose Lizenzen für den Kopierschutz an.

Regan Pun
Software-Ingenieur
Regan schloss sein Studium an der University of Reading mit einem BA in Elektrotechnik ab. Bevor er zu Iron Software kam, konzentrierte er sich in seinen früheren Jobs auf einzelne Aufgaben. Was ihm bei Iron Software am meisten Spaß macht, ist das Spektrum der Aufgaben, die er übernehmen kann, sei es im Vertrieb, im technischen Support, in der Produktentwicklung oder im Marketing. Es macht ihm Spaß, die Art und Weise zu verstehen, wie Entwickler die Bibliothek von Iron Software nutzen, und dieses Wissen zu nutzen, um die Dokumentation und die Produkte kontinuierlich zu verbessern.
< PREVIOUS
Wie man eine PDF-Datei unsicher macht (Anleitung für Anfänger)
NÄCHSTES >
Konvertieren von PDF in JPG in .NET