Zum Fußzeileninhalt springen
IRONPDF NUTZEN

Wie man eine PDF-Datei in VB.NET parst

Dieses Tutorial führt ein, wie man programmgesteuert Texte und Bilder aus PDF-Dateien mit erstklassiger Unterstützung von IronPDF extrahiert.

class="hsg-featured-snippet">

Wie man eine PDF-Datei in VB.NET analysiert

  1. Laden Sie die IronPDF C#-Bibliothek herunter, um die PDF-Datei zu analysieren
  2. Nutzen Sie die FromFile-Methode, um die PDF-Datei in VB.NET zu analysieren
  3. Extrahieren Sie Text aus der geöffneten PDF mit der ExtractAllText-Methode
  4. Verwenden Sie die ExtractTextFromPages-Methode, um Text aus bestimmten Seiten zu extrahieren
  5. Extrahieren Sie Bilder aus der geöffneten PDF mit der ExtractRawImagesFromPage-Methode

IronPDF

Funktionen

Effiziente PDF-Konvertierung. Fast alles, was eine Maschine tun kann, kann IronPDF auch. Dank dieser PDF-Bibliothek können Entwickler schnell erstellen, Textinhalte lesen, schreiben, laden und PDF manipulieren.

IronPDF konvertiert HTML in ein PDF-Dokument mithilfe der Chrome-Engine. Zusammen mit Windows Forms, HTML, ASPX, Razor HTML, .NET Core, ASP.NET, Windows Forms und WPF. IronPDF unterstützt auch Xamarin-, Blazor-, Unity- und HoloLens-Anwendungen. IronPDF unterstützt sowohl Microsoft .NET als auch .NET Core-Anwendungen (sowohl ASP.NET-Webpakete als auch herkömmliche Windows-Pakete). IronPDF kann verwendet werden, um ästhetisch ansprechende PDFs zu erstellen.

IronPDF kann ein PDF mit HTML5, JavaScript, CSS und Bildern erstellen. IronPDF hat auch einen leistungsstarken HTML-zu-PDF-Konverter, der sich in PDF integriert. Ein starkes PDF-Konvertierungssystem ist in IronPDF vorhanden, das die Chromium-Renderengine verwendet. Es ist auch unabhängig von externen Quellen.

  • Ein PDF-Bild kann aus verschiedenen Quellen erstellt werden, einschließlich HTML, HTML5, ASPX und Razor/MVC-Ansicht. Sowohl HTML- als auch Bilddateien können in PDF konvertiert werden.
  • Werkzeuge, die zur Arbeit mit interaktiven PDFs verwendet werden können, beinhalten das Ausfüllen und Absenden interaktiver Formulare.
  • Merge and divide PDFs, extract text and pictures from PDF files, search text in PDF files, rasterize PDFs to images, change font size and convert PDF files.
  • Es ermöglicht die Verifizierung von HTML-Login-Formularen mithilfe von User-Agents, Proxies, Cookies, HTTP-Headern und Formularvariablen.
  • Der Zugriff auf gesicherte Dokumente wird durch IronPDF ermöglicht, indem Benutzernamen und Passwörter bereitgestellt werden.
  • IronPDF ist ein Programm, das Text in PDF liest und die Lücken füllt.
  • Allows to add text, images, bookmarks, watermarks, and more.
  • Sie können eine PDF-Datei aus einer CSS-Datei erstellen.

Für weitere Details besuchen Sie bitte diese IronPDF-Lizenzierungsinformationsseite für einen kostenlosen limitierten Schlüssel und die professionelle Version.

Wie man eine PDF-Datei in VB.NET analysiert, Abbildung 1: IronPDF- Schriftformatierung IronPDF- Schriftformatierung

Text aus der PDF-Datei extrahieren

IronPDF kann mit Hilfe der IronPDF-Bibliotheken auch Text aus PDF-Dateien lesen und extrahieren. Nachfolgend ein Beispielcode von IronPDF, der zum Untersuchen vorhandener PDF-Dateien verwendet werden kann.

Text von allen Seiten extrahieren

Das nachstehende Codebeispiel zeigt die erste Methode, um den gesamten PDF-Inhalt als String mit nur wenigen Zeilen zu erhalten.

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract all the text from the PDF
        Dim AllText As String = pdfdoc.ExtractAllText()

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract all the text from the PDF
        Dim AllText As String = pdfdoc.ExtractAllText()

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
VB .NET

Der obige Beispielcode zeigt, wie die FromFile-Methode verwendet wird, um ein PDF aus einer vorhandenen Datei zu lesen und es in ein PDF-Dokumentobjekt zu konvertieren. Das Objekt bietet eine Methode namens ExtractAllText, mit der Klartext aus dem PDF extrahiert und in einen String konvertiert wird.

Text nach Seitenzahl extrahieren

Der unten stehende Beispielcode zeigt, wie man Daten aus einer PDF-Datei mit der Seitenzahl extrahiert.

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the first page (page numbers are zero-based)
        Dim AllText As String = pdfdoc.ExtractTextFromPage(0)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the first page (page numbers are zero-based)
        Dim AllText As String = pdfdoc.ExtractTextFromPage(0)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
VB .NET

Der oben stehende Code zeigt, wie man ein PDF aus einer vorhandenen Datei liest und es in ein PDF-Dokumentobjekt umwandelt, indem die FromFile-Funktion verwendet wird. Texte und Bilder können mit diesem Objekt im PDF aufgerufen werden. Das Objekt bietet eine Methode namens ExtractTextFromPage, die es Ihnen ermöglicht, eine Seitenzahl als Parameter zu übergeben, um einen String zu erhalten, der jedes Wort enthält, das sich auf dieser Seite des PDF befand.

Text zwischen Seiten extrahieren

Der unten stehende Code zeigt, wie man die Daten zwischen mehreren Seiten extrahiert.

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Define a list of page numbers from which to extract text
        Dim Pages As List(Of Integer) = New List(Of Integer) From {3, 5, 7}

        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the specified pages
        Dim AllText As String = pdfdoc.ExtractTextFromPages(Pages)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Define a list of page numbers from which to extract text
        Dim Pages As List(Of Integer) = New List(Of Integer) From {3, 5, 7}

        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the specified pages
        Dim AllText As String = pdfdoc.ExtractTextFromPages(Pages)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
VB .NET

Der oben stehende Code zeigt, wie die FromFile-Methode verwendet wird, um ein PDF aus einer vorhandenen Datei zu lesen und es in ein PDF-Dokumentobjekt zu konvertieren. Dieses Objekt ermöglicht das Untersuchen der Texte und Bilder im PDF. Das Objekt hat eine Methode namens ExtractTextFromPages, die verwendet werden kann, um einen String zu erhalten, der alle Textinhalte auf den angegebenen Seiten des Dokuments enthält, indem eine Liste von Seitenzahlen als Parameter übergeben wird. Unten links ist das Ausgangs-PDF und rechts sind die extrahierten Daten.

Wie man eine PDF-Datei in VB.NET analysiert, Abbildung 2: Extrahierter Text zwischen Seiten Extrahierter Text zwischen Seiten

Bilder aus der PDF-Datei extrahieren

IronPDF bietet eine Liste von Methoden, um Bilder zu extrahieren, wie zum Beispiel:

Jede Methode ermöglicht das Extrahieren von Bildern von einer Seite oder mehreren Seiten des Dokuments.

Imports IronPdf
Imports System.Drawing

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract raw images from the first page
        Dim images = pdfdoc.ExtractRawImagesFromPage(1)

        ' Iterate over extracted images
        For Each imgData As Byte() In images
            ' Create a memory stream from byte data
            Using ms As New IO.MemoryStream(imgData)
                ' Create a Bitmap object from the memory stream
                Dim image = New Bitmap(ms)

                ' Save the image to the specified output directory
                image.Save("output/test.jpg")
            End Using
        Next
    End Sub
End Module
Imports IronPdf
Imports System.Drawing

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract raw images from the first page
        Dim images = pdfdoc.ExtractRawImagesFromPage(1)

        ' Iterate over extracted images
        For Each imgData As Byte() In images
            ' Create a memory stream from byte data
            Using ms As New IO.MemoryStream(imgData)
                ' Create a Bitmap object from the memory stream
                Dim image = New Bitmap(ms)

                ' Save the image to the specified output directory
                image.Save("output/test.jpg")
            End Using
        Next
    End Sub
End Module
VB .NET

Der oben stehende Code zeigt, wie man ein Dokument aus einer vorhandenen Datei liest und es in ein PDF-Dokumentobjekt umwandelt, indem die FromFile-Funktion verwendet wird. Durch die Übergabe einer Seitenzahl an die ExtractRawImagesFromPage-Methode des Objekts kann eine Byte-Liste erhalten werden, die jedes Bild enthält, das auf dieser Seite des Dokuments vorhanden war. Unter Verwendung einer For Each-Schleife wird jeder Byte-Stream behandelt und in einen Memory-Stream umgewandelt, dann in ein Bitmap, was zur Bildspeicherung beiträgt. Das unten stehende Bild zeigt die Ausgabe des obigen Codes.

Wie man eine PDF-Datei in VB.NET analysiert, Abbildung 3: Ausbilderbilder aus PDF Ausbilderbilder aus PDF

Um mehr über das IronPDF-API-Codetutorial zu erfahren, beziehen Sie sich auf die IronPDF-Dokumentation. Sie können auch andere Tutorials besuchen, um zu erfahren, wie Sie PDF-Text mit C# analysieren.

Abschluss

Die Entwicklungslizenz für die IronPDF-Bibliothek ist kostenlos. Beim Einsatz von IronPDF in einer Produktionsumgebung können je nach den Anforderungen des Entwicklers unterschiedliche Lizenzen erworben werden. Der Lite-Tarif beginnt bei $799 und hat keine laufenden Kosten. SaaS- und OEM-Umvertrieb-Alternativen werden ebenfalls angeboten. Alle Lizenzen umfassen Updates, ein Jahr Produktsupport und eine permanente Lizenz. Sie sind auch nützlich für Herstellung, Staging und Entwicklung. Es ist ein einmaliger Kauf. Es gibt zusätzliche kostenlose, zeitlich begrenzte Lizenzen, die zugänglich sind. Besuchen Sie die umfassenden IronPDF-Lizenzierungsinformationen, um die vollständigen Preis- und Lizenzierungsdetails für IronPDF zu lesen. IronPDF bietet auch kostenlose Lizenzen für Kopierschutz.

Häufig gestellte Fragen

Wie kann ich Text aus einem PDF in VB.NET extrahieren?

Mit der IronPDF-Bibliothek können Sie Text aus einem PDF extrahieren, indem Sie die ExtractAllText-Methode nutzen. Dadurch können Sie Text von allen Seiten eines PDF-Dokuments in Ihrem VB.NET-Projekt abrufen.

Ist es möglich, Bilder von bestimmten Seiten eines PDF mit VB.NET zu extrahieren?

Ja, IronPDF ermöglicht es Ihnen, Bilder von bestimmten Seiten mit der ExtractRawImagesFromPage-Methode zu extrahieren. Diese Methode gibt die Bilddaten als Byte-Arrays zurück, die Sie in Bilddateien umwandeln können.

Wie kann ich HTML-Inhalte in ein PDF-Dokument in VB.NET umwandeln?

IronPDF bietet leistungsstarke HTML-zu-PDF-Konvertierung mit der Chromium-Rendering-Engine. Sie können Methoden wie RenderHtmlAsPdf verwenden, um HTML-Strings oder Dateien effizient in PDF-Dokumente zu konvertieren.

Welche Vorteile bietet die Verwendung von IronPDF für die PDF-Analyse in VB.NET-Anwendungen?

IronPDF bietet vielseitige APIs zum Extrahieren von Text und Bildern, unterstützt die HTML-zu-PDF-Konvertierung und ist mit verschiedenen .NET-Plattformen kompatibel, einschließlich ASP.NET, Windows Forms und Blazor. Es bietet auch verschiedene Lizenzoptionen, die den Entwicklungs- und Produktionsbedürfnissen entsprechen.

Wie integriere ich IronPDF in mein VB.NET-Projekt?

Um IronPDF zu integrieren, laden Sie die Bibliothek von NuGet herunter und fügen Sie sie zu Ihrem VB.NET-Projekt hinzu. Dies ermöglicht Ihnen den Zugriff auf seine Methoden zur programmatischen Analyse und Manipulation von PDF-Dateien.

Kann IronPDF sowohl PDF-Analyse- als auch Konvertierungsaufgaben erledigen?

Ja, IronPDF ist darauf ausgelegt, sowohl Analyseaufgaben (Text- und Bildextraktion) als auch Konvertierungsaufgaben (wie HTML-zu-PDF) effizient zu handhaben, was es zu einer umfassenden Lösung für die PDF-Manipulation in VB.NET macht.

Welche Lizenzoptionen gibt es für IronPDF?

IronPDF bietet eine kostenlose Entwicklungslizenz und verschiedene Produktionslizenzen, einschließlich Lite, SaaS und OEM-Redistribution. Diese Lizenzen beinhalten Updates und Support für ein Jahr und decken unterschiedliche Projektbedürfnisse ab.

Ist IronPDF von externen Ressourcen für seine Funktionalität abhängig?

Nein, IronPDF ist eigenständig und verwendet intern die Chromium-Rendering-Engine, um eine robuste Funktionalität ohne Abhängigkeit von externen Ressourcen für die PDF-Konvertierung und -Analyse zu gewährleisten.

Unterstützt IronPDF .NET 10 und welche Vorteile bietet es VB.NET-Entwicklern?

Ja, IronPDF unterstützt .NET 10 vollständig sowie frühere Versionen wie .NET 9, 8, 7, 6, Core, Standard und Framework. Das bedeutet, dass VB.NET-Projekte, die auf .NET 10 abzielen, IronPDF ohne zusätzliche Konfiguration nutzen können. Entwickler profitieren von den neuen Laufzeit-Leistungsverbesserungen in .NET 10 – wie z. B. reduzierten Heap-Speicherbelegungen und verbesserten Laufzeit- und JIT-Optimierungen –, die die PDF-Generierung, die Text-/Bildextraktion und das HTML-zu-PDF-Rendering verbessern.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen