フッターコンテンツにスキップ
IRONPDFの使用

VB.NETでPDFファイルを解析する方法

このチュートリアルでは、IronPDFの一流のサポートを受けて、PDFファイルからテキストや画像をプログラムで抽出する方法を紹介します。

class="hsg-featured-snippet">

VB.NETでPDFファイルを解析する方法

  1. PDFファイルを解析するためのIronPDF C#ライブラリをダウンロード
  2. FromFileメソッドを使用して、VB.NETでPDFファイルを解析
  3. ExtractAllTextメソッドで開いたPDFからテキストを抽出
  4. ExtractTextFromPagesメソッドを使って、特定のページからテキストを抽出
  5. ExtractRawImagesFromPageメソッドで開いたPDFから画像を抽出

IronPDF

機能

効率的なPDF変換。 機械でできるほとんどのことを、IronPDFでもできます。 このPDFライブラリのおかげで、開発者は迅速にPDFを作成、テキストコンテンツを読み取り、書き込み、読み込み、操作することができます。

IronPDFは、Chromeエンジンを使用してHTMLをPDFレコードに変換します。Windows Forms、HTML、ASPX、Razor HTML、.NET Core、ASP.NET、Windows Forms、WPFと組み合わせて。 IronPDFはまた、Xamarin、Blazor、Unity、HoloLensアプリケーションをサポートします。 IronPDFは、Microsoft .NETと.NET Coreアプリケーション(ASP.NET Webパッケージと従来のWindowsパッケージの両方)をサポートします。 IronPDFは、美的に魅力的なPDFを作成するために使用できます。

IronPDFは、HTML5、JavaScript、CSS、画像を使用してPDFを作成できます。 IronPDFには、PDFと統合される強力なHTML-to-PDFコンバータもあります。 IronPDFには、Chromiumレンダリングエンジンを使用した強力なPDF変換メカニズムがあります。また、外部ソースには依存していません。

  • PDF画像は、HTML、HTML5、ASPX、Razor/MVC Viewなど、さまざまなソースから作成できます。 HTMLと画像のアセットの両方をPDFに変換できます。
  • インタラクティブなPDFを操作するためのツールには、インタラクティブフォームの記入と送信があります。
  • Merge and divide PDFs, extract text and pictures from PDF files, search text in PDF files, rasterize PDFs to images, change font size and convert PDF files.
  • ユーザーエージェント、プロキシ、クッキー、HTTPヘッダー、およびフォーム変数を使用して、HTMLログインフォームの確認ができます。
  • IronPDFは、ユーザー名とパスワードを提供することで、保護されたドキュメントへのアクセスを可能にします。
  • IronPDFはPDF内のテキストを読み取り、空白を埋めるプログラムです。
  • Allows to add text, images, bookmarks, watermarks, and more.
  • CSSファイルからPDFを作成することができます。

詳細については、このIronPDFライセンス情報ページを訪れて、無料の制限付きキーとプロフェッショナルバージョンをご覧ください。

VB.NETでPDFファイルを解析する方法、図1:IronPDF - フォントフォーマット IronPDF - フォントフォーマット

PDFファイルからテキストを抽出する

IronPDFは、IronPDFライブラリを使用してPDFファイルからテキストを読み取って抽出することもできます。 以下に示すのは、現在のPDFファイルを確認するために使用できるIronPDFコードのパターンです。

すべてのページからテキストを抽出

以下のコード例は、わずか数行でPDFのすべてのコンテンツを文字列として取得する方法を示しています。

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract all the text from the PDF
        Dim AllText As String = pdfdoc.ExtractAllText()

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract all the text from the PDF
        Dim AllText As String = pdfdoc.ExtractAllText()

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
VB .NET

上記のサンプルコードは、FromFileメソッドを使用して既存のファイルからPDFを読み取り、PDFドキュメントオブジェクトに変換する方法を示しています。 このオブジェクトは、ExtractAllTextというメソッドを提供し、PDFからプレーンテキストを抽出して文字列に変換します。

ページ番号でテキストを抽出

以下のサンプルコードは、ページ番号を使用してPDFファイルからデータを抽出する方法を示しています。

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the first page (page numbers are zero-based)
        Dim AllText As String = pdfdoc.ExtractTextFromPage(0)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the first page (page numbers are zero-based)
        Dim AllText As String = pdfdoc.ExtractTextFromPage(0)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
VB .NET

上記のコードは、既存のファイルからPDFを読み取り、FromFile関数を使用してPDFドキュメントオブジェクトに変換する方法を示しています。 テキストと画像は、このオブジェクトを使用してPDF上でアクセスできます。 このオブジェクトは、ページ番号をパラメーターとして渡すことで、そのページのPDF上にあったすべての単語を含む文字列を取得することができるExtractTextFromPageというメソッドを提供しています。

ページ間でテキストを抽出

以下のコードは、複数ページ間のデータを抽出する方法を示しています。

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Define a list of page numbers from which to extract text
        Dim Pages As List(Of Integer) = New List(Of Integer) From {3, 5, 7}

        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the specified pages
        Dim AllText As String = pdfdoc.ExtractTextFromPages(Pages)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Define a list of page numbers from which to extract text
        Dim Pages As List(Of Integer) = New List(Of Integer) From {3, 5, 7}

        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the specified pages
        Dim AllText As String = pdfdoc.ExtractTextFromPages(Pages)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
VB .NET

上記のコードは、FromFileメソッドを使用して既存のファイルからPDFを読み取り、PDFドキュメントオブジェクトに変換する方法を示しています。 このオブジェクトにより、PDF上のテキストと画像を調べることができます。 このオブジェクトは、ページ番号のリストをパラメータとして渡すことで、指定されたページのすべてのテキストコンテンツを含む文字列を取得するために使用できるExtractTextFromPagesというメソッドを提供しています。 下記の左側はソースPDFで、右側は抽出されたデータです。

VB.NETでPDFファイルを解析する方法、図2:ページ間でのテキスト抽出結果 ページ間でのテキスト抽出結果

PDFファイルから画像を抽出する

IronPDFは、画像を抽出するためのメソッドリストを提供します:

各メソッドは、文書の1ページまたは複数ページから画像を抽出することを可能にします。

Imports IronPdf
Imports System.Drawing

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract raw images from the first page
        Dim images = pdfdoc.ExtractRawImagesFromPage(1)

        ' Iterate over extracted images
        For Each imgData As Byte() In images
            ' Create a memory stream from byte data
            Using ms As New IO.MemoryStream(imgData)
                ' Create a Bitmap object from the memory stream
                Dim image = New Bitmap(ms)

                ' Save the image to the specified output directory
                image.Save("output/test.jpg")
            End Using
        Next
    End Sub
End Module
Imports IronPdf
Imports System.Drawing

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract raw images from the first page
        Dim images = pdfdoc.ExtractRawImagesFromPage(1)

        ' Iterate over extracted images
        For Each imgData As Byte() In images
            ' Create a memory stream from byte data
            Using ms As New IO.MemoryStream(imgData)
                ' Create a Bitmap object from the memory stream
                Dim image = New Bitmap(ms)

                ' Save the image to the specified output directory
                image.Save("output/test.jpg")
            End Using
        Next
    End Sub
End Module
VB .NET

上記のコードは、既存のファイルから文書を読み取り、FromFile関数を使用してPDFドキュメントオブジェクトに変換する方法を示しています。 オブジェクトのExtractRawImagesFromPageメソッドにページ番号を渡すことで、文書のそのページに存在していたすべての画像を含むバイトのリストを取得できます。 For Eachループを使用して、各バイトストリームは処理され、メモリストリームに変換され、Bitmapに変換され、画像の保存に役立ちます。 下記の画像は、上記のコードからの出力を示しています。

VB.NETでPDFファイルを解析する方法、図3:PDFからの画像抽出結果 PDFからの画像抽出結果

IronPDF APIコードチュートリアルについてもっと知りたい方は、IronPDFドキュメントを参照してください。 また、PDFテキストをC#で解析する方法を学ぶ他のチュートリアルも訪問できます。

結論

IronPDFライブラリの開発ライセンスは無料です。 IronPDFをプロダクション環境で使用する場合、開発者のニーズに応じて異なるライセンスを購入できます。 Liteプランは$799から始まり、継続的なコストはかかりません。 SaaSおよびOEM再配布のオプションも提供されています。 すべてのライセンスには、更新、1年間の製品サポート、および永続ライセンスが含まれています。 これらはまた製造、ステージング、開発においても有用です。 一度の購入です。 追加の無料で時間制限のあるライセンスも利用可能です。 IronPDFの詳細な価格とライセンス情報を読むためには、包括的なIronPDFライセンス情報を訪れてください。 IronPDFはコピー保護用の無料ライセンスも提供しています。

よくある質問

VB.NET で PDF からテキストを抽出するにはどうすればよいですか?

IronPDF ライブラリを使用すると、ExtractAllText メソッドを利用して PDF からテキストを抽出できます。これにより、VB.NET プロジェクト内で PDF ドキュメントのすべてのページからテキストを取得することができます。

VB.NET を使用して PDF の特定のページから画像を抽出することは可能ですか?

はい、IronPDF は ExtractRawImagesFromPage メソッドを使用して特定のページから画像を抽出することができます。このメソッドは、画像データをバイト配列として返し、これを画像ファイルに変換できます。

VB.NETでHTMLコンテンツをPDF文書に変換するにはどうすれば良いですか?

IronPDF は、強力な HTML から PDF への変換を Chromium レンダリング エンジンを使用して提供します。RenderHtmlAsPdf などのメソッドを使用することで、HTML ストリングまたはファイルを効率的に PDF ドキュメントに変換できます。

VB.NET アプリケーションで PDF パースに IronPDF を使用する利点は何ですか?

IronPDF は、テキストと画像の抽出のための多様な API を提供し、HTML から PDF への変換をサポートし、ASP.NET、Windows Forms、Blazor を含むさまざまな .NET プラットフォームと互換性があります。開発および本番のニーズに合うさまざまなライセンス オプションも提供しています。

VB.NET プロジェクトに IronPDF を統合するにはどうすればよいですか?

IronPDF を統合するには、NuGet からライブラリをダウンロードして、VB.NET プロジェクトに追加します。これにより、プログラムで PDF ファイルをパースおよび操作するためのメソッドにアクセスできるようになります。

IronPDF は PDF の解析と変換タスクの両方を処理できますか?

はい、IronPDF は解析 (テキストと画像の抽出) と変換タスク (HTML から PDF など) を効率的に処理するように設計されており、VB.NET で PDF を操作するための包括的なソリューションとなっています。

IronPDFのライセンスオプションはどのようになっていますか?

IronPDF は、無料の開発ライセンスとさまざまな本番ライセンス (Lite、SaaS、OEM 再配布を含む) を提供しています。これらのライセンスには、さまざまなプロジェクトのニーズを満たす 1 年間の更新とサポートが含まれています。

IronPDF の機能に外部リソースが依存していますか?

いいえ、IronPDF は自己完結型であり、内部的には Chromium レンダリング エンジンを使用しており、PDF の変換と解析のために、外部リソースに依存することなく、堅牢な機能を提供します。

IronPDF は .NET 10 をサポートしていますか? また、VB.NET 開発者にとってどのようなメリットがありますか?

はい、IronPDFは.NET 10に加え、.NET 9、8、7、6、Core、Standard、Frameworkなどの以前のバージョンも完全にサポートしています。つまり、.NET 10をターゲットとするVB.NETプロジェクトでは、追加の設定なしでIronPDFを使用できます。開発者は、ヒープ割り当ての削減、ランタイムおよびJIT最適化の向上など、.NET 10の新しいランタイムパフォーマンス向上の恩恵を受けることができ、PDF生成、テキスト/画像抽出、HTMLからPDFへのレンダリングが強化されます。

Curtis Chau
テクニカルライター

Curtis Chauは、カールトン大学でコンピュータサイエンスの学士号を取得し、Node.js、TypeScript、JavaScript、およびReactに精通したフロントエンド開発を専門としています。直感的で美しいユーザーインターフェースを作成することに情熱を持ち、Curtisは現代のフレームワークを用いた開発や、構造の良い視覚的に魅力的なマニュアルの作成を楽しんでいます。

開発以外にも、CurtisはIoT(Internet of Things)への強い関心を持ち、ハードウェアとソフトウェアの統合方法を模索しています。余暇には、ゲームをしたりDiscordボットを作成したりして、技術に対する愛情と創造性を組み合わせています。