IRONPDFの使用

VB.NETでPDFファイルを解析する方法

更新済み 4月 19, 2023
共有:

このチュートリアルでは、IronPDF の一流のサポートを受けて、プログラムによって PDF ファイルからテキストや画像を抽出する方法を紹介します。

IronPDF

IronPDFは、.NETおよびJava、Python、Node.jsでPDFを生成、編集、読み取るための強力なツールです。プログラマー向けに最適化されており、コードからPDFファイルの作成を容易に行うことができます。IronPDFは、HTML、CSS、JavaScript、および画像をPDFドキュメントに変換する能力を提供します。

機能

  • HTML to PDF: HTML、CSS、JavaScriptを利用してPDFを生成。
  • PDFの編集: 既存のPDFドキュメントにテキスト、画像、ページ番号、さらにはカスタムヘッダーやフッターを追加。
  • PDFの読み取り: PDFファイルからテキスト、画像、メタデータを抽出。
  • セキュリティ: パスワード保護や暗号化オプションでPDFドキュメントを保護。

利点

  • 使いやすさ: シンプルなAPIで時間を節約。
  • 高品質: 正確で美しいPDFドキュメントを生成。
  • 柔軟性: 様々なプラットフォームや言語で利用可能。

対応ライセンス

IronPDFは様々なライセンスオプションがあり、Lite License、Plus License、Professional License、Unlimited Licenseが用意されています。

技術サポートや詳細については、Iron Softwareの公式サイトをご覧ください。

機能

効率的なPDF変換。 ほぼすべての機械ができることを、IronPDFも実行できます。 このPDFライブラリのおかげで、開発者は迅速にPDFを作成、テキストコンテンツを読み込み、書き込み、読み込み、操作することができます。

IronPDFはChromeエンジンを使用してHTMLをPDFファイルに変換します。Windows Forms、HTML、ASPX、Razor HTML、.NET Core、ASP.NET、Windows Forms、WPFに対応しています。 IronPDFは、Xamarin、Blazor、Unity、HoloLenseアプリケーションもサポートしています。 IronPDFはMicrosoft .NETおよび.NET Coreアプリケーションの両方に対応しています。 (ASP.NET Webパッケージと従来のWindowsパッケージの両方). IronPDFを使用して、見た目に美しいPDFを作成することができます。

IronPDFは、HTML5、JavaScript、CSS、および画像を使用してPDFを作成できます。 IronPDFには、強力なHTMLからPDFへのコンバーターも搭載されており、PDFと統合されています。 IronPDFにはChromiumレンダリングエンジンを使用する強力なPDF変換メカニズムが存在しています。また、外部のソースには依存していません。

PDFファイルからテキストを抽出する

IronPDFライブラリを使用して、IronPDFはPDFファイルからテキストを読み取り、抽出することもできます。 以下は、現在のPDFファイルを調べるために使用されるIronPDFコードのパターンです。

すべてのページからテキストを抽出

以下のコード例は、数行だけでPDFのすべてのコンテンツを文字列として取得する最初の方法を示しています。

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
VB.NET

上記のサンプルコードは、FromFileメソッドを使用して既存のファイルからPDFを読み込み、それをPDFドキュメントオブジェクトに変換する方法を示しています。 オブジェクトには、というメソッドが提供されています ExtractAllText PDFからプレーンテキストを抽出し、文字列に変換します。

ページ番号でテキストを抽出

以下のサンプルコードは、ページ番号を使用してPDFファイルからデータを抽出する方法を示しています。

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
VB.NET

以下のコードは、既存のファイルからPDFを読み取り、PDFドキュメントオブジェクトに変換する方法を示しています。 FromFile(ファイルから) 関数 テキストと画像は、このオブジェクトを使用してPDFでアクセスできます。 オブジェクトはというメソッドを提供します ExtractTextFromPage PDFのページ番号をパラメーターとして送り、そのページに含まれているすべての単語を含む文字列を取得することを可能にする。

ページ間のテキストを抽出

以下のコードは、複数のページ間のデータを抽出する方法を示しています。

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
VB.NET

上記のコードは、FromFile メソッドを使用して既存のファイルからPDFを読み取り、PDFドキュメントオブジェクトに変換する方法を示しています。 このオブジェクトを使用して、PDF上のテキストや画像を検査できます。 そのオブジェクトには、というメソッドがあります ExtractTextFromPages (ページからテキストを抽出) 文書の特定のページ番号のリストをパラメータとして渡すことで、指定されたページのすべてのテキスト内容を含む文字列を取得できます。 左側が元のPDFで、右側が抽出されたデータです。

VB.NETでPDFファイルを解析する方法、図2:ページ間のテキストを抽出する出力

ページ間のテキスト抽出結果

PDFファイルから画像を抽出

IronPDFは、画像を抽出するための方法一覧を提供します。

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
VB.NET

上記のコードは、既存のファイルからドキュメントを読み取り、それをFromFile関数を使用してPDFドキュメントオブジェクトに変換する方法を示しています。 オブジェクトの ExtractRawImagesFromPage メソッドにページ番号のリストを渡すことで、ドキュメントの特定のページに存在するすべての画像が含まれるバイトのリストを取得できます。 foreachループを使用して各バイトを処理し、それをメモリストリームに変換します。 その後、画像保存を支援するビットマップに変換します。 以下の画像は上記コードの出力を示しています。

VB.NETでPDFファイルを解析する方法、図3:PDF出力から画像を抽出

PDF出力から画像を抽出

IronPDF API コード チュートリアルの詳細については、こちらをご参照ください ドキュメンテーションページ. 他のチュートリアルを訪問して、方法を学ぶこともできます。 C# を使用して PDF テキストを解析する.

結論

ライブラリIronPDFの開発ライセンスは無料です。 本番環境でIronPDFを使用する場合、開発者のニーズに応じて異なるライセンスを購入することができます。 ライトプランは $749 から始まり、継続的なコストはありません。 SaaSおよびOEMの再配布オプションも提供されています。 すべてのライセンスには、更新、一年間の製品サポート、および永久ライセンスが含まれています。 それらはまた、製造、ステージング、および開発にも有用です。 一度きりの購入です。 追加の無料の期限付きライセンスが利用可能です。 こちらをご覧ください ライセンスページ IronPDFの価格とライセンスの詳細を完全に読むには。 IronPDFは、コピー保護のための無料ライセンスも提供しています。

< 以前
PDFのセキュリティを解除する方法(初心者向けチュートリアル)
次へ >
.NETでPDFをJPGに変換する方法

準備はできましたか? バージョン: 2024.9 新発売

無料のNuGetダウンロード 総ダウンロード数: 10,659,073 View Licenses >