C#でPDFファイルを読む

テキストと画像の抽出は、一つのドキュメント形式から別の形式に移行する際にデータの移行を容易にすることができます。 抽出されたコンテンツは、よりアクセスしやすく編集可能な形式で保存でき、データ損失のリスクを軽減します。

埋め込まれた画像とテキストは、PDFドキュメントから独立して抽出できます。 抽出されたテキストは通常の文字列であり、抽出された画像は画像バッファフォーマットであり、その後にエクスポートまたはさらに処理することができます。

extractText メソッドを使用してテキストを抽出し、 extractRawImages メソッドを使用してPDFドキュメントから画像を抽出します。

これを行う方法の修正されたコメント付きの例を次に示します:

上記の C# コードでは:

  • IronPDF ライブラリを使用してPDFドキュメントを読み込みます。
  • ExtractText() メソッドが呼び出され、PDFからテキストを取得します。 このテキストはコンソールに出力されます。
  • ExtractImages() メソッドが使用され、画像を抽出し、バイト配列に保存されます。 各画像は、指定されたファイル名でファイルシステムに保存されます。

これらのメソッドを使用する詳細な手順は、IronPDF ドキュメントを参照してください。

IronPDFでのPDFテキストの読み取りについて詳しく調べる

準備はいいですか?
バージョン: 2025.11 ただ今リリースされました