C#でPDFファイルを読む

テキストと画像の抽出は、一つのドキュメント形式から別の形式に移行する際にデータの移行を容易にすることができます。 抽出されたコンテンツは、よりアクセスしやすく編集可能な形式で保存でき、データ損失のリスクを軽減します。

埋め込まれた画像とテキストは、PDFドキュメントから独立して抽出できます。 抽出されたテキストは通常の文字列であり、抽出された画像は画像バッファフォーマットであり、その後にエクスポートまたはさらに処理することができます。

extractText メソッドを使用してテキストを抽出し、 extractRawImages メソッドを使用してPDFドキュメントから画像を抽出します。

これを行う方法の修正されたコメント付きの例を次に示します:

上記の C# コードでは:

  • IronPDF ライブラリを使用してPDFドキュメントを読み込みます。
  • ExtractText() メソッドが呼び出され、PDFからテキストを取得します。 このテキストはコンソールに出力されます。
  • ExtractImages() メソッドが使用され、画像を抽出し、バイト配列に保存されます。 各画像は、指定されたファイル名でファイルシステムに保存されます。

これらのメソッドの使用方法についての詳細な指示は、IronPDFドキュメントをご覧ください。

IronPdfでPDFテキストを読むの詳細を見る

準備はできましたか?
バージョン: 2025.12 リリース