C#でPDFファイルを読む
テキストと画像の抽出は、一つのドキュメント形式から別の形式に移行する際にデータの移行を容易にすることができます。 抽出されたコンテンツは、よりアクセスしやすく編集可能な形式で保存でき、データ損失のリスクを軽減します。
埋め込まれた画像とテキストは、PDFドキュメントから独立して抽出できます。 抽出されたテキストは通常の文字列であり、抽出された画像は画像バッファフォーマットであり、その後にエクスポートまたはさらに処理することができます。
extractText メソッドを使用してテキストを抽出し、 extractRawImages メソッドを使用してPDFドキュメントから画像を抽出します。
これを行う方法の修正されたコメント付きの例を次に示します:
上記の C# コードでは:
- IronPDF ライブラリを使用してPDFドキュメントを読み込みます。
ExtractText()メソッドが呼び出され、PDFからテキストを取得します。 このテキストはコンソールに出力されます。ExtractImages()メソッドが使用され、画像を抽出し、バイト配列に保存されます。 各画像は、指定されたファイル名でファイルシステムに保存されます。
これらのメソッドの使用方法についての詳細な指示は、IronPDFドキュメントをご覧ください。




