C#でPDFファイルを読む

テキストや画像の抽出により、ある文書フォーマットから別のフォーマットへの移行時にデータ移行が容易になります。 抽出されたコンテンツは、よりアクセスしやすく編集可能な形式で保存でき、データ損失のリスクを軽減します。

埋め込まれた画像とテキストは、PDFドキュメントとは独立して抽出することができます。 抽出されたテキストは通常の文字列になり、抽出された画像はイメージバッファ形式で、エクスポートまたはさらに処理することができます。

PDFドキュメントからテキストを抽出するには、extractTextメソッドを使用し、画像を抽出するにはextractRawImagesメソッドを使用します。