C#でPDFファイルを読む

IronPDF C# PDFライブラリのPdfDocument.ExtractAllTextメソッドは、基本的なPDFテキスト読み取りタスクに最適です。 このメソッドは、ソース PDF ドキュメント内の空白やエンコーディングの不一致を問題なく処理します。

PdfDocument.ExtractTextFromPageは、PDFの特定のページからテキストを読み取ります。 上記の例では、特定のページ範囲からテキストコンテンツを繰り返し取得するために使用されている様子がわかります。

IronPDFはPDFから生の画像を抽出することもできます。 これには、以下のPdfDocumentクラスのどちらかのメソッドを使用してください:

  • ExtractAllImages: PDF に埋め込まれたすべての画像を IronSoftware.Drawing.AnyBitmap オブジェクトとして返します。
  • ExtractAllRawImages: 埋め込まれたすべての画像を生のバイト (byte []) のリストとして取得します。
  • ExtractImagesFromPage: インデックスページに含まれている画像を抽出します。
  • ExtractImagesFromPages: ExtractImagesFromPageと同様ですが、特定のページ範囲または個別のページリストから抽出します。
  • ExtractRawImagesFromPage および ExtractRawImagesFromPages: 前の2つのメソッドと同様に動作しますが、IronSoftware.Drawing.AnyBitmap オブジェクトとしてではなく、バイト配列として抽出された画像を返します。