C#でPDFファイルを読む
IronPDF C# PDFライブラリのPdfDocument.ExtractAllText
メソッドは、基本的なPDFテキスト読み取りタスクに最適です。 このメソッドは、ソース PDF ドキュメント内の空白やエンコーディングの不一致を問題なく処理します。
PdfDocument.ExtractTextFromPage
は、PDFの特定のページからテキストを読み取ります。 上記の例では、特定のページ範囲からテキストコンテンツを繰り返し取得するために使用されている様子がわかります。
IronPDFはPDFから生の画像を抽出することもできます。 これには、以下のPdfDocument
クラスのどちらかのメソッドを使用してください:
ExtractAllImages
: PDF に埋め込まれたすべての画像をIronSoftware.Drawing.AnyBitmap
オブジェクトとして返します。ExtractAllRawImages
: 埋め込まれたすべての画像を生のバイト (byte []
) のリストとして取得します。ExtractImagesFromPage
: インデックスページに含まれている画像を抽出します。ExtractImagesFromPages
:ExtractImagesFromPage
と同様ですが、特定のページ範囲または個別のページリストから抽出します。-
ExtractRawImagesFromPage
およびExtractRawImagesFromPages
: 前の2つのメソッドと同様に動作しますが、IronSoftware.Drawing.AnyBitmap
オブジェクトとしてではなく、バイト配列として抽出された画像を返します。
C#でPDFファイルを読み取る方法
- C#用IronPDFライブラリをダウンロード
- PDFから画像またはテキストを抽出する
- 特定のドキュメントにおける単語の読み取りおよび検索
- 元のドキュメントからPDF出力を表示