C#でPDFファイルを読む

VB C#

string(27) "クリックしてコピー"

using IronPdf;
using IronSoftware.Drawing;
using System.Collections.Generic;

// Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
var pdf = PdfDocument.FromFile("encrypted.pdf", "password");

// Get all text to put in a search index
string text = pdf.ExtractAllText();

// Get all Images
var allImages = pdf.ExtractAllImages();

// Or even find the precise text and images for each page in the document
for (var index = 0 ; index < pdf.PageCount ; index++)
{
    int pageNumber = index + 1;
    text = pdf.ExtractTextFromPage(index);
    List<AnyBitmap> images = pdf.ExtractBitmapsFromPage(index);
    //...
}

Install-Package IronPdf

C#でPDFファイルを読む

IronPDF C# PDF ライブラリの PdfDocument.ExtractAllText メソッドは、標準的な PDF テキスト読み取りタスクに最適です。このメソッドは、ソースPDFドキュメント内の空白やエンコーディングの不一致を問題なく処理します。

PdfDocument.ExtractTextFromPage は PDF の特定のページからテキストを読み取ります。以下の例では、特定のページ範囲からテキストコンテンツを取得するために反復的に使用されている様子が示されています。

IronPDF は PDF から生データとして画像を抽出することもできます。このためには、以下の PdfDocument クラスのいずれかのメソッドを使用します。

ExtractAllImages : PDF に埋め込まれたすべての画像を IronSoftware.Drawing.AnyBitmap オブジェクトとして返します。
ExtractAllRawImages : 埋め込まれたすべての画像を生のバイトのリストとして取得します (byte[])。
ExtractImagesFromPage : インデックスページに含まれる画像を抽出します。
ExtractImagesFromPages : ExtractImagesFromPage と同じですが、特定のページ範囲または個々のページのリストから取得されます。
ExtractRawImagesFromPages : 前の 2 つの方法と同じように動作しますが、抽出された画像を IronSoftware.Drawing.AnyBitmap オブジェクトではなくバイト配列として返します。