C#でPDFファイルを読む

string(27) "クリックしてコピー"

import {PdfDocument} from "@ironsoftware/ironpdf";

(async () => {
    // Extracting Image and Text content from Pdf Documents
    // Import existing PDF document
    const pdf = await PdfDocument.fromHtml("old_report.pdf");
    
    // Get all text to put in a search index
    const text = await pdf.extractText();
    
    // Get all Images
    const imagesBuffer = await pdf.extractRawImages();
    
    const pageCount = await pdf.getPageCount()
    // Or even find the precise text and images for each page in the document
    for (let index = 0; index < pageCount; index++) {
        text = await pdf.extractText([index]);
        imagesBuffer = await pdf.extractRawImages([index]);
    }
})();

C#でPDFファイルを読む

テキストと画像の抽出は、一つのドキュメント形式から別の形式に移行する際にデータの移行を容易にすることができます。抽出されたコンテンツは、よりアクセスしやすく編集可能な形式で保存でき、データ損失のリスクを軽減します。

埋め込まれた画像とテキストは、PDFドキュメントから独立して抽出できます。抽出されたテキストは通常の文字列であり、抽出された画像は画像バッファフォーマットであり、その後にエクスポートまたはさらに処理することができます。

PDF ドキュメントからテキストを抽出するには extractText メソッドを使用し、画像を抽出するには extractRawImages メソッドを使用します。

これを行う方法の修正されたコメント付きの例を次に示します:

上記の C# コードでは:

IronPDF ライブラリを使用してPDFドキュメントを読み込みます。
ExtractText() メソッドが呼び出され、PDF からテキストが取得されます。このテキストはコンソールに出力されます。
ExtractImages() メソッドは、バイト配列に格納されている画像を抽出するために使用されます。各画像は、指定されたファイル名でファイルシステムに保存されます。

これらのメソッドの使用方法についての詳細な指示は、IronPDFドキュメントをご覧ください。

IronPdfでPDFテキストを読むの詳細を見る