フッターコンテンツにスキップ
IRONPDF FOR NODE.JS の使用

Node.js で PDF から画像を抽出する方法

IronPDF Node.js を使用して PDF ファイルから画像を抽出する方法

  1. Node.js アプリケーションをセットアップします。
  2. IronPDF NPM パッケージをインストールします。
  3. 抽出用の PDF を準備します。
  4. PDF ファイルから画像を抽出して保存します。

前提条件

まだ Node.js をインストールしていない場合は、https://nodejs.org/ からダウンロードしてインストールしてください。

IronPDF NPM パッケージの紹介

IronPDF NPM パッケージは、もともと .NET 環境向けに設計された IronPDF ライブラリの Node.js ラッパーです。 これにより、開発者は Node.js アプリケーションで IronPDF の強力な PDF 操作機能を活用できます。 このパッケージは特に PDF ドキュメントの処理に役立ち、ファイル処理やレポート生成など、多くの実用的なアプリケーションに役立つ機能を提供します。

Node.js における IronPDF の主な機能

  1. PDF の作成:

    IronPDF は、HTML コンテンツ、画像、または未加工のテキストを含むさまざまなソースから PDF を作成できます。 この機能は、レポート、請求書、その他のドキュメントを PDF 形式で生成する必要がある Web アプリケーションに非常に役立ちます。

    IronPDF は HTML コンテンツのスタイリングとフォーマットをサポートしており、Web ページを構造的に良好な PDF ドキュメントに変換するのに最適です。

  2. PDF の編集:

    IronPDF を使用すると、既存の PDF にテキスト、画像、注釈を追加してレイアウトを変更できます。 また、複数の PDF を 1 つにマージしたり、大きなドキュメントを小さな部分に分割したり、PDF 内のページを再順序付けすることもできます。

    これらの機能により、PDF を動的に変更する必要があるアプリケーション(ドキュメント管理システムや自動化されたドキュメント生成が必要なアプリケーションなど)に最適です。

  3. PDF の変換:

    IronPDF の注目すべき機能の 1 つは、PDF をさまざまな他の形式に変換する機能です。 たとえば、PDF ドキュメントを画像 (PNG、JPEG)、HTML、Word 形式に変換できます。

    この機能は、PDF の内容を異なる形式で提供したり、ユーザー インターフェース用に PDF の画像プレビューを作成する必要がある場合に特に役立ちます。

  4. テキストと画像の抽出:

    IronPDF には PDF から生の画像を直接抽出するための REST API はありませんが、PDF ページを画像 (PNG や JPEG など) としてレンダリングする方法を提供しており、これを間接的に使用してコンテンツを抽出できます。

    PDF の各ページを画像にレンダリングし、ドキュメントの視覚的な表現を効果的にキャプチャして、後で使用したり表示したりするために保存できます。

  5. ページを画像としてレンダリング:

    IronPDF は PDF ページを高品質の画像に変換できます。 たとえば、複数ページの PDF を PNG のシリーズに変換し、各ページに 1 つずつの PNG を作成できます。 これは、ページをサムネイルとして表示したり、画像ベースの形式で表示する必要がある場合に特に便利です。 さまざまな画像フォーマットタイプをサポートしています。

  6. セキュリティと暗号化:

    IronPDF は暗号化された PDF を操作することをサポートしています。 これは、パスワードやその他の保護手段が必要なドキュメントを扱うのに不可欠です。

  7. クロスプラットフォーム互換性:

    IronPDF は Windows と Linux 環境の両方と互換性があり、サーバー側アプリケーションにとって多用途なツールです。 Node.js ラッパーにより、IronPDF を Node.js ベースのアプリケーションに統合するプロセスが簡素化されます。

ステップ 1: Node.js アプリケーションをセットアップする

まず、ローカルマシンにフォルダーを作成して Visual Studio Code を開くことで、Node.js プロジェクト フォルダーを設定します。

mkdir PdfImageExtractor
cd PdfImageExtractor
code .
mkdir PdfImageExtractor
cd PdfImageExtractor
code .
SHELL

ステップ 2: IronPDF NPM パッケージをインストールする

Windows または Linux マシンに基づいて IronPDF Node.js パッケージとそのサポート パッケージをインストールします。

npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
SHELL

パッケージ @ironsoftware/ironpdf-engine-windows-x64 は Windows 64 ビット システム用に特別に設計された IronPDF ライブラリのプラットフォーム固有のバージョンです。

1. Windows (64 ビット) 用プラットフォーム固有バイナリ

IronPDF ライブラリにはプラットフォーム固有の依存関係があります。 Node.js が IronPDF を効率的に操作するには、特定のオペレーティング システムとアーキテクチャに合わせて調整されたネイティブ バイナリが必要です。 この場合、@ironsoftware/ironpdf-engine-windows-x64 パッケージは Windows 64 ビット 環境用のネイティブ エンジンを提供します。

2. 最適化されたパフォーマンス

この Windows 固有のパッケージを使用すると、IronPDF ライブラリが Windows ベースのシステムで最適に動作することが保証されます。 PDF のレンダリングや操作に関連するものなど、すべてのネイティブ依存関係が互換性があり、スムーズに機能することが保証されます。

3. インストールの簡略化

Windows 64 ビット システム用に必要なバイナリを手動で管理して設定する代わりに、@ironsoftware/ironpdf-engine-windows-x64 パッケージをインストールすることで、このプロセスを自動化できます。 これにより時間が節約され、互換性の問題が発生する可能性が排除されます。

4. クロスプラットフォーム互換性

IronPDF は macOS や Linux などの他のプラットフォームもサポートしています。 プラットフォーム固有のパッケージを提供することで、開発者はオペレーティング システムに適したバイナリを使用でき、ライブラリの全体的な安定性と信頼性が向上します。

5. 特定の機能に必要

特定の IronPDF 機能 (PDF を画像にレンダリングしたり、複雑なドキュメント操作を実行するなど) を使用している場合、ネイティブ エンジンが必要です。 @ironsoftware/ironpdf-engine-windows-x64 パッケージには、Windows ベース環境用に特化したこのエンジンが含まれています。

ステップ 3: 抽出用の PDF を準備する

抽出が必要な PDF ファイルを入手してください。 アプリケーションで使用するパスをコピーします。 この記事では以下のファイルを使用しています。

Node.js における PDF からの画像抽出: 図 1 - サンプルファイル

ステップ 4: PDF ファイルから画像を抽出して保存する

上記のステップでファイルを使用し、Node.js プロジェクト フォルダー内の app.js ファイルに以下のコードスニペットを書きます。

const fs = require('fs');
const { IronPdfGlobalConfig, PdfDocument } = require('@ironsoftware/ironpdf')

// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";

(async () => {
    // Extracting Image and Text content from Pdf Documents

    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("ironPDF.pdf");

    // Get all text to put in a search index and log it
    const text = await pdf.extractText();
    console.log('All Text: ' + text);

    // Get all Images as buffers
    const imagesBuffer = await pdf.extractRawImages();
    console.log('Images count: ' + imagesBuffer.length);

    // Save the first extracted image to the local file system
    fs.writeFileSync("./file1.jpg", imagesBuffer[0]);

    // Indicate completion
    console.log('Complete!');
})();

アプリを実行します:

node app.js
node app.js
SHELL

コードの説明

このコードスニペット例は、Node.js で IronPDF ライブラリを使用して、PDF ドキュメントからテキストと画像 (JPG 形式) を抽出する方法を示しています。

  1. ライセンス設定: IronPdfGlobalConfig を使用して、ライブラリの機能を利用するために必要な IronPDF のライセンスキーを設定します。

  2. PDF の読み込み: PdfDocument.fromFile() メソッドを使用して ironPDF.pdf PDF ドキュメントを読み込みます。 これにより、プログラムは PDF の内容を操作できます。

  3. テキストの抽出: extractText() メソッドを使用して、読み込まれた PDF からすべてのテキストを抽出します。 このテキストは、ドキュメントのインデックス付けや検索を行うために使用できます。

  4. 画像の抽出: extractRawImages() メソッドを使用して、PDF から生の画像を抽出します。 これらの画像はバッファとして返され、保存やさらなる処理に使用できます。

  5. 画像の保存: 抽出された画像は、Node の fs.writeFileSync() メソッドを使用して JPG ファイルとしてローカル ファイル システムに保存されます。

  6. 最終出力: 抽出が完了したら、プログラムは抽出されたテキスト、抽出された画像の数を出力し、最初の画像を保存します。

このコードは、Node.js 環境で PDF ファイルを操作してコンテンツを抽出し、処理する方法を示しています。

出力

Node.js における PDF からの画像抽出: 図 2 - コンソール出力

Node.js における PDF からの画像抽出: 図 3 - 画像出力

ライセンス (トライアル利用可能)

IronPDF Node.js を利用するにはライセンスキーが必要です。 開発者は、ライセンスページ からメールIDを使用してトライアルライセンスを取得できます。 メールIDを提供すると、そのキーがメールに送信され、以下のようにアプリケーションで使用できます。

const { IronPdfGlobalConfig } = require('@ironsoftware/ironpdf')

// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";

結論

Node.js で IronPDF を使用して PDF から画像を抽出することは、PDF コンテンツを処理するための強力で効率的な方法を提供します。 IronPDF は、いくつかの専門的なツールのように直接画像を抽出することはできませんが、PDF ページを画像としてレンダリングすることができ、ドキュメントの視覚的表現を作成するのに役立ちます。

ライブラリの PDF からテキストと画像をシンプルに抽出できる機能は、PDF コンテンツを処理および操作する必要があるアプリケーションにとって貴重なツールです。 Node.js との統合により、開発者は PDF 抽出を Web またはサーバー側アプリケーションに簡単に組み込むことができます。

全体として、IronPDF は PDF 操作の強力なソリューションであり、柔軟に PDF から変換、保存、画像を抽出することができ、文書のインデックス付け、プレビュー生成、コンテンツの抽出など、さまざまなユースケースに適しています。 しかし、埋め込まれた画像を PDF から抽出することに特化している場合は、他のライブラリを探索することで、より専門的なソリューションを提供する可能性があります。

よくある質問

Node.jsを使用してPDFファイルから画像を抽出するにはどうすればよいですか?

IronPDFをNode.jsで利用し、PDFページを画像としてレンダリングし、ファイルとして保存することができます。これには、Node.jsプロジェクトのセットアップ、IronPDFのインストール、およびPDFページを画像形式に変換するメソッドの使用が含まれます。

Node.jsでの画像抽出用にIronPDFをセットアップするにはどのような手順が必要ですか?

Node.jsでの画像抽出用にIronPDFをセットアップするには、Node.jsプロジェクトを作成し、IronPDF NPMパッケージをインストールし、その後IronPDFの機能を使用してPDFドキュメントを読み込み、そのページを画像としてレンダリングします。

IronPDFはNode.jsでPDFから直接画像を抽出できますか?

IronPDFは直接画像を抽出するわけではありませんが、PDFページを画像としてレンダリングできます。これらのレンダリングされた画像を保存することにより、PDFから画像コンテンツを効果的に抽出することができます。

Node.js環境でIronPDFを使用するための前提条件は何ですか?

前提条件には、Node.jsがインストールされていること、プロジェクトディレクトリのセットアップ、およびIronPDF NPMパッケージのインストール、最適なパフォーマンスを得るためのWindows 64ビット版などのプラットフォーム固有のパッケージが含まれます。

Node.jsでIronPDFを使用してPDF操作タスクをどのように扱いますか?

IronPDFを使用すると、Node.jsでPDFの作成、編集、変換、コンテンツ抽出などのタスクを実行できます。IronPDFのメソッドを使用してPDFを読み込み、必要に応じて操作できます。

Node.jsでのPDF操作にIronPDFを使用するにはライセンスが必要ですか?

はい、IronPDFの全機能にアクセスするにはライセンスが必要です。IronPDFのウェブサイトでメールアドレスを登録することで、トライアルライセンスを取得できます。

Node.jsでのPDFからの直接画像抽出に必要となる追加ライブラリは何ですか?

IronPDFはページを画像としてレンダリングできますが、埋め込み画像を直接PDFファイルから抽出するには、追加のライブラリを使用することを検討するかもしれません。

Node.jsアプリケーションでPDFを扱うためにIronPDFを選択する理由は何ですか?

IronPDFの堅牢さ、Node.jsとの統合のしやすさ、PDF作成、編集、コンテンツ抽出のための包括的な機能が、ウェブおよびドキュメント処理アプリケーションに適している理由です。

Darrius Serrant
フルスタックソフトウェアエンジニア(WebOps)

Darrius Serrantは、マイアミ大学でコンピュータサイエンスの学士号を取得し、Iron SoftwareでフルスタックWebOpsマーケティングエンジニアとして働いています。若い頃からコーディングに惹かれ、コンピューティングを神秘的かつアクセス可能なものとし、創造性と問題解決のための完璧な媒体と考えていました。

Iron Softwareでは、新しいものを創造することと、複雑なコンセプトをより理解しやすくすることを楽しんでいます。Resident Developerの一人として、次世代に専門知識を共有するために、学生を教えることにも志願しました。

Darriusにとって、その仕事は価値があり、実際の影響があるため、満足感があります。