IRONPDF FOR NODE.JSを使用する

Node.jsでPDFから画像を抽出する方法

PDFから画像を抽出することは、ファイル処理、データ抽出、またはドキュメントプレビューの作成を目的とする多くの開発者にとって一般的なタスクです。 この記事では、強力なPDFライブラリであるIronPDFを使用してPDFから画像を抽出して保存する方法と、そのNPMパッケージを介してNode.js環境にどのように統合できるかを探ります。

IronPDF Node.jsを使用してPDFファイルから画像を抽出する方法

  1. Node.jsアプリケーションをセットアップする。

  2. IronPDFのNPMパッケージをインストールします。

  3. PDFを抽出の準備をする。

  4. PDFファイルから画像を抽出して保存します。

前提条件

まだNode.jsをインストールしていない場合は、https://nodejs.org/からダウンロードしてインストールしてください。

IronPDF NPMパッケージの紹介

IronPDF NPMパッケージは、もともと.NET環境用に設計されたIronPDFライブラリのNode.jsラッパーです。 これは、開発者がNode.jsアプリケーションでIronPDFの強力なPDF操作機能を活用することを可能にします。 このパッケージは、PDFドキュメントを扱う際に特に有用であり、ファイル処理、レポート生成など、多くの実世界のアプリケーションで役立つ幅広い機能を提供します。

Node.jsにおけるIronPDFの主要機能

  1. PDF作成:

    IronPDFは、HTMLコンテンツ、画像、または生のテキストなど、さまざまなソースからPDFを作成できます。 この機能は、レポート、請求書、その他のドキュメントをPDF形式で生成する必要があるウェブアプリケーションに非常に役立ちます。

    IronPDFは、HTMLコンテンツのスタイルとフォーマットをサポートしており、ウェブページを構造化されたPDFドキュメントに変換するのに最適な選択です。

  2. PDF編集:

    IronPDFを使用すると、テキスト、画像、注釈を追加し、レイアウトを変更することにより、既存のPDFを操作できます。 複数のPDFを1つに結合したり、大きなドキュメントを小さな部分に分割したり、PDF内のページを順序変更したりすることもできます。

    これらの機能により、ドキュメント管理システムや自動化されたドキュメント生成を必要とするアプリケーションなど、PDFを動的に変更する必要があるアプリケーションに最適です。

  3. PDF変換

    IronPDFの際立った機能の一つは、PDFを様々な他の形式に変換できる能力です。 例えば、PDFドキュメントを画像(PNG、JPEG)、HTML、Word形式に変換することができます。

    この機能は、PDFのコンテンツをさまざまな形式で表示する必要がある場合や、ユーザーインターフェース用にPDFの画像プレビューを作成する場合に特に便利です。

  4. テキストと画像の抽出

    IronPDFにはPDFから生の画像を直接抽出するREST APIはありませんが、PDFページを画像(PNGやJPEGなど)としてレンダリングするためのメソッドを提供しており、これを間接的なコンテンツ抽出方法として使用できます。

    PDFの各ページを画像としてレンダリングすることができ、ドキュメントの視覚的表現を効果的にキャプチャし、後続の使用や表示のために保存することができます。

  5. ページを画像としてレンダリング

    IronPDFは、PDFページを高品質の画像に変換できます。 例えば、マルチページのPDFを各ページごとに1つずつPNGのシリーズに変換することができます。 これは、ページをサムネイルとして表示する必要がある場合や、画像ベースの形式で表示する必要がある場合に特に便利です。 さまざまな画像形式をサポートしています。

  6. セキュリティと暗号化

    IronPDFは暗号化されたPDFの操作をサポートしています。 これは、パスワードやその他の保護手段が必要なドキュメントを扱う際に、ドキュメントを開いたり、復号化したり、操作したりすることを可能にします。

  7. クロスプラットフォーム互換性:

    IronPDFは、WindowsおよびLinux環境の両方で互換性があり、サーバーサイドアプリケーションにとって多用途のツールです。 Node.jsラッパーは、IronPDFをNode.jsベースのアプリケーションに統合するプロセスを簡素化します。

ステップ 1: Node.js アプリケーションをセットアップする

まず、ローカルマシンにフォルダーを作成し、Visual Studio Codeを開いてNode.jsプロジェクトフォルダーを設定します。

mkdir PdfImageExtractor
cd PdfImageExtractor
code .
mkdir PdfImageExtractor
cd PdfImageExtractor
code .
SHELL

ステップ 2: IronPDF の NPM パッケージをインストールする

Windows または Linux マシンに基づいて、IronPDF Node.js パッケージとそのサポートパッケージをインストールします。

npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
SHELL

パッケージ@ironsoftware/ironpdf-engine-windows-x64は、Windows 64ビットシステム向けに特別に設計されたIronPDFライブラリのプラットフォーム固有バージョンです。

ウィンドウズ専用バイナリ(64ビット)

IronPDFライブラリにはプラットフォーム固有の依存関係があります。 Node.jsがIronPDFと効率的に動作するためには、特定のオペレーティングシステムやアーキテクチャに合わせたネイティブバイナリが必要です。 この場合、@ironsoftware/ironpdf-engine-windows-x64 パッケージはWindows 64ビット環境用のネイティブエンジンを提供します。

最適化されたパフォーマンス

このWindows専用パッケージを使用することで、IronPDFライブラリがWindowsベースのシステムで最適に動作することを保証します。 それは、PDFのレンダリングや操作に関連するものなど、すべてのネイティブ依存関係が互換性があり、あなたのマシンでスムーズに機能することを保証します。

3. インストールの簡素化

Windows 64ビットシステム用に必要なバイナリを手動で管理および設定する代わりに、@ironsoftware/ironpdf-engine-windows-x64パッケージをインストールすると、このプロセスが自動化されます。 これにより時間が節約され、潜在的な互換性の問題が解消されます。

4. クロスプラットフォーム互換性

IronPDFはmacOSやLinuxなどの他のプラットフォームもサポートしています。 プラットフォーム固有のパッケージを提供することで、開発者は自分のオペレーティングシステムに適したバイナリを使用でき、ライブラリの全体的な安定性と信頼性が向上します。

5. 特定の機能に必要

特定のIronPDF機能(PDFを画像にレンダリングしたり、複雑なドキュメント操作を行ったりするなど)を使用している場合は、ネイティブエンジンが必要です。 @ironsoftware/ironpdf-engine-windows-x64 パッケージには、特にWindowsベースの環境向けにこのエンジンが含まれています。

ステップ3: 抽出のためにPDFを準備する

PDFファイルを取得し、抽出を行います。 アプリケーションで使用するパスをコピーします。 この記事は以下のファイルを使用します。

Node.jsでPDFから画像を抽出する方法: 図1 - サンプルファイル

ステップ4: PDFファイルから画像を抽出して保存

次に、上記のステップで使用したファイルを利用し、以下のコードスニペットをNode.jsプロジェクトフォルダのapp.jsファイルに記述します。

const fs = require('fs');
const { IronPdfGlobalConfig, PdfDocument } = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
 (async () => {
    // Extracting Image and Text content from Pdf Documents
    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("ironPDF.pdf");
    // Get all text to put in a search index and log it
    const text = await pdf.extractText();
    console.log('All Text:'+text);
    // Get all Images
    const imagesBuffer = await pdf.extractRawImages();
    console.log('images count:'+imagesBuffer.length);
    fs.writeFileSync("./file1.jpg", imagesBuffer[0]);
   // this code can also be in rest api
})();
var msg = 'Complete!';
console.log(msg); //log complete in console
js
JAVASCRIPT

アプリを実行する:

node app.js
node app.js
SHELL

コードの説明

このコードスニペットの例は、IronPDF ライブラリを Node.js で使用して PDF ドキュメントからテキストと画像(JPG形式)を抽出する方法を示しています。

  1. ライセンス設定: IronPdfGlobalConfigは、ライブラリの機能を使用するために必要なIronPDFのライセンスキーを設定するために使用されます。

  2. PDFロード: このコードは、PdfDocument.fromFile() メソッドを使用して PDF ドキュメント (ironPDF.pdf) をロードします。 これにより、プログラムはPDFの内容を操作することができます。

  3. テキスト抽出: extractText() メソッドは、読み込まれたPDFからすべてのテキストを抽出するために使用されます。 このテキストは、ドキュメントの索引付けや検索のようなタスクに使用できます。

  4. 画像抽出: extractRawImages() メソッドは、PDFから生の画像を抽出するために使用されます。 これらの画像はバッファとして返され、保存またはさらに処理することができます。

  5. 画像の保存: 抽出された画像は、Nodeのfs.writeFileSync()メソッドを使用してローカルファイルシステムにJPGファイルとして保存されます。

  6. 最終出力: 抽出が完了すると、プログラムは抽出されたテキストと抽出された画像の数を出力した後、最初の画像を保存します。

    このコードは、IronPDFを使用してPDFファイルと対話し、Node.js環境内でコンテンツを抽出および処理する方法を示しています。

出力

Node.js で PDF から画像を抽出する方法: 図 2 - コンソール出力

Node.js で PDF から画像を抽出する方法: 図 3 - 画像出力

ライセンス(試用版あり)

IronPDF Node.jsの動作にはライセンスキーが必要です。 開発者は、ライセンスページからメールIDを使用してトライアルライセンスを取得できます。 メールIDを提供すると、キーがメールに配信され、以下のようにアプリケーションで使用できます。

const { IronPdfGlobalConfig} = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
js
JAVASCRIPT

結論

Node.jsでIronPDFを使用してPDFから画像を抽出することは、PDFコンテンツを処理するための堅牢で効率的な方法を提供します。 IronPDFは、いくつかの専門的なツールのように直接的な画像抽出を提供していませんが、PDFページを画像としてレンダリングすることができ、文書の視覚的な表現を作成するのに役立ちます。

ライブラリがPDFからテキストと画像の両方を簡単に抽出できる能力は、PDFコンテンツを処理および操作する必要があるアプリケーションにとって貴重なツールとなっています。 Node.jsとの統合により、開発者はWebまたはサーバーサイドアプリケーションにPDF抽出を容易に組み込むことができます。

全体的に、IronPDF は PDF 操作において強力なソリューションであり、PDF の変換、保存、および画像の抽出などの柔軟性を提供し、文書インデックス作成、プレビュー生成、コンテンツ抽出などの広範なユースケースに適しています。 ただし、PDFから埋め込まれた画像を抽出することに専念している場合、他のライブラリを検討することで、より専門的な解決策が得られるかもしれません。

Darrius Serrant
フルスタックソフトウェアエンジニア(WebOps)

Darrius Serrantは、マイアミ大学でコンピュータサイエンスの学士号を取得しており、Iron SoftwareでフルスタックWebOpsマーケティングエンジニアとして働いています。若い頃からコーディングに魅了され、コンピューティングを神秘的でありながらアクセスしやすいものと見なし、それが創造性と問題解決のための完璧な媒体であると感じました。

Iron Softwareでは、新しいものを作り出し、複雑な概念を簡単にすることでより理解しやすくすることを楽しんでいます。彼は常駐の開発者の一人として、学生に教えることを志願し、自分の専門知識を次世代と共有しています。

Darriusにとって、彼の仕事は評価され、実際に影響があることで充実しています。

次へ >
Node.jsでPDFファイルを編集する方法