IRONPDF FOR NODE.JSを使用する

Node.jsでPDFドキュメントを解析する方法

この記事では、PDFパーサーNode.jsライブラリのIronPDFを使ってNode.jsでPDFを解析する方法を紹介します。

Nodeとは何ですか?

クロスプラットフォームでオープンソースのNode.jsは、JavaScript実行環境であり、ウェブブラウザの外部でJavaScriptコードを実行できます。 プログラマーは、サーバーサイドJavaScriptまたはJSモジュールの実行を可能にすることで、拡張性が高く、迅速で効果的なネットワークアプリケーションを作成できます。 Node.jsは、イベント駆動、ノンブロッキングI/Oモデルであるため、インタラクティブなフォーム要素で一度に複数の接続を管理するリアルタイムアプリケーションの開発に最適です。

Node.jsは、Webサーバー、API、データ構造ストリーミングアプリケーション、リアルタイムチャットアプリケーション、モノのインターネット (IoT) デバイスなど、幅広いアプリケーションの作成に頻繁に使用されます。 全般的に見ると、Node.jsはその効果性、速度、ならびにフロントエンドとバックエンドの両方でJavaScriptと互換性があることから人気が高まっています。これにより、フルスタック開発用に単一の言語が提供されます。 Node.jsについて詳しく学ぶために、こちらの解説ウェブサイトをご覧ください。

Node.jsでPDF文書を解析する方法

  1. 読み取り可能なストリームのためにPDFを解析するには、Node.jsパッケージをダウンロードしてください。

  2. IronPDF for Node.jsライブラリをインストールしてください。

  3. 新しいPDFを作成するか、解析済みのドキュメントデータを使用して既存のPDFをインポートします。

  4. すべてのテキスト行を抽出するには、extractText メソッドを使用します。

  5. 生PDF読み取りのために解析されたPDFコンテンツを表示します。

Node.js 用 IronPDF

2022年1月に私が最後に知識を更新した時点では、IronPDFは主に.NET Frameworkで動作するように構築された.NETライブラリであり、開発者はC#やVB.NETを使ってPDFドキュメントを扱うことができます。 しかし、Node.js専用に作られたネイティブまたは直接のバージョンのIronPDFはありませんでした。

IronPDFはNode.js用のバインディングをサポートし、含むように拡張されたため、Node.jsアプリケーションでPDFドキュメントを作成、編集、処理するためのツールが、IronPDF for Node.jsで利用可能になったことを意味します。

IronPDFの機能

  • HTML から PDF 生成: HTML コンテンツを PDF ドキュメントに変換する機能。
  • PDFファイルからのテキスト、図形、画像、その他の要素の追加、変更、または削除は、テキストと画像の操作と呼ばれます。
  • 結合、PDFファイルからのページ抽出、PDFファイルの分割、および暗号化と復号化はすべてPDFドキュメント変更の例です。
  • フォーム処理には、フォームの記入、フォームデータの取得、プログラミングによるPDFフォームの活用が含まれます。
  • PDFセキュリティとは、PDFドキュメントに対するデジタル署名、暗号化、およびパスワード保護の使用です。
  • PDF ファイルの取得および修正は、ページメタデータの取り扱いとして知られています。

    IronPDF が製品の範囲を拡大して Node.js バージョンを含めるようになった場合、Node.js アプリを作成する開発者が IronPDF の PDF 操作機能を利用するための方法を提供できるかもしれません。 これは、.NET環境でIronPDFに似た機能を提供するライブラリを使用したいと考えている開発者にとって役立つかもしれません。

    IronPDFの機能、互換性、およびNode.jsのサポートに関する最新情報を得るためには、常にIronPDFチームによる公式ドキュメント、リリースノート、またはアップデートを参照してください。 IronPDFと各リリースの新機能についてはこちらをご覧ください。 IronPDFについて詳しく知るには、この公式ドキュメントページを参照してください。

パッケージ要件

  • Visual Studio CodeはIDEです。
  • Node.js
  • パッケージのインストールにはパッケージ管理が必要であり、Yarn または npm を使用できます。

Node.js用IronPDFパッケージのインストール

コマンドプロンプトまたはターミナルを起動:コマンドプロンプトまたはターミナルを開きます。 お使いのオペレーティングシステムに基づいてアクセスするためのさまざまな方法があります。

  • Windows: PowerShell または コマンドプロンプト
  • Mac OS Xのターミナル
  • Linux上のターミナル

    パッケージをまとめる: パッケージをインストールするには、パッケージ名とnpm installコマンドを使用します。 例えば、パッケージ@ironsoftware/ironpdfをインストールするには、ターミナルで次のコマンドを実行します:

npm i @ironsoftware/ironpdf

@ironsoftware/ironpdfを、インストールしたいパッケージの名前に置き換えます。 実際のパッケージをインストールするために。

Node.jsでPDFドキュメントを解析する方法, 図1: IronPDFのインストール

IronPDF のインストール

PDFファイルを解析してデータを抽出する

実験から、IronPDFがNode.jsでPDFを扱うための多くの機能を提供していることがわかります。 必要なフォーマットでPDF文書を生成、表示、変更することに重点を置いています。 PDFファイルは解析が非常に簡単です。

const { PdfDocument } = require("@ironsoftware/ironpdf");

const pdfprocess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  var data = await pdf.extractText();
  console.log(data);
};
pdfprocess();
js
JAVASCRIPT

上記のコードは、fromFile 関数の重要性を示しています。 fromFile メソッドは、PDFドキュメントを読み込み、PDFファイルを PdfDocument オブジェクトに変換することを可能にし、既存のファイルシステムからファイルを読み込みます。 したがって、PdfDocument はPDFのメタデータを保持します。 PDFオブジェクト内のファイルメタデータは、ユーザーの希望に応じて使用できます。 このオブジェクトで解析されたドキュメントのデータは、PDFページのオブジェクト内に含まれているテキストおよびグラフィックスです。 extractText関数は、指定されたPDFファイルからテキストをすべて抽出するために使用されます。その後、取得されたテキストは文字列として保存され、JSON形式の作成などの追加処理のために準備されます。

ページ単位のテキスト抽出

以下は、PDFファイルの各ページから明示的にテキストを抽出するための第2のアプローチのコードです。

const pdf = await PdfDocument.fromFile("Demo.pdf");
var pagecount = await pdf.getPageCount();
for (var i = 0; i < pagecount; i++) {
  var spdf = await pdf.extractText(i);
  console.log(spdf);
}
js
JAVASCRIPT

このサンプルコードでは、メモリ内に既に存在するPDFからの生のPDF読み込みが指定されたディレクトリから完全にロードされ、その後、PdfDocumentという名前のオブジェクトが作成されます。 PDFドキュメントは、いくつかの基本的なデータオブジェクトタイプから構成されるデータ構造です。 PDFファイルの各ページデータは、PDFオブジェクト内でページ番号またはページインデックスを使用して取得され、順番に処理されることを保証します。 まず、PDFオブジェクトのgetPageCountメソッドを使用して、提供されたPDFの総ページ数を確認します。

for ループは、このページ数を使用して各ページを反復処理し、各PDFページからテキストを取得するためにextractText関数を呼び出します。 抽出されたテキストはユーザーの画面に表示することも、文字列変数に保存することもできます。 この技術により、個々のPDFページからテキストを整理された方法で抽出することが可能になります。 これらの技術は、IronPDF for Node.jsライブラリがPDFファイルからテキストを簡単かつ完全に抽出する方法を示しています。 このアクセシビリティにより、PDFはさまざまな状況での有用性が向上し、実用的な用途が数多くあります。

Node.jsでPDFドキュメントを解析する方法、図2: ページごとにPDFを読む

ページごとにPDFを読む

上記の両方のコードは同じ出力を返しますが、ユーザーの要件に基づいたコードの実装が異なります。 IronPDFについて詳しく知りたい場合は、この詳細なドキュメントページを参照してください。

結論

IronPDFライブラリは、リスクを低減し、データセキュリティを確保するための強力なセキュリティ対策を提供します。 すべての人気ブラウザと互換性があり、特定のブラウザに限定されません。 開発者の様々な要求に応えるために、ライブラリは無料の開発者ライセンスや購入可能な追加の開発ライセンスなど、幅広いライセンスオプションを提供しています。

恒久ライセンスに加えて、1年間のソフトウェアメンテナンスと30日間の返金保証、$749 Liteバンドルにはアップグレードの可能性が含まれます。 ユーザーは、透かし付きの試用期間中に、実際のアプリケーションの状況で製品を評価する機会があります。 IronPDFの費用、ライセンス、試用版に関する詳細は、提供されたライセンスページをご確認ください。 Iron Softwareが提供する他の製品について知るには、公式ウェブサイトをご覧ください。

Node.jsでPDFドキュメントを解析する方法、図3: Iron Softwareの価格設定

Iron Software の価格設定

Darrius Serrant
フルスタックソフトウェアエンジニア(WebOps)

Darrius Serrantは、マイアミ大学でコンピュータサイエンスの学士号を取得しており、Iron SoftwareでフルスタックWebOpsマーケティングエンジニアとして働いています。若い頃からコーディングに魅了され、コンピューティングを神秘的でありながらアクセスしやすいものと見なし、それが創造性と問題解決のための完璧な媒体であると感じました。

Iron Softwareでは、新しいものを作り出し、複雑な概念を簡単にすることでより理解しやすくすることを楽しんでいます。彼は常駐の開発者の一人として、学生に教えることを志願し、自分の専門知識を次世代と共有しています。

Darriusにとって、彼の仕事は評価され、実際に影響があることで充実しています。

< 以前
Node.jsでPDFファイルを圧縮する方法
次へ >
Node.jsでURLからPDFファイルをダウンロードする方法