IRONPDF FOR NODE.JSを使用する

Node.jsでPDFドキュメントを解析する方法

更新済み 2024年10月8日
共有:

この記事では、PDFパーサーNode.jsライブラリのIronPDFを使ってNode.jsでPDFを解析する方法を紹介します。

Nodeとは何ですか?

クロスプラットフォームでオープンソースのNode.jsは、JavaScript実行環境であり、ウェブブラウザの外部でJavaScriptコードを実行できます。 プログラマーは、サーバーサイドJavaScriptまたはJSモジュールの実行を可能にすることで、拡張性が高く、迅速で効果的なネットワークアプリケーションを作成できます。 Node.jsは、イベント駆動、ノンブロッキングI/Oモデルであるため、インタラクティブなフォーム要素で一度に複数の接続を管理するリアルタイムアプリケーションの開発に最適です。

Node.jsは、Webサーバー、API、データストリーミングアプリケーション、リアルタイムチャットアプリケーション、モノのインターネット(Internet of Things)など、幅広いアプリケーションを作成するためによく使用されます。(IoT)デバイスおよびその他。 全般的に見ると、Node.jsはその効果性、速度、ならびにフロントエンドとバックエンドの両方でJavaScriptと互換性があることから人気が高まっています。これにより、フルスタック開発用に単一の言語が提供されます。 ここをチェック説明ウェブサイトドキュメントページで Node.js について詳しく学んでください。

Node.jsでPDF文書を解析する方法

  1. 読み取り可能なストリームのためにPDFを解析するには、Node.jsパッケージをダウンロードしてください。

  2. IronPDF for Node.jsライブラリをインストールしてください。

  3. 新しいPDFを作成するか、解析済みのドキュメントデータを使用して既存のPDFをインポートします。

  4. テキストのすべての行を抽出するには抜粋テキストメソッド。

  5. 生PDF読み取りのために解析されたPDFコンテンツを表示します。

Node.js 用 IronPDF

2022年1月に私が最後に知識を更新した時点では、IronPDFは主に.NET Frameworkで動作するように構築された.NETライブラリであり、開発者はC#やVB.NETを使ってPDFドキュメントを扱うことができます。 しかし、Node.js専用に作られたネイティブまたは直接のバージョンのIronPDFはありませんでした。

IronPDFはNode.js用のバインディングをサポートし、含むように拡張されたため、Node.jsアプリケーションでPDFドキュメントを作成、編集、処理するためのツールが、IronPDF for Node.jsで利用可能になったことを意味します。

IronPDFの機能

  • HTMLからPDFへの生成:HTMLコンテンツをPDF文書に変換できること。
  • PDFファイルからテキスト、図形、画像、その他の要素を追加、変更、削除することは、次のように呼ばれます。テキストおよび画像操作.
  • 組み合わせPDFファイルからページを抽出する、PDFファイルの分割、および暗号化と復号化これらはすべて、PDF文書の改変の例です。
  • フォーム処理フォームの入力、フォームデータの取得、プログラミングによるPDFフォームの活用を説明します。
  • PDFセキュリティはデジタル署名暗号化パスワード保護PDFドキュメントのために。
  • PDF ファイルの取得および修正は、ページメタデータの取り扱いとして知られています。

    IronPDF が製品の範囲を拡大して Node.js バージョンを含めるようになった場合、Node.js アプリを作成する開発者が IronPDF の PDF 操作機能を利用するための方法を提供できるかもしれません。 これは、.NET環境でIronPDFに似た機能を提供するライブラリを使用したいと考えている開発者にとって役立つかもしれません。

    IronPDFの機能、互換性、およびNode.jsのサポートに関する最新情報を得るためには、常にIronPDFチームによる公式ドキュメント、リリースノート、またはアップデートを参照してください。 IronPDFと各リリースの新機能についてはこちらをご覧ください。 IronPDFについて詳しくはこちらをご覧ください。公式ドキュメントページ.

パッケージ要件

  • Visual Studio CodeはIDEです。

    Node.js

  • パッケージのインストールにはパッケージ管理が必要であり、Yarn または npm を使用できます。

Node.js用IronPDFパッケージのインストール

コマンドプロンプトまたはターミナルを起動:コマンドプロンプトまたはターミナルを開きます。 お使いのオペレーティングシステムに基づいてアクセスするためのさまざまな方法があります。

  • Windows: PowerShell または コマンドプロンプト
  • Mac OS Xのターミナル
  • Linux上のターミナル

    パッケージをまとめる: パッケージをインストールするには、パッケージ名とnpm installコマンドを使用します。 例えば、@ironsoftware/ironPDFパッケージをインストールするには、ターミナルで以下のコマンドを実行します:

npm i @ironsoftware/ironpdf

ironsoftware/ironPdf`をインストールしたいパッケージ名に置き換えてください。 実際のパッケージをインストールするために。

Node.jsでPDFドキュメントを解析する方法、図1: IronPDFのインストール

IronPDFのインストール

PDFファイルを解析してデータを抽出する

実験から、IronPDFがNode.jsでPDFを扱うための多くの機能を提供していることがわかります。 必要なフォーマットでPDF文書を生成、表示、変更することに重点を置いています。 PDFファイルは解析が非常に簡単です。

const { PdfDocument } = require("@ironsoftware/ironpdf");

const pdfprocess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  var data = await pdf.extractText();
  console.log(data);
};
pdfprocess();
JAVASCRIPT

翻訳の重要性fromFile関数は、上のコードで示されています。 fromFileメソッドは、PDFドキュメントを読み込み、PDFファイルを[PdfDocument(PDFドキュメント)](/nodejs/object-reference/api/classes/PdfDocument.html)オブジェクトは、既存のファイルシステムからファイルをロードします。 このように、PdfDocumentはPDFのメタデータを保持します。 PDFオブジェクト内のファイルメタデータは、ユーザーの希望に応じて使用できます。 このオブジェクトで解析されたドキュメントのデータは、PDFページのオブジェクト内に含まれているテキストおよびグラフィックスです。 extractText関数は、提供されたPDFファイルからすべてのテキストを抽出するために使用されます。その後、取り出されたテキストは文字列として保存され、JSON形式の作成などの追加処理のために準備されます。

ページ単位のテキスト抽出

以下は、PDFファイルの各ページから明示的にテキストを抽出するための第2のアプローチのコードです。

const pdf = await PdfDocument.fromFile("Demo.pdf");
var pagecount = await pdf.getPageCount();
for (var i = 0; i < pagecount; i++) {
  var spdf = await pdf.extractText(i);
  console.log(spdf);
}
JAVASCRIPT

このサンプルコードでは、既にメモリ内にあるPDFから読み込まれた生のPDFが、指定されたディレクトリからそのまま読み込まれ、pdfという名前のPdfDocumentオブジェクトが作成されます。 PDFドキュメントは、いくつかの基本的なデータオブジェクトタイプから構成されるデータ構造です。 PDFファイルの各ページデータは、PDFオブジェクト内でページ番号またはページインデックスを使用して取得され、順番に処理されることを保証します。 まずgetPageCount`PDFオブジェクトのメソッドで、与えられたPDFの総ページ数を求めます。

For ループは、このページカウントを使用して各ページを繰り返し、各 PDF ページからテキストを取得するために extractText 関数を呼び出します。 抽出されたテキストはユーザーの画面に表示することも、文字列変数に保存することもできます。 この技術により、個々のPDFページからテキストを整理された方法で抽出することが可能になります。 これらの技術は、IronPDF for Node.jsライブラリがPDFファイルからテキストを簡単かつ完全に抽出する方法を示しています。 このアクセシビリティにより、PDFはさまざまな状況での有用性が向上し、実用的な用途が数多くあります。

Node.jsでPDFドキュメントを解析する方法、図2:PDFをページごとに読む

**ページごとにPDFを読む

上記の両方のコードは同じ出力を返しますが、ユーザーの要件に基づいたコードの実装が異なります。 IronPDFについて詳しくはこちらをご覧ください。ドキュメント詳細ページ.

結論

IronPDFライブラリは、リスクを低減し、データセキュリティを確保するための強力なセキュリティ対策を提供します。 すべての人気ブラウザと互換性があり、特定のブラウザに限定されません。 開発者の様々な要求に応えるために、ライブラリは無料の開発者ライセンスや購入可能な追加の開発ライセンスなど、幅広いライセンスオプションを提供しています。

永久ライセンスに加えて、1年間のソフトウェアメンテナンスおよび30日間の返金保証が付いている $749 Lite バンドルには、アップグレードの可能性が含まれています。 ユーザーは、透かし付きの試用期間中に、実際のアプリケーションの状況で製品を評価する機会があります。 以下を日本語に翻訳します:

提供された情報を確認してくださいライセンスページIronPDF のコスト、ライセンス、および試用版の詳細については、こちらをご覧ください。 Iron Software が提供するその他の製品について知るには、公式ウェブサイト.

Node.jsでPDF文書を解析する方法、図3:Iron Softwareの価格設定

Iron Softwareの価格

< 以前
Node.jsでPDFファイルを圧縮する方法
次へ >
Node.jsでURLからPDFファイルをダウンロードする方法

準備はできましたか? バージョン: 2024.11 新発売

無料のnpmインストール ライセンスを表示 >