IRONPDF FOR NODE.JSを使用する

Node.jsでPDFドキュメントを解析する方法

更新済み 12月 12, 2023
共有:

イントロダクション

ポータブルドキュメントフォーマットはPDFと呼ばれます。 Adobeは、オペレーティングシステム、ハードウェア、またはアプリケーションソフトウェアに依存せずに、テキスト書式設定や画像を含むドキュメントを表示したり、オブジェクトを解析したりするためのファイル形式を開発しました。 PDFファイルおよびドキュメントタイトルには、テキスト、写真、フォーム、インタラクティブボタン、ハイパーリンク、埋め込みフォント、その他の素材が含まれています。 PDFファイルは、そのページオブジェクトのフォーマットおよびPDFバッファメタデータが、さまざまなデバイスやソフトウェアで維持されるため、文書共有に頻繁に利用されます。 書式設定やレイアウトを同じ出力で保持する必要があるフォーム、電子書籍、マニュアル、およびその他の商品は、頻繁にPDF形式に変換されます。 この記事では、IronPDFを使用してNode.jsでPDFを解析する方法を見ていきます。

Nodeとは何ですか?

クロスプラットフォームでオープンソースのNode.jsは、JavaScript実行環境であり、ウェブブラウザの外部でJavaScriptコードを実行できます。 プログラマーは、サーバーサイドJavaScriptまたはJSモジュールの実行を可能にすることで、拡張性が高く、迅速で効果的なネットワークアプリケーションを作成できます。 Node.jsはイベント駆動型のノンブロッキングI/Oパラダイムであるため、インタラクティブなフォーム要素を使用して複数の接続を同時に管理するリアルタイムアプリケーションの開発に最適です。

Node.jsは、Webサーバー、API、データストリーミングアプリケーション、リアルタイムチャットアプリケーション、モノのインターネット(Internet of Things)など、幅広いアプリケーションを作成するためによく使用されます。 (IoT) デバイスおよびその他。 全般的に見ると、Node.jsはその効果性、速度、ならびにフロントエンドとバックエンドの両方でJavaScriptと互換性があることから人気が高まっています。これにより、フルスタック開発用に単一の言語が提供されます。 次をチェック リンク ドキュメントページで Node.js について詳しく学んでください。

Node.jsでPDFドキュメントを解析する方法

  1. 読み取り可能なストリームのためにPDFを解析するには、Node.jsパッケージをダウンロードしてください。

  2. IronPDF Node.jsライブラリをインストールする。

  3. 新しいPDFを作成するか、解析済みのドキュメントデータを使用して既存のPDFをインポートします。

  4. テキストのすべての行を抽出するには、「extractText()メソッド

  5. 生PDF読み取りのために解析されたPDFコンテンツを表示します。

Node.js 用 IronPDF

私の最新の知識更新である2022年1月時点では、IronPDFは主に.NETフレームワーク内で動作するように構築された.NETライブラリであり、開発者がC#やVB.NETを使用してPDFドキュメントを操作できるようにしていました。 しかし、Node.js専用に作られたネイティブまたは直接のバージョンのIronPDFはありませんでした。

IronPDFはNode.js用のバインディングをサポートし、含むように拡張されたため、Node.jsアプリケーションでPDFドキュメントを作成、編集、処理するためのツールが、IronPDF for Node.jsで利用可能になったことを意味します。

IronPDFの機能

  • HTMLからPDFへの生成: HTMLコンテンツをPDFドキュメントに変換する機能。
  • PDFファイルからテキスト、図形、画像、その他の要素の追加、変更、または削除は、テキストおよび画像の操作と呼ばれます。
  • PDFドキュメントの改変の例として、PDFファイルの結合、ページの抽出、PDFファイルの分割、暗号化および復号化があります。
  • フォーム処理はプログラミングを通じてフォームの記入、フォームデータの取得、およびPDFフォームの活用を含みます。
  • PDFセキュリティとは、PDFドキュメントに対してデジタル署名、暗号化、パスワード保護を使用することです。
  • PDF ファイルの取得および修正は、ページメタデータの取り扱いとして知られています。

    IronPDF が製品の範囲を拡大して Node.js バージョンを含めるようになった場合、Node.js アプリを作成する開発者が IronPDF の PDF 操作機能を利用するための方法を提供できるかもしれません。 これは、.NET環境でIronPDFに似た機能を提供するライブラリを使用したいと考えている開発者にとって役立つかもしれません。

    IronPDFの機能、互換性、およびNode.jsのサポートに関する最新情報を得るためには、常にIronPDFチームによる公式ドキュメント、リリースノート、またはアップデートを参照してください。 ソフトウェアライブラリは、私の最新の知識更新後に成長または変更されている可能性があります。 IronPDFについて詳しく知るには、こちらをご覧ください。 IronPDFについて詳しく知るには、参照してください。 これ.

パッケージ要件

  • Visual Studio CodeはIDEです。

    Node.js

  • パッケージのインストールにはパッケージ管理が必要であり、Yarn または npm を使用できます。

Node.js用のIronPDFパッケージをインストールする

コマンドプロンプトまたはターミナルを起動:コマンドプロンプトまたはターミナルを開きます。 お使いのオペレーティングシステムに基づいてアクセスするためのさまざまな方法があります。

  • Windows: PowerShell または コマンドプロンプト
  • Mac OS Xのターミナル

  • Linux上のターミナル

    パッケージをまとめる: パッケージをインストールするには、パッケージ名とnpm installコマンドを使用します。 例えば、パッケージ @ironsoftware/ironpdf をインストールするために、以下のコマンドをターミナルで実行してください。

 npm i @ironsoftware/ironpdf

インストールしたいパッケージの名前を @ironsoftware/ironpdf と置き換えてください。 実際のパッケージをインストールするために。

Node.jsでPDFドキュメントを解析する方法:図1 - IronPDFをインストール

PDFファイルを解析してデータを抽出する

実験から、IronPDFがNode.jsでPDFを扱うための多くの機能を提供していることがわかります。 それは、必要な形式で任意のPDFドキュメントを生成、表示、および変更することに集中しています。 PDFファイルは解析が非常に簡単です。

const { PdfDocument } = require("@ironsoftware/ironpdf");
const pdfprocess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  var data=await pdf.extractText();
  console.log(data);
};
pdfprocess();
JAVASCRIPT

上記のコードによってfromFile関数の重要性が示されています。 fromFileメソッドは、PDFドキュメントを読み取り、PDFファイルをPDFDocumentオブジェクトに変換することができ、既存のファイルシステムからファイルをロードします。 したがって、PdfDocumentはPDFのメタデータを保持します。 PDFオブジェクト内のファイルメタデータは、ユーザーの希望に応じて使用できます。 このオブジェクトで解析されたドキュメントのデータは、PDFページのオブジェクト内に含まれているテキストおよびグラフィックスです。 extractText関数は、提供されたPDFファイルからすべてのテキストを抽出するために使用されます。その後、取得されたテキストは文字列として保存され、JSON形式の作成などの追加処理に備えます。

ページ単位のテキスト抽出

以下は、PDFファイルの各ページから明示的にテキストを抽出するための第2のアプローチのコードです。

const pdf = await PdfDocument.fromFile("Demo.pdf");
  var pagecount = await pdf.getPageCount();
  for (var i = 0; i < pagecount; i++) {
    var spdf = await pdf.extractText(i);
    console.log(spdf);
  }
JAVASCRIPT

以下のサンプルコードでは、メモリ内に既に存在するPDFからの生のPDF読み取りが指定されたディレクトリから完全に読み込まれ、その後、PdfDocumentオブジェクトとしてpdfが作成されます。 PDFドキュメントは、いくつかの基本的なデータオブジェクトタイプから構成されるデータ構造です。 PDFファイルの各ページデータは、PDFオブジェクト内でページ番号またはページインデックスを使用して取得され、順番に処理されることを保証します。 まず、提供されたPDF内の総ページ数を特定するために、そのPDFオブジェクトのPageCountメソッドを使用します。

ループはこのページカウントを使用して各ページを反復処理し、各PDFページからテキストを取得するためにextractText関数を呼び出します。 抽出されたテキストはユーザーの画面に表示することも、文字列変数に保存することもできます。 この技術により、個々のPDFページからテキストを整理された方法で抽出することが可能になります。 これらの技術は、IronPDF for Node.jsライブラリがPDFファイルからテキストを簡単かつ完全に抽出する方法を示しています。 このアクセシビリティにより、PDFはさまざまな状況での有用性が向上し、実用的な用途が数多くあります。

Node.jsでPDFドキュメントを解析する方法: 図2 - PDFページごとの読み取り

上記の両方のコードは同じ出力を返しますが、ユーザーの要件に基づいたコードの実装が異なります。 IronPDFの詳細については、こちらをご覧ください これ.

結論

IronPDFライブラリは、リスクを低減し、データセキュリティを確保するための強力なセキュリティ対策を提供します。 すべての人気ブラウザと互換性があり、特定のブラウザに限定されません。 開発者の様々な要求に応えるために、ライブラリは無料の開発者ライセンスや購入可能な追加の開発ライセンスなど、幅広いライセンスオプションを提供しています。

永久ライセンスに加えて、1年間のソフトウェアメンテナンスおよび30日間の返金保証が付いている $749 Lite バンドルには、アップグレードの可能性が含まれています。 ユーザーは、透かし付きの試用期間中に、実際のアプリケーションの状況で製品を評価する機会があります。 以下を日本語に翻訳します:

提供された情報を確認してください リンク IronPDF のコスト、ライセンス、および試用版の詳細については、こちらをご覧ください。 アイアンソフトウェアが提供する他の製品について知るには、リンクをご確認ください。 これ.

Node.jsでPDFドキュメントを解析する方法: 図3

< 以前
Node.jsでPDFファイルを圧縮する方法
次へ >
Node.jsでURLからPDFファイルをダウンロードする方法

準備はできましたか? バージョン: 2024.9 新発売

無料のnpmインストール View Licenses >