透かしなしで本番環境でテストしてください。
必要な場所で動作します。
30日間、完全に機能する製品をご利用いただけます。
数分で稼働させることができます。
製品トライアル期間中にサポートエンジニアリングチームへの完全アクセス
この記事では、PDFパーサーNode.jsライブラリのIronPDFを使ってNode.jsでPDFを解析する方法を紹介します。
クロスプラットフォームでオープンソースのNode.jsは、JavaScript実行環境であり、ウェブブラウザの外部でJavaScriptコードを実行できます。 プログラマーは、サーバーサイドJavaScriptまたはJSモジュールの実行を可能にすることで、拡張性が高く、迅速で効果的なネットワークアプリケーションを作成できます。 Node.jsは、イベント駆動、ノンブロッキングI/Oモデルであるため、インタラクティブなフォーム要素で一度に複数の接続を管理するリアルタイムアプリケーションの開発に最適です。
Node.jsは、Webサーバー、API、データ構造ストリーミングアプリケーション、リアルタイムチャットアプリケーション、モノのインターネット (IoT) デバイスなど、幅広いアプリケーションの作成に頻繁に使用されます。 全般的に見ると、Node.jsはその効果性、速度、ならびにフロントエンドとバックエンドの両方でJavaScriptと互換性があることから人気が高まっています。これにより、フルスタック開発用に単一の言語が提供されます。 Node.jsについて詳しく学ぶために、こちらの解説ウェブサイトをご覧ください。
読み取り可能なストリームのためにPDFを解析するには、Node.jsパッケージをダウンロードしてください。
IronPDF for Node.jsライブラリをインストールしてください。
新しいPDFを作成するか、解析済みのドキュメントデータを使用して既存のPDFをインポートします。
すべてのテキスト行を抽出するには、extractText
メソッドを使用します。
2022年1月に私が最後に知識を更新した時点では、IronPDFは主に.NET Frameworkで動作するように構築された.NETライブラリであり、開発者はC#やVB.NETを使ってPDFドキュメントを扱うことができます。 しかし、Node.js専用に作られたネイティブまたは直接のバージョンのIronPDFはありませんでした。
IronPDFはNode.js用のバインディングをサポートし、含むように拡張されたため、Node.jsアプリケーションでPDFドキュメントを作成、編集、処理するためのツールが、IronPDF for Node.jsで利用可能になったことを意味します。
PDF ファイルの取得および修正は、ページメタデータの取り扱いとして知られています。
IronPDF が製品の範囲を拡大して Node.js バージョンを含めるようになった場合、Node.js アプリを作成する開発者が IronPDF の PDF 操作機能を利用するための方法を提供できるかもしれません。 これは、.NET環境でIronPDFに似た機能を提供するライブラリを使用したいと考えている開発者にとって役立つかもしれません。
IronPDFの機能、互換性、およびNode.jsのサポートに関する最新情報を得るためには、常にIronPDFチームによる公式ドキュメント、リリースノート、またはアップデートを参照してください。 IronPDFと各リリースの新機能についてはこちらをご覧ください。 IronPDFについて詳しく知るには、この公式ドキュメントページを参照してください。
コマンドプロンプトまたはターミナルを起動:コマンドプロンプトまたはターミナルを開きます。 お使いのオペレーティングシステムに基づいてアクセスするためのさまざまな方法があります。
Linux上のターミナル
パッケージをまとめる: パッケージをインストールするには、パッケージ名とnpm installコマンドを使用します。 例えば、パッケージ@ironsoftware/ironpdf
をインストールするには、ターミナルで次のコマンドを実行します:
npm i @ironsoftware/ironpdf
@ironsoftware/ironpdf
を、インストールしたいパッケージの名前に置き換えます。 実際のパッケージをインストールするために。
IronPDF のインストール
実験から、IronPDFがNode.jsでPDFを扱うための多くの機能を提供していることがわかります。 必要なフォーマットでPDF文書を生成、表示、変更することに重点を置いています。 PDFファイルは解析が非常に簡単です。
const { PdfDocument } = require("@ironsoftware/ironpdf");
const pdfprocess = async () => {
// Load the existing PDF document
const pdf = await PdfDocument.fromFile("Demo.pdf");
var data = await pdf.extractText();
console.log(data);
};
pdfprocess();
js
上記のコードは、fromFile
関数の重要性を示しています。 fromFile
メソッドは、PDFドキュメントを読み込み、PDFファイルを PdfDocument
オブジェクトに変換することを可能にし、既存のファイルシステムからファイルを読み込みます。 したがって、PdfDocument
はPDFのメタデータを保持します。 PDFオブジェクト内のファイルメタデータは、ユーザーの希望に応じて使用できます。 このオブジェクトで解析されたドキュメントのデータは、PDFページのオブジェクト内に含まれているテキストおよびグラフィックスです。 extractText
関数は、指定されたPDFファイルからテキストをすべて抽出するために使用されます。その後、取得されたテキストは文字列として保存され、JSON形式の作成などの追加処理のために準備されます。
以下は、PDFファイルの各ページから明示的にテキストを抽出するための第2のアプローチのコードです。
const pdf = await PdfDocument.fromFile("Demo.pdf");
var pagecount = await pdf.getPageCount();
for (var i = 0; i < pagecount; i++) {
var spdf = await pdf.extractText(i);
console.log(spdf);
}
js
このサンプルコードでは、メモリ内に既に存在するPDFからの生のPDF読み込みが指定されたディレクトリから完全にロードされ、その後、PdfDocument
という名前のオブジェクトが作成されます。 PDFドキュメントは、いくつかの基本的なデータオブジェクトタイプから構成されるデータ構造です。 PDFファイルの各ページデータは、PDFオブジェクト内でページ番号またはページインデックスを使用して取得され、順番に処理されることを保証します。 まず、PDFオブジェクトのgetPageCount
メソッドを使用して、提供されたPDFの総ページ数を確認します。
for ループは、このページ数を使用して各ページを反復処理し、各PDFページからテキストを取得するためにextractText
関数を呼び出します。 抽出されたテキストはユーザーの画面に表示することも、文字列変数に保存することもできます。 この技術により、個々のPDFページからテキストを整理された方法で抽出することが可能になります。 これらの技術は、IronPDF for Node.jsライブラリがPDFファイルからテキストを簡単かつ完全に抽出する方法を示しています。 このアクセシビリティにより、PDFはさまざまな状況での有用性が向上し、実用的な用途が数多くあります。
ページごとにPDFを読む
上記の両方のコードは同じ出力を返しますが、ユーザーの要件に基づいたコードの実装が異なります。 IronPDFについて詳しく知りたい場合は、この詳細なドキュメントページを参照してください。
IronPDFライブラリは、リスクを低減し、データセキュリティを確保するための強力なセキュリティ対策を提供します。 すべての人気ブラウザと互換性があり、特定のブラウザに限定されません。 開発者の様々な要求に応えるために、ライブラリは無料の開発者ライセンスや購入可能な追加の開発ライセンスなど、幅広いライセンスオプションを提供しています。
恒久ライセンスに加えて、1年間のソフトウェアメンテナンスと30日間の返金保証、$749 Liteバンドルにはアップグレードの可能性が含まれます。 ユーザーは、透かし付きの試用期間中に、実際のアプリケーションの状況で製品を評価する機会があります。 IronPDFの費用、ライセンス、試用版に関する詳細は、提供されたライセンスページをご確認ください。 Iron Softwareが提供する他の製品について知るには、公式ウェブサイトをご覧ください。
Iron Software の価格設定