ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
この記事では、PDFパーサーNode.jsライブラリのIronPDFを使ってNode.jsでPDFを解析する方法を紹介します。
クロスプラットフォームでオープンソースのNode.jsは、JavaScript実行環境であり、ウェブブラウザの外部でJavaScriptコードを実行できます。 プログラマーは、サーバーサイドJavaScriptまたはJSモジュールの実行を可能にすることで、拡張性が高く、迅速で効果的なネットワークアプリケーションを作成できます。 Node.jsは、イベント駆動、ノンブロッキングI/Oモデルであるため、インタラクティブなフォーム要素で一度に複数の接続を管理するリアルタイムアプリケーションの開発に最適です。
Node.jsは、Webサーバー、API、データストリーミングアプリケーション、リアルタイムチャットアプリケーション、モノのインターネット(Internet of Things)など、幅広いアプリケーションを作成するためによく使用されます。(IoT)デバイスおよびその他。 全般的に見ると、Node.jsはその効果性、速度、ならびにフロントエンドとバックエンドの両方でJavaScriptと互換性があることから人気が高まっています。これにより、フルスタック開発用に単一の言語が提供されます。 ここをチェック説明ウェブサイトドキュメントページで Node.js について詳しく学んでください。
読み取り可能なストリームのためにPDFを解析するには、Node.jsパッケージをダウンロードしてください。
IronPDF for Node.jsライブラリをインストールしてください。
新しいPDFを作成するか、解析済みのドキュメントデータを使用して既存のPDFをインポートします。
テキストのすべての行を抽出するには抜粋テキストメソッド。
2022年1月に私が最後に知識を更新した時点では、IronPDFは主に.NET Frameworkで動作するように構築された.NETライブラリであり、開発者はC#やVB.NETを使ってPDFドキュメントを扱うことができます。 しかし、Node.js専用に作られたネイティブまたは直接のバージョンのIronPDFはありませんでした。
IronPDFはNode.js用のバインディングをサポートし、含むように拡張されたため、Node.jsアプリケーションでPDFドキュメントを作成、編集、処理するためのツールが、IronPDF for Node.jsで利用可能になったことを意味します。
PDF ファイルの取得および修正は、ページメタデータの取り扱いとして知られています。
IronPDF が製品の範囲を拡大して Node.js バージョンを含めるようになった場合、Node.js アプリを作成する開発者が IronPDF の PDF 操作機能を利用するための方法を提供できるかもしれません。 これは、.NET環境でIronPDFに似た機能を提供するライブラリを使用したいと考えている開発者にとって役立つかもしれません。
IronPDFの機能、互換性、およびNode.jsのサポートに関する最新情報を得るためには、常にIronPDFチームによる公式ドキュメント、リリースノート、またはアップデートを参照してください。 IronPDFと各リリースの新機能についてはこちらをご覧ください。 IronPDFについて詳しくはこちらをご覧ください。公式ドキュメントページ.
Visual Studio CodeはIDEです。
Node.js
コマンドプロンプトまたはターミナルを起動:コマンドプロンプトまたはターミナルを開きます。 お使いのオペレーティングシステムに基づいてアクセスするためのさまざまな方法があります。
Linux上のターミナル
パッケージをまとめる: パッケージをインストールするには、パッケージ名とnpm installコマンドを使用します。 例えば、@ironsoftware/ironPDF
パッケージをインストールするには、ターミナルで以下のコマンドを実行します:
npm i @ironsoftware/ironpdf
ironsoftware/ironPdf`をインストールしたいパッケージ名に置き換えてください。 実際のパッケージをインストールするために。
IronPDFのインストール
実験から、IronPDFがNode.jsでPDFを扱うための多くの機能を提供していることがわかります。 必要なフォーマットでPDF文書を生成、表示、変更することに重点を置いています。 PDFファイルは解析が非常に簡単です。
const { PdfDocument } = require("@ironsoftware/ironpdf");
const pdfprocess = async () => {
// Load the existing PDF document
const pdf = await PdfDocument.fromFile("Demo.pdf");
var data = await pdf.extractText();
console.log(data);
};
pdfprocess();
翻訳の重要性fromFile
関数は、上のコードで示されています。 fromFileメソッドは、PDFドキュメントを読み込み、PDFファイルを[
PdfDocument(PDFドキュメント)](/nodejs/object-reference/api/classes/PdfDocument.html)オブジェクトは、既存のファイルシステムからファイルをロードします。 このように、
PdfDocumentはPDFのメタデータを保持します。 PDFオブジェクト内のファイルメタデータは、ユーザーの希望に応じて使用できます。 このオブジェクトで解析されたドキュメントのデータは、PDFページのオブジェクト内に含まれているテキストおよびグラフィックスです。 extractText
関数は、提供されたPDFファイルからすべてのテキストを抽出するために使用されます。その後、取り出されたテキストは文字列として保存され、JSON形式の作成などの追加処理のために準備されます。
以下は、PDFファイルの各ページから明示的にテキストを抽出するための第2のアプローチのコードです。
const pdf = await PdfDocument.fromFile("Demo.pdf");
var pagecount = await pdf.getPageCount();
for (var i = 0; i < pagecount; i++) {
var spdf = await pdf.extractText(i);
console.log(spdf);
}
このサンプルコードでは、既にメモリ内にあるPDFから読み込まれた生のPDFが、指定されたディレクトリからそのまま読み込まれ、pdfという名前のPdfDocument
オブジェクトが作成されます。 PDFドキュメントは、いくつかの基本的なデータオブジェクトタイプから構成されるデータ構造です。 PDFファイルの各ページデータは、PDFオブジェクト内でページ番号またはページインデックスを使用して取得され、順番に処理されることを保証します。 まずgetPageCount`PDFオブジェクトのメソッドで、与えられたPDFの総ページ数を求めます。
For ループは、このページカウントを使用して各ページを繰り返し、各 PDF ページからテキストを取得するために extractText
関数を呼び出します。 抽出されたテキストはユーザーの画面に表示することも、文字列変数に保存することもできます。 この技術により、個々のPDFページからテキストを整理された方法で抽出することが可能になります。 これらの技術は、IronPDF for Node.jsライブラリがPDFファイルからテキストを簡単かつ完全に抽出する方法を示しています。 このアクセシビリティにより、PDFはさまざまな状況での有用性が向上し、実用的な用途が数多くあります。
**ページごとにPDFを読む
上記の両方のコードは同じ出力を返しますが、ユーザーの要件に基づいたコードの実装が異なります。 IronPDFについて詳しくはこちらをご覧ください。ドキュメント詳細ページ.
IronPDFライブラリは、リスクを低減し、データセキュリティを確保するための強力なセキュリティ対策を提供します。 すべての人気ブラウザと互換性があり、特定のブラウザに限定されません。 開発者の様々な要求に応えるために、ライブラリは無料の開発者ライセンスや購入可能な追加の開発ライセンスなど、幅広いライセンスオプションを提供しています。
永久ライセンスに加えて、1年間のソフトウェアメンテナンスおよび30日間の返金保証が付いている $749 Lite バンドルには、アップグレードの可能性が含まれています。 ユーザーは、透かし付きの試用期間中に、実際のアプリケーションの状況で製品を評価する機会があります。 以下を日本語に翻訳します:
提供された情報を確認してくださいライセンスページIronPDF のコスト、ライセンス、および試用版の詳細については、こちらをご覧ください。 Iron Software が提供するその他の製品について知るには、公式ウェブサイト.
Iron Softwareの価格。
9つの .NET API製品 オフィス文書用