透かしなしで本番環境でテストしてください。
必要な場所で動作します。
30日間、完全に機能する製品をご利用いただけます。
数分で稼働させることができます。
製品トライアル期間中にサポートエンジニアリングチームへの完全アクセス
Node.jsでのPDFからテキストへの変換は、特にデータ分析、コンテンツ管理システム、あるいは単純な変換ユーティリティを扱う場合、多くのアプリケーションで一般的なタスクです。 Node.js環境とIronPDFライブラリを使用すると、開発者はPDFドキュメントを使用可能なテキストデータに簡単に変換できます。 このチュートリアルは、IronPDFを使用してPDFページファイルからテキストを抽出するNode.jsプロジェクトのセットアッププロセスを初心者向けにガイドすることを目的としています。インストールの詳細、PDF解析の実装、エラーハンドリング、および実際の応用などの重要な側面に焦点を当てています。
IDEでNode.jsアプリケーションを作成してください。
npmを使用してPDFライブラリをインストールします。
PDFページをアプリケーションに読み込みます。
extractText メソッドを使用してテキストを抽出します。
この作業を始める前に、以下の項目を確認してください:
プロジェクト用の新しいディレクトリを作成し、Node.jsアプリケーションを初期化します。
mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
npmを使用してIronPDFをインストールする:
npm install ironpdf
npm install ironpdf
import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
js
最初のステップでは、必要なモジュールをインポートします。 PdfDocument および IronPdfGlobalConfig は、PDF ドキュメントの操作と IronPDF の設定にそれぞれ必要な @ironpdf/ironpdf パッケージからインポートされます。 fsモジュール、コアNode.jsモジュールは、ファイルシステム操作を処理するためにもインポートされます。
(async function createPDFs() {
// ...
})();
js
ここでは、createPDFs という非同期匿名関数が定義され、直ちに呼び出されます。 このセットアップにより、関数内でawaitを使用することができ、ファイルI/OやIronPDFのような外部ライブラリを扱う際によく見られる非同期操作の処理が容易になります。
const IronPdfConfig = {
licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
js
このステップでは、IronPDFのための設定オブジェクトを作成し、ライセンスキーを含め、IronPdfGlobalConfig.setConfigを使用してこの設定を適用します。 これはIronPDFのすべての機能を有効にするために重要です。特にライセンス版を使用している場合です。
const pdf = await PdfDocument.fromFile("report.pdf");
js
このステップでは、コードがPdfDocumentクラスのfromFileメソッドを正しく使用して、既存のPDFドキュメントを読み込みます。 これは非同期操作であるため、awaitを使用します。 PDFファイルのパスを指定することで(この場合は "old-report.pdf")、pdf 変数はPDFドキュメントの表現になり、完全にロードされてテキスト抽出の準備が整います。 このステップは重要です。ここでPDFファイルが解析され、テキストの抽出など、実行したい操作の準備が整えられます。
const text = await pdf.extractText();
js
ここで、extractText メソッドが pdf オブジェクトに対して呼び出されます。 この非同期操作は、読み込まれたPDFドキュメントからすべてのテキストを抽出し、それをtext変数に格納します。
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
js
このステップでは、抽出されたテキストを処理して単語数をカウントします。 これは、1つ以上の空白文字に一致する正規表現を使用してテキスト文字列を単語の配列に分割し、その結果得られる配列の長さを数えることによって実現されます。
fs.writeFileSync("extracted_text.txt", text);
js
この修正された行は、fsモジュールのwriteFileSyncメソッドを使用して、抽出されたテキストを同期的にファイルに書き込みます。
} catch (error) {
console.error("An error occurred:", error); //log error
}
js
最後に、そのコードにはエラーハンドリング用のtry-catchブロックが含まれています。 try ブロック内の非同期操作のいずれかの部分が失敗した場合、catch ブロックがエラーをキャッチし、メッセージがコンソールに記録されます。 これはデバッグと、アプリケーションが予期せぬ問題を優雅に処理できるようにするために重要です。
以下は、Node.js環境でIronPDFを使用してPDFドキュメントからテキストを抽出するために必要なすべてのステップをカプセル化した完全なコードです:
import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
(async function createPDFs() {
try {
// Input the license key
const IronPdfConfig = {
licenseKey: "Your-License-Key",
};
// Set the config with the license key
IronPdfGlobalConfig.setConfig(IronPdfConfig);
// Import existing PDF document
const pdf = await PdfDocument.fromFile("old-report.pdf");
// Get all text to put in a search index
const text = await pdf.extractText();
// Process the extracted text
// Example: Count words
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
// Save the extracted text to a text file
fs.writeFileSync("extracted_text.txt", text);
console.log("Extracted text saved to extracted_text.txt");
} catch (error) {
// Handle errors here
console.error("An error occurred:", error);
}
})();
js
このスクリプトには、PDFファイルからテキストを抽出するために必要なすべてのコンポーネントが含まれています。IronPDFをライセンスキーで設定し、PDFドキュメントをロードし、テキストを抽出し、シンプルなテキスト分析(この場合はワードカウント)を実行し、抽出されたテキストをファイルに保存します。コードは、Node.jsにおけるファイル操作とPDF処理の非同期性に対処するために非同期関数でラップされています。
スクリプトを実行すると、分析するための2つの重要なコンポーネントが得られます: 元のPDFファイルと抽出されたテキストを含むテキストファイル。 このセクションでは、スクリプトの出力を理解し評価する方法について案内します。
このプロセスのために選択したPDFファイルは、今回は「old-report.pdf」と名付けられたもので、出発点となります。 PDFドキュメントは、その複雑さと内容によって大きく異なる場合があります。 それらには単純で分かりやすいテキストが含まれているかもしれませんし、画像、テーブル、およびさまざまなテキスト形式が豊富に含まれているかもしれません。 PDFの構造と複雑さは、抽出プロセスに直接影響します。
スクリプトを実行した後、"extracted_text.txt"という名前の新しいテキストファイルが作成されます。 このファイルには、PDF文書から抽出されたすべてのテキストが含まれています。
そして、これがコンソールの出力です:
PDFからテキストを抽出することは、データマイニングや分析において特に有用です。 金融報告書、研究論文、その他のPDF文書を抽出する場合でも、PDFをテキストに変換する能力はデータ分析のタスクにとって重要です。
コンテンツ管理システムでは、さまざまなファイル形式を扱う必要があります。 IronPDFは、PDF形式で保存されたコンテンツの管理、アーカイブ、および取得を行うシステムの重要なコンポーネントとなることができます。
この包括的なガイドでは、IronPDFを使用してPDFドキュメントからテキストを抽出するためのNode.jsプロジェクトの設定方法について説明しました。 基本的なテキスト抽出から、テキストオブジェクト抽出やパフォーマンスの最適化などのより複雑な機能に至るまで、あなたは今、Node.jsアプリケーションで効率的なPDFテキスト抽出を実装するための知識を備えています。
覚えていてください、旅はここで終わりではありません。 PDF処理およびテキスト抽出の分野は広大で、まだまだ探求するべき機能や技術がたくさんあります。 このエキサイティングなソフトウェア開発の分野で挑戦を受け入れ、スキルを向上させ続けましょう。
IronPDFはユーザー向けに無料トライアルを提供していることは注目に値します。 IronPDFをプロフェッショナルな環境に統合したい方には、ライセンスオプションがあります。