IRONPDF FOR NODE.JSを使用する

Node.jsでPDFをテキストに変換する方法

イントロダクション

Node.jsでのPDFからテキストへの変換は、特にデータ分析、コンテンツ管理システム、あるいは単純な変換ユーティリティを扱う場合、多くのアプリケーションで一般的なタスクです。 Node.js環境とIronPDFライブラリを使用すると、開発者はPDFドキュメントを使用可能なテキストデータに簡単に変換できます。 このチュートリアルは、IronPDFを使用してPDFページファイルからテキストを抽出するNode.jsプロジェクトのセットアッププロセスを初心者向けにガイドすることを目的としています。インストールの詳細、PDF解析の実装、エラーハンドリング、および実際の応用などの重要な側面に焦点を当てています。

NodeJSでPDFをテキストに変換する方法

  1. IDEでNode.jsアプリケーションを作成してください。

  2. npmを使用してPDFライブラリをインストールします。

  3. PDFページをアプリケーションに読み込みます。

  4. extractText メソッドを使用してテキストを抽出します。

  5. 抽出したテキストを処理に使用し、データを返します。

前提条件

この作業を始める前に、以下の項目を確認してください:

  • Node.jsがコンピュータにインストールされています。
  • JavaScript に関する基本的な理解。
  • ラン抽出プロセスをテストするためのPDFファイル。

Node.jsプロジェクトのセットアップ

ステップ1: Node.jsアプリケーションを初期化する

プロジェクト用の新しいディレクトリを作成し、Node.jsアプリケーションを初期化します。

mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
SHELL

ステップ2: IronPDF のインストール

npmを使用してIronPDFをインストールする:

npm install ironpdf
npm install ironpdf
SHELL

IronPDFを使用したPDFからテキストへの変換の実装

ステップ1:必要なモジュールのインポート

import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
js
JAVASCRIPT

最初のステップでは、必要なモジュールをインポートします。 PdfDocument および IronPdfGlobalConfig は、PDF ドキュメントの操作と IronPDF の設定にそれぞれ必要な @ironpdf/ironpdf パッケージからインポートされます。 fsモジュール、コアNode.jsモジュールは、ファイルシステム操作を処理するためにもインポートされます。

ステップ 2: 非同期関数のセットアップ

(async function createPDFs() {
  // ...
})();
js
JAVASCRIPT

ここでは、createPDFs という非同期匿名関数が定義され、直ちに呼び出されます。 このセットアップにより、関数内でawaitを使用することができ、ファイルI/OやIronPDFのような外部ライブラリを扱う際によく見られる非同期操作の処理が容易になります。

ステップ3:ライセンスキーの適用

const IronPdfConfig = {
  licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
js
JAVASCRIPT

このステップでは、IronPDFのための設定オブジェクトを作成し、ライセンスキーを含め、IronPdfGlobalConfig.setConfigを使用してこの設定を適用します。 これはIronPDFのすべての機能を有効にするために重要です。特にライセンス版を使用している場合です。

ステップ 4: PDFドキュメントの読み込み

const pdf = await PdfDocument.fromFile("report.pdf");
js
JAVASCRIPT

このステップでは、コードがPdfDocumentクラスのfromFileメソッドを正しく使用して、既存のPDFドキュメントを読み込みます。 これは非同期操作であるため、awaitを使用します。 PDFファイルのパスを指定することで(この場合は "old-report.pdf")、pdf 変数はPDFドキュメントの表現になり、完全にロードされてテキスト抽出の準備が整います。 このステップは重要です。ここでPDFファイルが解析され、テキストの抽出など、実行したい操作の準備が整えられます。

ステップ5: PDFからテキストを抽出

const text = await pdf.extractText();
js
JAVASCRIPT

ここで、extractText メソッドが pdf オブジェクトに対して呼び出されます。 この非同期操作は、読み込まれたPDFドキュメントからすべてのテキストを抽出し、それをtext変数に格納します。

手順6: 抽出されたテキストの処理

const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
js
JAVASCRIPT

このステップでは、抽出されたテキストを処理して単語数をカウントします。 これは、1つ以上の空白文字に一致する正規表現を使用してテキスト文字列を単語の配列に分割し、その結果得られる配列の長さを数えることによって実現されます。

ステップ 7: 抽出されたテキストをファイルに保存する

fs.writeFileSync("extracted_text.txt", text);
js
JAVASCRIPT

この修正された行は、fsモジュールのwriteFileSyncメソッドを使用して、抽出されたテキストを同期的にファイルに書き込みます。

ステップ8:エラー処理

} catch (error) {
  console.error("An error occurred:", error); //log error
}
js
JAVASCRIPT

最後に、そのコードにはエラーハンドリング用のtry-catchブロックが含まれています。 try ブロック内の非同期操作のいずれかの部分が失敗した場合、catch ブロックがエラーをキャッチし、メッセージがコンソールに記録されます。 これはデバッグと、アプリケーションが予期せぬ問題を優雅に処理できるようにするために重要です。

コード全文

以下は、Node.js環境でIronPDFを使用してPDFドキュメントからテキストを抽出するために必要なすべてのステップをカプセル化した完全なコードです:

import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
(async function createPDFs() {
  try {
    // Input the license key
    const IronPdfConfig = {
      licenseKey: "Your-License-Key",
    };
    // Set the config with the license key
    IronPdfGlobalConfig.setConfig(IronPdfConfig);
    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("old-report.pdf");
    // Get all text to put in a search index
    const text = await pdf.extractText();
    // Process the extracted text
    // Example: Count words
    const wordCount = text.split(/\s+/).length;
    console.log("Word Count:", wordCount);
    // Save the extracted text to a text file
    fs.writeFileSync("extracted_text.txt", text);
    console.log("Extracted text saved to extracted_text.txt");
  } catch (error) {
    // Handle errors here
    console.error("An error occurred:", error);
  }
})();
js
JAVASCRIPT

このスクリプトには、PDFファイルからテキストを抽出するために必要なすべてのコンポーネントが含まれています。IronPDFをライセンスキーで設定し、PDFドキュメントをロードし、テキストを抽出し、シンプルなテキスト分析(この場合はワードカウント)を実行し、抽出されたテキストをファイルに保存します。コードは、Node.jsにおけるファイル操作とPDF処理の非同期性に対処するために非同期関数でラップされています。

出力の分析: PDF と抽出されたテキスト

スクリプトを実行すると、分析するための2つの重要なコンポーネントが得られます: 元のPDFファイルと抽出されたテキストを含むテキストファイル。 このセクションでは、スクリプトの出力を理解し評価する方法について案内します。

オリジナルのPDFドキュメント

このプロセスのために選択したPDFファイルは、今回は「old-report.pdf」と名付けられたもので、出発点となります。 PDFドキュメントは、その複雑さと内容によって大きく異なる場合があります。 それらには単純で分かりやすいテキストが含まれているかもしれませんし、画像、テーブル、およびさまざまなテキスト形式が豊富に含まれているかもしれません。 PDFの構造と複雑さは、抽出プロセスに直接影響します。

Node.jsでPDFをテキストに変換する方法: 図1 - 元のPDF

抽出されたテキストファイル

スクリプトを実行した後、"extracted_text.txt"という名前の新しいテキストファイルが作成されます。 このファイルには、PDF文書から抽出されたすべてのテキストが含まれています。

Node.jsでPDFをテキストに変換する方法: 図2 - 抽出されたテキスト

そして、これがコンソールの出力です:

Node.jsでPDFをテキストに変換する方法: 図3 - コンソール出力

実践的なアプリケーションと使用例

データマイニングと分析

PDFからテキストを抽出することは、データマイニングや分析において特に有用です。 金融報告書、研究論文、その他のPDF文書を抽出する場合でも、PDFをテキストに変換する能力はデータ分析のタスクにとって重要です。

コンテンツ管理システム

コンテンツ管理システムでは、さまざまなファイル形式を扱う必要があります。 IronPDFは、PDF形式で保存されたコンテンツの管理、アーカイブ、および取得を行うシステムの重要なコンポーネントとなることができます。

結論

Node.jsでPDFをテキストに変換する方法:図4 - ライセンス

この包括的なガイドでは、IronPDFを使用してPDFドキュメントからテキストを抽出するためのNode.jsプロジェクトの設定方法について説明しました。 基本的なテキスト抽出から、テキストオブジェクト抽出やパフォーマンスの最適化などのより複雑な機能に至るまで、あなたは今、Node.jsアプリケーションで効率的なPDFテキスト抽出を実装するための知識を備えています。

覚えていてください、旅はここで終わりではありません。 PDF処理およびテキスト抽出の分野は広大で、まだまだ探求するべき機能や技術がたくさんあります。 このエキサイティングなソフトウェア開発の分野で挑戦を受け入れ、スキルを向上させ続けましょう。

IronPDFはユーザー向けに無料トライアルを提供していることは注目に値します。 IronPDFをプロフェッショナルな環境に統合したい方には、ライセンスオプションがあります。

Darrius Serrant
フルスタックソフトウェアエンジニア(WebOps)

Darrius Serrantは、マイアミ大学でコンピュータサイエンスの学士号を取得しており、Iron SoftwareでフルスタックWebOpsマーケティングエンジニアとして働いています。若い頃からコーディングに魅了され、コンピューティングを神秘的でありながらアクセスしやすいものと見なし、それが創造性と問題解決のための完璧な媒体であると感じました。

Iron Softwareでは、新しいものを作り出し、複雑な概念を簡単にすることでより理解しやすくすることを楽しんでいます。彼は常駐の開発者の一人として、学生に教えることを志願し、自分の専門知識を次世代と共有しています。

Darriusにとって、彼の仕事は評価され、実際に影響があることで充実しています。

< 以前
Node.jsでPDFファイルを編集する方法
次へ >
Node.jsでPDFファイルを分割する方法