IRONPDF FOR NODE.JSを使用する

Node.jsでPDFをテキストに変換する方法

更新済み 1月 4, 2024
共有:

イントロダクション

Node.js のアプリケーションにおいて、特にデータ解析、コンテンツ管理システム、またはシンプルな変換ユーティリティを扱う場合、Node.js でPDFをテキストオブジェクトに変換する作業は一般的なタスクです。 Node.js環境と IronPDFライブラリ翻訳した日本語のコンテンツ: 、

開発者は簡単に PDF文書を使用可能なテキストデータに変換する. このチュートリアルは、IronPDFを使用してPDFページファイルからテキストを抽出するNode.jsプロジェクトのセットアッププロセスを初心者向けにガイドすることを目的としています。インストールの詳細、PDF解析の実装、エラーハンドリング、および実際の応用などの重要な側面に焦点を当てています。

NodeJSでPDFをテキストに変換する方法

  1. IDEでNode.jsアプリケーションを作成します。

  2. npmを使用してPDFライブラリをインストールする。3. PDFページをアプリケーションに読み込む。

  3. extractText メソッドを使用してテキストを抽出します。抽出したテキストを処理に使用し、データを返します。

前提条件

この作業を始める前に、以下の項目を確認してください:

  • Node.js マシンにインストールされています。
  • JavaScript に関する基本的な理解。

  • ラン抽出プロセスをテストするためのPDFファイル。

Node.jsプロジェクトのセットアップ

ステップ1: Node.jsアプリケーションを初期化する

プロジェクト用の新しいディレクトリを作成し、Node.jsアプリケーションを初期化します。

mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'mkdir pdf-@to-text-node cd pdf-@to-text-node npm init -y
VB   C#

ステップ2: IronPDF のインストール

npmを使用してIronPDFをインストールする:

npm install ironpdf
npm install ironpdf
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'npm install ironpdf
VB   C#

IronPDFを使用したPDFからテキストへの変換の実装

ステップ1:必要なモジュールのインポート

import { PdfDocument } from "@ironsoftware/ironpdf";
import { IronPdfGlobalConfig } from "@ironsoftware/ironpdf";
import fs from "fs";
import { PdfDocument } from "@ironsoftware/ironpdf";
import { IronPdfGlobalConfig } from "@ironsoftware/ironpdf";
import fs from "fs";
import
If True Then
	PdfDocument
End If
from "@ironsoftware/ironpdf"
import
If True Then
	IronPdfGlobalConfig
End If
from "@ironsoftware/ironpdf"
import fs from "fs"
VB   C#

最初のステップでは、必要なモジュールをインポートします。 PdfDocument および IronPdfGlobalConfig@ironsoftware/ironpdf パッケージからインポートされ、PDFドキュメントの操作およびIronPDFの設定にそれぞれ必要不可欠です。 fsモジュールは、ファイルシステム操作を処理するためにインポートされるNode.jsのコアモジュールです。

ステップ 2: 非同期関数のセットアップ

(async function createPDFs() {
  // ...
})();
(async function createPDFs() {
  // ...
})();
(async [function] createPDFs() { })()
VB   C#

ここでは、createPDFsという非同期の匿名関数が定義され、即座に呼び出されます。 このセットアップにより、関数内でawaitを使用することが可能になり、IronPDFのような外部ライブラリやファイルI/Oを扱う際に一般的な非同期操作の処理が容易になります。

ステップ3:ライセンスキーの適用

const IronPdfConfig = {
  licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
const IronPdfConfig = {
  licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
const IronPdfConfig = { licenseKey: "Your-License-Key"}
IronPdfGlobalConfig.setConfig(IronPdfConfig)
VB   C#

このステップでは、IronPDF の構成オブジェクトを作成し、ライセンスキーを含め、この構成を IronPdfGlobalConfig.setConfig を使用して適用します。 これはIronPDFのすべての機能を有効にするために重要です。特にライセンス版を使用している場合です。

ステップ 4: PDFドキュメントの読み込み

const pdf = await PdfDocument.fromFile("report.pdf");
const pdf = await PdfDocument.fromFile("report.pdf");
const pdf = Await PdfDocument.fromFile("report.pdf")
VB   C#

このステップでは、コードが PdfDocument クラスの fromFile メソッドを正しく使用して、既存のPDFドキュメントを読み込みます。 これは非同期操作であるため、awaitの使用が必要です。 PDFファイルのパスを指定することによって (この場合、「old-report.pdf」)、pdf 変数は、PDFドキュメントの完全にロードされたテキスト抽出の準備ができた表現になります。 このステップは重要です。ここでPDFファイルが解析され、テキストの抽出など、実行したい操作の準備が整えられます。

ステップ5: PDFからテキストを抽出

const text = await pdf.extractText();
const text = await pdf.extractText();
const text = Await pdf.extractText()
VB   C#

ここでは、pdfオブジェクトに対してextractTextメソッドが呼び出されています。 この非同期操作は、ロードされたPDFドキュメントからすべてのテキストを抽出し、それを text 変数に格納します。

手順6: 抽出されたテキストの処理

const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
const wordCount = text.split(/\s+/).length
console.log("Word Count:", wordCount)
VB   C#

このステップでは、抽出されたテキストを処理して単語数をカウントします。 これは、1つ以上の空白文字に一致する正規表現を使用してテキスト文字列を単語の配列に分割し、その結果得られる配列の長さを数えることによって実現されます。

ステップ 7: 抽出されたテキストをファイルに保存する

fs.writeFileSync("extracted_text.txt", extractedText);
fs.writeFileSync("extracted_text.txt", extractedText);
fs.writeFileSync("extracted_text.txt", extractedText)
VB   C#

このコードは、抽出されたテキストを extracted_text.txt という名前のファイルに保存することを意図しています。 しかし、ここには間違いがあるようです:変数 extractedText はコード内で定義されていません。 それは抽出されたテキストを保持するtextである必要があります。

fs.writeFileSync("extracted_text.txt", text);
fs.writeFileSync("extracted_text.txt", text);
fs.writeFileSync("extracted_text.txt", text)
VB   C#

修正されたこの行は、fsモジュールのwriteFileSyncメソッドを使用して、抽出されたテキストを同期的にファイルに書き込みます。

ステップ8:エラー処理

} catch (error) {
  console.error("An error occurred:", error); //log error
}
} catch (error) {
  console.error("An error occurred:", error); //log error
}
}
Catch e1 As [error]
  console.error("An error occurred:", [error]) 'log error
End Try
VB   C#

最後に、コードにはエラーハンドリングのためのtry-catchブロックが含まれています。 非同期操作のいずれかが try ブロック内で失敗した場合、catch ブロックがエラーをキャッチし、メッセージがコンソールに記録されます。 これはデバッグと、アプリケーションが予期せぬ問題を優雅に処理できるようにするために重要です。

コード全文

以下は、Node.js環境でIronPDFを使用してPDFドキュメントからテキストを抽出するために必要なすべてのステップをカプセル化した完全なコードです:

import { PdfDocument } from "@ironsoftware/ironpdf";
import { IronPdfGlobalConfig } from "@ironsoftware/ironpdf";
import fs from "fs";
(async function createPDFs() {
  try {
    // Input the license key
    const IronPdfConfig = {
      licenseKey: "Your-License-Key",
    };
    // Set the config with the license key
    IronPdfGlobalConfig.setConfig(IronPdfConfig);
    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("old-report.pdf");
    // Get all text to put in a search index
    const text = await pdf.extractText();
    // Process the extracted text
    // Example: Count words
    const wordCount = text.split(/\s+/).length;
    console.log("Word Count:", wordCount);
    // Save the extracted text to a text file
    fs.writeFileSync("extracted_text.txt", text);
    console.log("Extracted text saved to extracted_text.txt");
  } catch (error) {
    // Handle errors here
    console.error("An error occurred:", error);
  }
})();
import { PdfDocument } from "@ironsoftware/ironpdf";
import { IronPdfGlobalConfig } from "@ironsoftware/ironpdf";
import fs from "fs";
(async function createPDFs() {
  try {
    // Input the license key
    const IronPdfConfig = {
      licenseKey: "Your-License-Key",
    };
    // Set the config with the license key
    IronPdfGlobalConfig.setConfig(IronPdfConfig);
    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("old-report.pdf");
    // Get all text to put in a search index
    const text = await pdf.extractText();
    // Process the extracted text
    // Example: Count words
    const wordCount = text.split(/\s+/).length;
    console.log("Word Count:", wordCount);
    // Save the extracted text to a text file
    fs.writeFileSync("extracted_text.txt", text);
    console.log("Extracted text saved to extracted_text.txt");
  } catch (error) {
    // Handle errors here
    console.error("An error occurred:", error);
  }
})();
import
If True Then
	PdfDocument
End If
from "@ironsoftware/ironpdf"
import
If True Then
	IronPdfGlobalConfig
End If
from "@ironsoftware/ironpdf"
import fs from "fs"
(async [function] createPDFs() {
	try {
		const IronPdfConfig = { licenseKey:= "Your-License-Key"}; IronPdfGlobalConfig.setConfig(IronPdfConfig); const pdf = Await PdfDocument.fromFile("old-report.pdf"); const text = Await pdf.extractText(); const wordCount = text.split(/\s+/).length; console.log("Word Count:", wordCount); fs.writeFileSync("extracted_text.txt", text); console.log("Extracted text saved to extracted_text.txt");
	}
	catch ([error]) { console.error("An error occurred:", [error]); }
})()
VB   C#

このスクリプトは、PDFファイルからテキストを抽出するために必要なすべてのコンポーネントを含んでいます:ライセンスキーを使用してIronPDFをセットアップし、PDFドキュメントを読み込み、テキストを抽出し、簡単なテキスト分析を行います。 (今回の文字数)抽出されたテキストをファイルに保存します。コードは、Node.jsにおけるファイル操作とPDF処理の非同期性を扱うために非同期関数でラップされています。

出力の分析: PDF と抽出されたテキスト

スクリプトを実行すると、分析するための2つの重要なコンポーネントが得られます: 元のPDFファイルと抽出されたテキストを含むテキストファイル。 このセクションでは、スクリプトの出力を理解し評価する方法について案内します。

オリジナルのPDFドキュメント

このプロセスのために選んだPDFファイル、ここでは「old-report.pdf」という名前のファイルが出発点です。 PDFドキュメントは、その複雑さと内容によって大きく異なる場合があります。 それらには単純で分かりやすいテキストが含まれているかもしれませんし、画像、テーブル、およびさまざまなテキスト形式が豊富に含まれているかもしれません。 PDFの構造と複雑さは、抽出プロセスに直接影響します。

Node.jsでPDFをテキストに変換する方法: 図1 - オリジナルPDF

抽出されたテキストファイル

スクリプトを実行した後、"extracted_text.txt"という名前の新しいテキストファイルが作成されます。 このファイルには、PDF文書から抽出されたすべてのテキストが含まれています。

Node.jsでPDFをテキストに変換する方法: 図2 - 抽出されたテキスト

そして、これがコンソールの出力です:

Node.jsでPDFをテキストに変換する方法: 図3 - コンソール出力

実践的なアプリケーションと使用例

データマイニングと分析

PDFからテキストを抽出することは、データマイニングや分析において特に有用です。 金融報告書、研究論文、その他のPDF文書を抽出する場合でも、PDFをテキストに変換する能力はデータ分析のタスクにとって重要です。

コンテンツ管理システム

コンテンツ管理システムでは、さまざまなファイル形式を扱う必要があります。 IronPDFは、PDF形式で保存されたコンテンツの管理、アーカイブ、および取得を行うシステムの重要なコンポーネントとなることができます。

結論

Node.js で PDF をテキストに変換する方法: 図 4 - ライセンス

この包括的なガイドでは、IronPDFを使用してPDFドキュメントからテキストを抽出するためのNode.jsプロジェクトの設定方法について説明しました。 基本的なテキスト抽出から、テキストオブジェクト抽出やパフォーマンスの最適化などのより複雑な機能に至るまで、あなたは今、Node.jsアプリケーションで効率的なPDFテキスト抽出を実装するための知識を備えています。

覚えていてください、旅はここで終わりではありません。 PDF処理およびテキスト抽出の分野は広大で、まだまだ探求するべき機能や技術がたくさんあります。 このエキサイティングなソフトウェア開発の分野で挑戦を受け入れ、スキルを向上させ続けましょう。

IronPDFは提供していることを特筆すべきです 無料試用 その機能を探求するためにユーザーに。 プロフェッショナルな環境でIronPDFを統合しようと考えている方には、ライセンスはLite Licenseから始まります。

< 以前
Node.jsでPDFファイルを編集する方法
次へ >
Node.jsでPDFファイルを分割する方法

準備はできましたか? バージョン: 2024.9 新発売

無料のnpmインストール View Licenses >