ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
Node.jsでのPDFからテキストへの変換は、特にデータ分析、コンテンツ管理システム、あるいは単純な変換ユーティリティを扱う場合、多くのアプリケーションで一般的なタスクです。 Node.js環境とIronPDFライブラリ翻訳した日本語のコンテンツ: 、
開発者は簡単にPDF文書を使用可能なテキストデータに変換する. このチュートリアルは、IronPDFを使用してPDFページファイルからテキストを抽出するNode.jsプロジェクトのセットアッププロセスを初心者向けにガイドすることを目的としています。インストールの詳細、PDF解析の実装、エラーハンドリング、および実際の応用などの重要な側面に焦点を当てています。
IDEでNode.jsアプリケーションを作成してください。
npm**を使ってPDFライブラリをインストールしてください。
PDFページをアプリケーションに読み込みます。
extractText**メソッドを使用してテキストを抽出します。
この作業を始める前に、以下の項目を確認してください:
プロジェクト用の新しいディレクトリを作成し、Node.jsアプリケーションを初期化します。
mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'mkdir pdf-@to-text-node cd pdf-@to-text-node npm init -y
npmを使用してIronPDFをインストールする:
npm install ironpdf
npm install ironpdf
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'npm install ironpdf
import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
import
If True Then
PdfDocument
End If
from "@ironpdf/ironpdf"
import
If True Then
IronPdfGlobalConfig
End If
from "@ironpdf/ironpdf"
import fs from "fs"
最初のステップでは、必要なモジュールをインポートします。 PdfDocumentとIronPdfGlobalConfigは@ironpdf/ironpdfパッケージからインポートされたもので、それぞれPDFドキュメントの操作とIronPDFの設定に不可欠なものです。 fsモジュールは、ファイルシステム操作を処理するためにインポートされるNode.jsのコアモジュールです。
(async function createPDFs() {
// ...
})();
(async function createPDFs() {
// ...
})();
(async [function] createPDFs() { })()
ここでは、createPDFsという非同期の匿名関数が定義され、即座に呼び出されます。 このセットアップにより、関数内でawaitを使用することが可能になり、IronPDFのような外部ライブラリやファイルI/Oを扱う際に一般的な非同期操作の処理が容易になります。
const IronPdfConfig = {
licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
const IronPdfConfig = {
licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
const IronPdfConfig = { licenseKey: "Your-License-Key"}
IronPdfGlobalConfig.setConfig(IronPdfConfig)
このステップでは、IronPDF の構成オブジェクトを作成し、ライセンスキーを含め、この構成を IronPdfGlobalConfig.setConfig を使用して適用します。 これはIronPDFのすべての機能を有効にするために重要です。特にライセンス版を使用している場合です。
const pdf = await PdfDocument.fromFile("report.pdf");
const pdf = await PdfDocument.fromFile("report.pdf");
const pdf = Await PdfDocument.fromFile("report.pdf")
このステップでは、コードが PdfDocument クラスの fromFile メソッドを正しく使用して、既存のPDFドキュメントを読み込みます。 これは非同期操作であるため、awaitの使用が必要です。 PDFファイルのパスを指定することによって(この場合、「old-report.pdf」)、pdf 変数は、PDFドキュメントの完全にロードされたテキスト抽出の準備ができた表現になります。 このステップは重要です。ここでPDFファイルが解析され、テキストの抽出など、実行したい操作の準備が整えられます。
const text = await pdf.extractText();
const text = await pdf.extractText();
const text = Await pdf.extractText()
ここでは、pdfオブジェクトに対してextractTextメソッドが呼び出されています。 この非同期操作は、ロードされたPDFドキュメントからすべてのテキストを抽出し、それを text 変数に格納します。
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
const wordCount = text.split(/\s+/).length
console.log("Word Count:", wordCount)
このステップでは、抽出されたテキストを処理して単語数をカウントします。 これは、1つ以上の空白文字に一致する正規表現を使用してテキスト文字列を単語の配列に分割し、その結果得られる配列の長さを数えることによって実現されます。
fs.writeFileSync("extracted_text.txt", text);
fs.writeFileSync("extracted_text.txt", text);
fs.writeFileSync("extracted_text.txt", text)
修正されたこの行は、fsモジュールのwriteFileSyncメソッドを使用して、抽出されたテキストを同期的にファイルに書き込みます。
} catch (error) {
console.error("An error occurred:", error); //log error
}
} catch (error) {
console.error("An error occurred:", error); //log error
}
}
Catch e1 As [error]
console.error("An error occurred:", [error]) 'log error
End Try
最後に、コードにはエラーハンドリングのためのtry-catchブロックが含まれています。 非同期操作のいずれかが try ブロック内で失敗した場合、catch ブロックがエラーをキャッチし、メッセージがコンソールに記録されます。 これはデバッグと、アプリケーションが予期せぬ問題を優雅に処理できるようにするために重要です。
以下は、Node.js環境でIronPDFを使用してPDFドキュメントからテキストを抽出するために必要なすべてのステップをカプセル化した完全なコードです:
import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
(async function createPDFs() {
try {
// Input the license key
const IronPdfConfig = {
licenseKey: "Your-License-Key",
};
// Set the config with the license key
IronPdfGlobalConfig.setConfig(IronPdfConfig);
// Import existing PDF document
const pdf = await PdfDocument.fromFile("old-report.pdf");
// Get all text to put in a search index
const text = await pdf.extractText();
// Process the extracted text
// Example: Count words
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
// Save the extracted text to a text file
fs.writeFileSync("extracted_text.txt", text);
console.log("Extracted text saved to extracted_text.txt");
} catch (error) {
// Handle errors here
console.error("An error occurred:", error);
}
})();
import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
(async function createPDFs() {
try {
// Input the license key
const IronPdfConfig = {
licenseKey: "Your-License-Key",
};
// Set the config with the license key
IronPdfGlobalConfig.setConfig(IronPdfConfig);
// Import existing PDF document
const pdf = await PdfDocument.fromFile("old-report.pdf");
// Get all text to put in a search index
const text = await pdf.extractText();
// Process the extracted text
// Example: Count words
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
// Save the extracted text to a text file
fs.writeFileSync("extracted_text.txt", text);
console.log("Extracted text saved to extracted_text.txt");
} catch (error) {
// Handle errors here
console.error("An error occurred:", error);
}
})();
import
If True Then
PdfDocument
End If
from "@ironpdf/ironpdf"
import
If True Then
IronPdfGlobalConfig
End If
from "@ironpdf/ironpdf"
import fs from "fs"
(async [function] createPDFs() {
try {
const IronPdfConfig = { licenseKey:= "Your-License-Key"}; IronPdfGlobalConfig.setConfig(IronPdfConfig); const pdf = Await PdfDocument.fromFile("old-report.pdf"); const text = Await pdf.extractText(); const wordCount = text.split(/\s+/).length; console.log("Word Count:", wordCount); fs.writeFileSync("extracted_text.txt", text); console.log("Extracted text saved to extracted_text.txt");
}
catch ([error]) { console.error("An error occurred:", [error]); }
})()
このスクリプトは、PDFファイルからテキストを抽出するために必要なすべてのコンポーネントを含んでいます:ライセンスキーを使用してIronPDFをセットアップし、PDFドキュメントを読み込み、テキストを抽出し、簡単なテキスト分析を行います。(今回の文字数)抽出されたテキストをファイルに保存します。コードは、Node.jsにおけるファイル操作とPDF処理の非同期性を扱うために非同期関数でラップされています。
スクリプトを実行すると、分析するための2つの重要なコンポーネントが得られます: 元のPDFファイルと抽出されたテキストを含むテキストファイル。 このセクションでは、スクリプトの出力を理解し評価する方法について案内します。
このプロセスのために選んだPDFファイル、ここでは「old-report.pdf」という名前のファイルが出発点です。 PDFドキュメントは、その複雑さと内容によって大きく異なる場合があります。 それらには単純で分かりやすいテキストが含まれているかもしれませんし、画像、テーブル、およびさまざまなテキスト形式が豊富に含まれているかもしれません。 PDFの構造と複雑さは、抽出プロセスに直接影響します。
スクリプトを実行した後、"extracted_text.txt"という名前の新しいテキストファイルが作成されます。 このファイルには、PDF文書から抽出されたすべてのテキストが含まれています。
そして、これがコンソールの出力です:
PDFからテキストを抽出することは、データマイニングや分析において特に有用です。 金融報告書、研究論文、その他のPDF文書を抽出する場合でも、PDFをテキストに変換する能力はデータ分析のタスクにとって重要です。
コンテンツ管理システムでは、さまざまなファイル形式を扱う必要があります。 IronPDFは、PDF形式で保存されたコンテンツの管理、アーカイブ、および取得を行うシステムの重要なコンポーネントとなることができます。
この包括的なガイドでは、IronPDFを使用してPDFドキュメントからテキストを抽出するためのNode.jsプロジェクトの設定方法について説明しました。 基本的なテキスト抽出から、テキストオブジェクト抽出やパフォーマンスの最適化などのより複雑な機能に至るまで、あなたは今、Node.jsアプリケーションで効率的なPDFテキスト抽出を実装するための知識を備えています。
覚えていてください、旅はここで終わりではありません。 PDF処理およびテキスト抽出の分野は広大で、まだまだ探求するべき機能や技術がたくさんあります。 このエキサイティングなソフトウェア開発の分野で挑戦を受け入れ、スキルを向上させ続けましょう。
IronPDFは提供していることを特筆すべきです無料トライアル. IronPDFをプロフェッショナルな環境に統合したい方には、ライセンスオプションがあります。
9つの .NET API製品 オフィス文書用