使用IRONPDF FOR NODE.JS

如何在Node.js中将PDF转换为文本

发布 2024年一月4日

简介

在 Node.js 中将 PDF 转换为文本对象是许多 Node.js 应用程序中的一项常见任务，尤其是在处理数据分析、内容管理系统甚至是简单的转换工具时。借助 Node.js 环境和 IronPDF 库开发人员可以毫不费力地将 PDF 文档转换为可用的文本数据.本教程旨在指导初学者使用 IronPDF 建立一个从 PDF 页面文件中提取文本的 Node.js 项目，重点关注安装细节、PDF 解析实现、错误处理和实际应用等关键方面。

如何在 NodeJS1 中将 PDF 转换为文本。在 IDE 中创建一个 Node.js 应用程序。

2.使用 npm.3 安装 PDF 库。将 PDF 页面加载到应用程序中。

4.使用 extractText 方法提取文本。 5. 使用提取的文本进行处理并返回数据。

先决条件

在开始这段旅程之前，请确保您具备以下条件：

Node.js 已安装在机器上。
对 JavaScript 有基本了解。
用于测试运行提取过程的 PDF 文件。

设置 Node.js 项目

第 1 步：初始化 Node.js 应用程序

为您的项目创建一个新目录，并启动 Node.js 应用程序：

mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y

mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y

'INSTANT VB TODO TASK: The following line uses invalid syntax:
'mkdir pdf-@to-text-node cd pdf-@to-text-node npm init -y

VB C#

第 2 步：安装 IronPDF

使用 npm 安装 IronPDF：

npm install ironpdf

npm install ironpdf

'INSTANT VB TODO TASK: The following line uses invalid syntax:
'npm install ironpdf

VB C#

使用 IronPDF 实现 PDF 到文本的转换

步骤 1：导入必要的模块

import { PdfDocument } from "@ironsoftware/ironpdf";
import { IronPdfGlobalConfig } from "@ironsoftware/ironpdf";
import fs from "fs";

import { PdfDocument } from "@ironsoftware/ironpdf";
import { IronPdfGlobalConfig } from "@ironsoftware/ironpdf";
import fs from "fs";

import
If True Then
	PdfDocument
End If
from "@ironsoftware/ironpdf"
import
If True Then
	IronPdfGlobalConfig
End If
from "@ironsoftware/ironpdf"
import fs from "fs"

VB C#

第一步，导入必要的模块。 PDFDocument和IronPdfGlobalConfig是从@ironsoftware/ironpdf包中导入的，它们分别是处理 PDF 文档和配置 IronPDF 所必需的。此外，还导入了fs模块，这是一个 Node.js 核心模块，用于处理文件系统操作。

步骤 2：设置异步功能

(async function createPDFs() {
  // ...
})();

(async function createPDFs() {
  // ...
})();

(async [function] createPDFs() { })()

VB C#

这里定义了一个名为 createPDFs 的异步匿名函数，并立即调用。这种设置允许在函数中使用 await，便于处理异步操作，这在处理文件 I/O 和 IronPDF 等外部库时很常见。

步骤 3：应用许可证密钥

const IronPdfConfig = {
  licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);

const IronPdfConfig = {
  licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);

const IronPdfConfig = { licenseKey: "Your-License-Key"}
IronPdfGlobalConfig.setConfig(IronPdfConfig)

VB C#

在此步骤中，您将为 IronPDF 创建一个配置对象，包括许可证密钥，并使用 IronPdfGlobalConfig.setConfig 应用此配置。这对于启用 IronPDF 的所有功能至关重要，尤其是在使用许可版本的情况下。

第 4 步：加载 PDF 文档

const pdf = await PdfDocument.fromFile("report.pdf");

const pdf = await PdfDocument.fromFile("report.pdf");

const pdf = Await PdfDocument.fromFile("report.pdf")

VB C#

在这一步中，代码正确地使用了 PdfDocument 类中的 fromFile 方法来加载现有的 PDF 文档。这是一个异步操作，因此使用了await。通过指定 PDF 文件的路径 (本例中为 "old-report.pdf")这样，pdf 变量就变成了 PDF 文档的表示形式，已完全加载并准备好进行文本提取。这一步至关重要，因为在这一步中，PDF 文件将被解析，并为您希望对其执行的任何操作（如提取文本）做好准备。

第 5 步：从 PDF 中提取文本

const text = await pdf.extractText();

const text = await pdf.extractText();

const text = Await pdf.extractText()

VB C#

在这里，pdf 对象上的 extractText 方法被调用。这一异步操作可从加载的 PDF 文档中提取所有文本，并将其存储在text变量中。

步骤 6：处理提取的文本

const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);

const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);

const wordCount = text.split(/\s+/).length
console.log("Word Count:", wordCount)

VB C#

在这一步中，对提取的文本进行处理，以计算字数。具体做法是使用正则表达式将文本字符串分割成单词数组，该正则表达式可匹配一个或多个空白字符，然后计算所生成数组的长度。

第 7 步：将提取的文本保存到文件中

fs.writeFileSync("extracted_text.txt", extractedText);

fs.writeFileSync("extracted_text.txt", extractedText);

fs.writeFileSync("extracted_text.txt", extractedText)

VB C#

这行代码的目的是将提取的文本保存到名为 extracted_text.txt 的文件中。但是，这里似乎有一个错误：代码中没有定义变量 extractedText。它应该是 text，用来保存提取的文本：

fs.writeFileSync("extracted_text.txt", text);

fs.writeFileSync("extracted_text.txt", text);

fs.writeFileSync("extracted_text.txt", text)

VB C#

该更正行使用 fs 模块的 writeFileSync 方法将提取的文本同步写入文件。

步骤 8：错误处理

} catch (error) {
  console.error("An error occurred:", error); //log error
}

} catch (error) {
  console.error("An error occurred:", error); //log error
}

}
Catch e1 As [error]
  console.error("An error occurred:", [error]) 'log error
End Try

VB C#

最后，代码包括一个用于错误处理的 try-catch 块。如果 try 块中异步操作的任何部分失败，catch 块将捕获错误，并将信息记录到控制台。这对于调试和确保应用程序能从容应对意外问题非常重要。

完整代码

下面是完整的代码，其中包含了我们讨论过的在 Node.js 环境中使用 IronPDF 从 PDF 文档中提取文本的所有步骤：

import { PdfDocument } from "@ironsoftware/ironpdf";
import { IronPdfGlobalConfig } from "@ironsoftware/ironpdf";
import fs from "fs";
(async function createPDFs() {
  try {
    // Input the license key
    const IronPdfConfig = {
      licenseKey: "Your-License-Key",
    };
    // Set the config with the license key
    IronPdfGlobalConfig.setConfig(IronPdfConfig);
    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("old-report.pdf");
    // Get all text to put in a search index
    const text = await pdf.extractText();
    // Process the extracted text
    // Example: Count words
    const wordCount = text.split(/\s+/).length;
    console.log("Word Count:", wordCount);
    // Save the extracted text to a text file
    fs.writeFileSync("extracted_text.txt", text);
    console.log("Extracted text saved to extracted_text.txt");
  } catch (error) {
    // Handle errors here
    console.error("An error occurred:", error);
  }
})();

import { PdfDocument } from "@ironsoftware/ironpdf";
import { IronPdfGlobalConfig } from "@ironsoftware/ironpdf";
import fs from "fs";
(async function createPDFs() {
  try {
    // Input the license key
    const IronPdfConfig = {
      licenseKey: "Your-License-Key",
    };
    // Set the config with the license key
    IronPdfGlobalConfig.setConfig(IronPdfConfig);
    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("old-report.pdf");
    // Get all text to put in a search index
    const text = await pdf.extractText();
    // Process the extracted text
    // Example: Count words
    const wordCount = text.split(/\s+/).length;
    console.log("Word Count:", wordCount);
    // Save the extracted text to a text file
    fs.writeFileSync("extracted_text.txt", text);
    console.log("Extracted text saved to extracted_text.txt");
  } catch (error) {
    // Handle errors here
    console.error("An error occurred:", error);
  }
})();

import
If True Then
	PdfDocument
End If
from "@ironsoftware/ironpdf"
import
If True Then
	IronPdfGlobalConfig
End If
from "@ironsoftware/ironpdf"
import fs from "fs"
(async [function] createPDFs() {
	try {
		const IronPdfConfig = { licenseKey:= "Your-License-Key"}; IronPdfGlobalConfig.setConfig(IronPdfConfig); const pdf = Await PdfDocument.fromFile("old-report.pdf"); const text = Await pdf.extractText(); const wordCount = text.split(/\s+/).length; console.log("Word Count:", wordCount); fs.writeFileSync("extracted_text.txt", text); console.log("Extracted text saved to extracted_text.txt");
	}
	catch ([error]) { console.error("An error occurred:", [error]); }
})()

VB C#

该脚本包含从 PDF 文件中提取文本的所有必要组件：使用许可证密钥设置 IronPDF、加载 PDF 文档、提取文本、执行简单的文本分析 (这里的字数)并将提取的文本保存到文件中。代码封装在异步函数中，以处理 Node.js 中文件操作和 PDF 处理的异步性质。