在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
用 Java 阅读 PDF 文档是任何项目(从商业应用到数据分析)不可或缺的一部分。 有了 IronPDF for Java 库,在 Java 项目中集成 PDF 处理功能变得前所未有的简单。
从文件
方法提取所有文本
从打开的 PDF 中读取文本的方法IrotPDF Java PDF 库概述是软件开发人员生成高质量内容的完美解决方案。快速从HTML生成准备好捕获的PDF文件. 该库还提供了功能强大的文档操作工具,可对以下内容进行动态控制IronPDF 中的页面布局和格式化译文必须包括以下内容:.NET、Java、Python 或 Node js。
让我们看看如何使用 IronPDF for Java 库在 Java 程序中读取存储在某个路径下的 PDF 文件。
第一步是使用 Maven 安装 IronPDF,更多详情请参见IronPDF 安装指南.
以下是在 Maven 项目中安装 IronPDF 的步骤:
在您喜欢的集成开发环境中打开您的 Maven 项目。
pom.xml
文件中,在 dependencies
部分添加 IronPDF 库依赖关系。 :ProductInstall
保存 pom.xml
文件,让 Maven 下载并安装 IronPdf 库。
安装完成后,您应该可以在项目中导入并使用 IronPDF 的以下类和 Apache Tika 解析器。
以下是代码,您可以使用 IronPdf 库读取有或无表格边界的新文件。
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
public class Test {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("C:\\sample.pdf"));
String text = pdf.extractAllText();
System.out.println(text);
}
}
在这个程序中,IronPDF 中的 PdfDocument
类该程序用于读取 PDF 文件的内容。程序的第一行从 IronPDF 库中导入所需的类。 第二行从 Java 标准库中导入了 IOException
类。
程序定义了一个名为 Test
的公有类。 在类中,有一个名为 "main "的 "公共静态 "方法,该方法将字符串数组作为参数。
main "方法使用IronPDF 中 PdfDocument 的 `fromFile 方法使用 PdfDocument
类的方法加载位于 "C:\sample.pdf "的 PDF 文件。 该方法返回一个表示 PDF 文件的 PdfDocument
对象。
加载 PDF 文件后,程序将调用[IronPDF 中 PdfDocument 的 extractAllText 方法](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText())使用
PdfDocument类的方法从 PDF 文件中提取所有文本。该方法返回一个包含 PDF 文件中所有文本的
String` 。
提取的文本将存储在名为 "text "的 String
变量中。 该变量可用于处理或显示 PDF 文件的内容。
最后,程序会使用 System.out.println
方法将提取的文本打印到控制台。
程序输出
IronPDF for Java 是在 Java 中读取同一路径或多个不同路径内的 PDF 文件的绝佳解决方案,因为它提供了高性能和许多功能,使开发 PDF 变得非常容易。 其语法简单明了,对用户友好。 其 API 可让开发人员快速编写项目所需的代码。
探索 IronPDF 许可选项计划起价仅为 $749,使预算有限的人员也能提取内容。 总的来说,IronPDF 为任何希望在 Java 应用编程中使用 PDF 的 Java 开发人员提供了一个极佳的选择。