在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
在 Java 中读取 PDF 文档可以是任何项目的一个重要部分,从商业应用到数据分析不等。使用 IronPDF 库,可以比以往任何时候都更轻松地将 PDF 处理功能集成到您的 Java 项目中。
从文件
方法提取所有文本
方法 to read text from the opened fileIronPDF Java PDF 库 是软件开发人员生成高质量内容的完美解决方案。 快速从HTML生成准备好捕获的PDF文件. 该库还提供强大的文档操作工具,使动态控制成为可能 页面布局, 内容和格式。
我们来看如何使用IronPDF库在Java程序中读取存储在路径中的PDF文件。
安装 IronPDF 的第一步是使用 Maven,可以在此找到更多详细信息。 安装指南.
以下是在Maven项目中安装IronPDF的步骤:
在您首选的IDE中打开Maven项目。
pom.xml
文件中,在 dependencies
部分添加IronPDF库依赖。 :ProductInstall
pom.xml
文件,并让 Maven 下载和安装 IronPDF 库。安装完成后,您应该能够在项目中导入和使用 IronPDF 的以下类和 Apache Tika 解析器。
下面是您可以使用 IronPDF 库读取有或无表格边界的新文件的代码。
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
public class Test {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("C:\\sample.pdf"));
String text = pdf.extractAllText();
System.out.println(text);
}
}
在这个程序中, PDFDocument 来自IronPDF库的类用于读取PDF文件的内容。程序的第一行从IronPDF库导入所需的类。第二行从Java标准库导入IOException
类。
程序定义了一个名为Test
的公共类。在类内部,有一个名为main
的public static
方法,该方法接受一个字符串数组作为参数。
main
方法使用了 fromFile
要使用 PdfDocument
类的方法加载位于 "C:\sample.pdf" 的 PDF 文件。该方法返回一个表示该 PDF 文件的 PdfDocument
对象。
一旦 PDF 文件加载完成,程序调用 [提取所有文本
](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) 提取PDF文件中所有文本的PdfDocument
类的方法。此方法返回包含PDF文件中所有文本的String
。
提取的文本然后存储在名为"text"的String
变量中。该变量可用于处理或显示PDF文件的内容。
最后,程序使用System.out.println
方法将提取的文本打印到控制台。
程序输出
IronPDF 是在 Java 中读取同一路径或多个不同路径中的 PDF 文件的绝佳解决方案,因为它提供了高性能和许多功能,使开发 PDF 变得更加容易。其语法简单明了,用户界面友好。其 API 允许开发人员快速编写项目所需的代码。
IronPDF 的许可 IronPDF 计划的起价仅为 $749,这使得预算有限的用户也可以使用它来提取内容。总之,IronPDF为任何希望在Java应用程序编程中使用PDF的Java开发人员提供了一个绝佳的选择。