使用IRONPDF FOR JAVA

如何在Java中读取PDF文件

更新 2024年八月25日
分享:

用 Java 阅读 PDF 文档是任何项目(从商业应用到数据分析)不可或缺的一部分。 有了 IronPDF for Java 库,在 Java 项目中集成 PDF 处理功能变得前所未有的简单。

IronPDF:导入 Java PDF 库

IrotPDF Java PDF 库概述是软件开发人员生成高质量内容的完美解决方案。快速从HTML生成准备好捕获的PDF文件. 该库还提供了功能强大的文档操作工具,可对以下内容进行动态控制IronPDF 中的页面布局和格式化译文必须包括以下内容:.NET、Java、Python 或 Node js。

让我们看看如何使用 IronPDF for Java 库在 Java 程序中读取存储在某个路径下的 PDF 文件。

使用 IronPDF 阅读 PDFs

第一步是使用 Maven 安装 IronPDF,更多详情请参见IronPDF 安装指南.

在 Maven 中安装 IronPDF

以下是在 Maven 项目中安装 IronPDF 的步骤:

  1. 在您喜欢的集成开发环境中打开您的 Maven 项目。

  2. pom.xml 文件中,在 dependencies 部分添加 IronPDF 库依赖关系。
    :ProductInstall
  1. 保存 pom.xml 文件,让 Maven 下载并安装 IronPdf 库。

    安装完成后,您应该可以在项目中导入并使用 IronPDF 的以下类和 Apache Tika 解析器。

Java 代码阅读 PDF 文档

以下是代码,您可以使用 IronPdf 库读取有或无表格边界的新文件。

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;

public class Test {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("C:\\sample.pdf"));  
        String text = pdf.extractAllText();
        System.out.println(text);
    }
}
JAVA

在这个程序中,IronPDF 中的 PdfDocument该程序用于读取 PDF 文件的内容。程序的第一行从 IronPDF 库中导入所需的类。 第二行从 Java 标准库中导入了 IOException 类。

程序定义了一个名为 Test 的公有类。 在类中,有一个名为 "main "的 "公共静态 "方法,该方法将字符串数组作为参数。

main "方法使用IronPDF 中 PdfDocument 的 `fromFile 方法使用 PdfDocument 类的方法加载位于 "C:\sample.pdf "的 PDF 文件。 该方法返回一个表示 PDF 文件的 PdfDocument 对象。

加载 PDF 文件后,程序将调用[IronPDF 中 PdfDocument 的 extractAllText 方法](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText())使用PdfDocument类的方法从 PDF 文件中提取所有文本。该方法返回一个包含 PDF 文件中所有文本的String` 。

提取的文本将存储在名为 "text "的 String 变量中。 该变量可用于处理或显示 PDF 文件的内容。

最后,程序会使用 System.out.println 方法将提取的文本打印到控制台。

如何在Java中读取PDF文件,图1:程序输出

程序输出

结论

IronPDF for Java 是在 Java 中读取同一路径或多个不同路径内的 PDF 文件的绝佳解决方案,因为它提供了高性能和许多功能,使开发 PDF 变得非常容易。 其语法简单明了,对用户友好。 其 API 可让开发人员快速编写项目所需的代码。

探索 IronPDF 许可选项计划起价仅为 $749,使预算有限的人员也能提取内容。 总的来说,IronPDF 为任何希望在 Java 应用编程中使用 PDF 的 Java 开发人员提供了一个极佳的选择。

< 前一页
如何在 Java 中向 PDF 添加数字签名
下一步 >
如何在Java中旋转PDF文件

通过Maven安装

版本:2024.11.4

<dependency>
  <groupId>com.ironsoftware</groupId>
  <artifactId>ironpdf</artifactId>
  <version>2024.11.4</version>
</dependency>

准备开始了吗? 版本: 2024.11 刚刚发布

免费 Maven 下载 查看许可证 >