使用IRONPDF FOR JAVA

如何在Java中读取PDF文件

更新 2024年九月1日
分享:

本文将探讨如何创建一个PDF阅读器,以在您的软件应用程序中通过编程方式打开PDF文件。为了有效地执行此任务,IronPDF for Java 是一个帮助在Java程序中使用文件名打开和读取PDF文件的系统库。

IronPDF

IronPDF - Java 库 基于已经成功的 .NET Framework 构建。这使得 IronPDF 成为与 PDF 文档合作的多功能工具,相对于其他类库如 Apache PDFBox。它提供了以下功能: 提取/解析内容加载文本和图像。 它还提供自定义 PDF 页面的选项,如 页面布局, 页边距, 页眉和页脚, 页面方向 以及更多。

除此之外,IronPDF 还支持从其他文件格式转换、密码保护 PDF、数字签名、合并和拆分 PDF 文档。

如何用 Java 阅读 PDF 文件

前提条件

要使用IronPDF制作Java PDF阅读器,需要确保在计算机上安装以下组件:

  1. JDK - Java开发工具包是构建和运行Java程序所必需的。如果未安装,请从以下网址下载 甲骨文网站

  2. IDE - 集成开发环境(Integrated Development Environment)是帮助编写、编辑和调试程序的软件。下载任意用于Java的IDE,例如Eclipse, NetBeans, IntelliJ。

  3. Maven - Maven是一种自动化工具,帮助从中央仓库下载库。你可以从 Apache Maven 网站.

  4. IronPDF - 最后,IronPDF 是在 Java 中读取 PDF 文件所必需的。需要在您的 Java Maven 项目中将其添加为依赖项。在 pom.xml 文件中包含 IronPDF 工件和 slf4j 依赖项,如下面的示例所示:
<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2024.9.1</version>
</dependency>

添加必要的进口产品

首先,在 Java 源文件顶部添加以下代码,以引用 IronPDF 的所有必要方法。在本例中,导入 org 是可选的。

import com.ironsoftware.ironpdf.*;
JAVA

接下来,使用有效的许可证密钥配置IronPDF来使用其方法。在主方法中调用setLicenseKey方法。

License.setLicenseKey("Your license key");
JAVA

注意: 您可以获取免费的试用许可证密钥来创建、读取和打印PDF。

在 Java 中读取现有的 PDF 文件 阅读 PDF 文件必须有PDF文件或者可以创建一个。本文将使用已经创建的PDF文件。这段代码很简单,是从文档中提取文本的两步过程。

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractAllText();
System.out.println(text);
JAVA

在上面的代码中, fromFile 打开 PDF 文件。Paths.get 方法获取文件目录,并准备从文件中提取内容。然后, [提取所有文本](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) 读取文档中的所有文本。

输出如下:

如何在Java中读取PDF文件,图1:读取PDF文本输出

读取PDF文本输出

从特定页面读取文本

IronPDF 还可以读取 PDF 中特定页面的内容。extractTextFromPage "方法使用一个 "PageSelection "对象来接受一个页面范围。(s) 从中读取文本。

在以下示例中,文本是从PDF文档的第二页提取的。PageSelection.singlePage 接受需要提取的页面索引。

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
System.out.println(text);
JAVA

如何在 Java 中读取 PDF 文件,图 2:读取 PDF 文本输出

读取PDF文本输出

PageSelection类中可以用于从不同页面提取文本的其他方法包括: [第一页](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#lastPage()), [最后一页](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#firstPage()), 页面范围和 [所有页面](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#allPages()).

从新生成的PDF文件读取文本

也可以从HTML文件或URL生成的新PDF文件中进行文本搜索。以下示例代码从URL生成PDF并从网站提取所有文本。

PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
String text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);
JAVA

如何在 Java 中读取 PDF 文件,图 2:从新文件读取

从新文件读取

IronPDF 还可以用于 提取图像 从 PDF 文件

完整代码如下:

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {

        License.setLicenseKey("YOUR LICENSE KEY HERE");

        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);

    }
}
JAVA

摘要

本文解释了如何使用 IronPDF 在 Java 中打开和读取 PDF。

IronPDF 可轻松从 HTML 或 URL 创建 PDF,并且还支持从不同的文件格式进行转换。它还可以帮助快速简便地完成 PDF 任务。

试用 IronPDF 以 30 天 并了解它在生产环境中的表现。 商业许可证 仅从 $749 开始。

< 前一页
如何在 Java 中拆分 PDF 文件
下一步 >
HTML2PDF Java(代码示例教程)

准备开始了吗? 版本: 2024.9 刚刚发布

免费 Maven 下载 查看许可证 >