使用IRONPDF FOR JAVA

如何在Java中解析PDF(开发者教程)

更新 2024年九月15日
分享:

本文将使用IronPDF库以高效的方法在Java中创建一个PDF解析器。

IronPDF - Java PDF 库

IronPDF for Java是一个 Java PDF 库,可轻松准确地创建、阅读和操作 PDF 文档。 它建立在 IronPDF for .NET 的成功基础之上,提供了跨不同平台的高效功能。 IronPDF for Java 使用了IronPdfEngine该翻译工具可快速翻译,并对性能进行了优化。

使用IronPDF,您可以从 PDF 文件中提取文本和图像它还能从各种来源创建 PDF包括 HTML 字符串、文件、URL 和图像。 此外,您还可以轻松添加新内容、使用 IronPDF 插入签名将元数据嵌入 PDF 文档. IronPdf 专为 Java 8+、Scala 和 Kotlin 而设计,兼容 Windows、Linux 和云平台。

在 Java 程序中使用 IronPDF 创建 PDF 文件解析器

先决条件

要制作 Java PDF 解析项目,您需要以下工具:

  1. Java IDE:您可以使用任何支持 Java 的集成开发环境。有多种 Java IDE 可用于开发。 本教程将使用IntelliJ IDE. 您可以使用 NetBeans、Eclipse 等等。

  2. Maven 项目:Maven 是一种依赖关系管理器,可以控制 Java 项目。 可以从以下网址下载Java的Maven:Maven 官方网站. IntelliJ Java IDE 内置支持 Maven。

  3. IronPDF - 您可以通过多种方式下载并安装 IronPDF for Java。

    • 在 Maven 项目的 pom.xml 文件中添加 IronPDF 依赖关系。
     :ProductInstall
  1. Slf4j-Simple:在现有文档中添加内容时也需要该依赖项。 可以使用 IntelliJ 中的 Maven 依赖项管理器添加,也可以直接从 Maven 网站下载。在 pom.xml 文件中添加以下依赖项:
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
XML

添加必要的导入

安装好所有先决条件后,第一步就是导入必要的 IronPDF 软件包,以处理 PDF 文档。 在 Main.java 文件顶部添加以下代码:

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
JAVA

许可证密钥

IronPDF中的某些方法需要许可证才能使用。 您可以购买许可证或免费试用 IronPDF。 您可以将密钥设置如下:

License.setLicenseKey("YOUR-KEY");
JAVA

步骤 1:解析现有 PDF 文档

要解析现有文档以提取内容,需要PDFDocument使用类。 它是静态的fromFile该方法用于在 Java 程序中用特定文件名从特定路径解析 PDF 文件。 代码如下

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
JAVA

如何在Java中解析PDF(开发者教程),图1:解析文档

已解析文件

第 2 步:从解析的 PDF 文件中提取文本数据

IronPDF for Java 为以下方面提供了简便的方法从 PDF 文档中提取文本. 以下代码片段用于从 PDF 文件中提取文本数据:

String extracted_text = parsedDocument.extractAllText();
JAVA

上述代码的输出结果如下:

如何在Java中解析PDF(开发者教程),图2:输出

输出

步骤 3:从 URL 或 HTML 字符串中提取文本数据

IronPDF for Java 的功能不仅限于现有的 PDF,它还可以创建和解析一个新文件以提取内容。 在此,本教程将创建一个从 URL 获取 PDF 文件并从中提取内容. 下面的示例展示了如何完成这项任务:

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extracted_text = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extracted_text);
    }
}
JAVA

输出结果如下

如何在Java中解析PDF(开发人员教程),图3:输出

输出

第 4 步:从解析的 PDF 文档中提取图片

IronPDF 还提供了一个简便的选项来从解析的文档中提取所有图像. 在此,教程将使用之前的示例来说明如何轻松地从 PDF 文件中提取图像。

import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public static void main(String[] args) throws IOException {
    License.setLicenseKey("YOUR-KEY");

    PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

    try {
        List<BufferedImage> images = parsedDocument.extractAllImages();
        System.out.println("Number of images extracted from the website: " + images.size());

        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
        }
    } catch (Exception exception) {
        System.out.println("Failed to extract images from the website");
        exception.printStackTrace();
    }
}
JAVA

"(《世界人权宣言》)[提取所有图像](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages())方法返回一个 BufferedImages 列表。 然后,可以使用 ImageIO.write 方法将每个 BufferedImage 存储为 PNG 图像。 解析后的 PDF 文件中有 34 张图片,每张图片都提取得非常完美。

如何在Java中解析PDF(开发者教程),图4:提取的图像

提取图片

步骤 5:从 PDF 文件的表格中提取数据

从 PDF 文件的表格边界中提取内容非常简单,只需单行代码,使用[提取所有文本 "方法](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()). 以下代码片段演示了如何从 PDF 文件的表格中提取文本:

如何在 Java 中解析 PDF(开发人员教程),图 5:PDF 中的表格

PDF 格式的表格

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
JAVA

输出结果如下

如何在Java中解析PDF(开发者教程),图6:输出

输出

结论

本文演示了如何使用 IronPDF for Java 在 Java 中解析现有 PDF 文档或从 URL 创建新的 PDF 解析器文件,以从中提取数据。 打开文件后,它可以从 PDF 中提取表格数据、图像和文本,还可以将提取的文本添加到文本文件中,以供日后使用。

有关如何用 Java 编程处理 PDF 文件的详细信息,请访问以下网站PDF 文件创建示例.

IronPDF for Java 库可免费用于开发目的,但需支付一定的费用。可免费试用. 但是,对于商业用途,可以通过 IronSoftware 授权,从 $749 开始。

< 前一页
在 IntelliJ 中处理 Maven 项目
下一步 >
如何在Java中生成PDF报告

准备开始了吗? 版本: 2024.11 刚刚发布

免费 Maven 下载 查看许可证 >