使用IRONPDF FOR JAVA

如何在Java中解析PDF(开发者教程)

更新 2024年九月15日
分享:

本文将使用IronPDF库以高效的方法在Java中创建一个PDF解析器。

IronPDF - Java PDF 库

IronPDF 是一个Java PDF库,可以轻松准确地创建、读取和操作PDF文档。它基于IronPDF for .NET的成功构建,并在不同平台上提供高效功能。IronPDF for Java利用 IronPdfEngine快速且针对性能优化。

使用IronPDF,您可以 解析PDF页面 并从PDF文件中提取文本、图像和其他对象。它还使 创建PDF 从HTML字符串、文件、URL和图像中提取内容,并且支持不同文件格式之间的转换。此外,您还可以轻松添加新内容, 添加签名添加元数据 到现有的PDF文档中。IronPDF专为Java 8+、Scala和Kotlin设计,并与Windows、Linux和云平台兼容。

在 Java 程序中使用 IronPDF 创建 PDF 文件解析器

先决条件

要在 Java 中制作一个 PDF 解析项目,您将需要以下工具:

  1. Java IDE:可以使用任何支持 Java 的 IDE。市面上有多种 Java IDE 可供开发使用。本教程将使用 IntelliJ IDE.您可以使用 NetBeans、Eclipse 等。

  2. Maven 项目:Maven 是一种依赖关系管理器,可以控制 Java 项目。Java 版 Maven 可从以下网址下载 这里. IntelliJ Java IDE 内置对 Maven 的支持。

  3. IronPDF - 您可以通过多种方式下载和安装 IronPDF for Java。

    • 在 Maven 项目的 pom.xml 文件中添加 IronPDF 依赖。
        :ProductInstall
  • 访问 Maven 网站并下载最新的 IronPDF for Java 软件包,它可以从 Maven 仓库网站.

    • 通过以下链接从 IronPDF 网站直接下载 下载链接.

    • 使用JAR文件手动在你的简单Java应用程序中安装IronPDF。
  1. Slf4j-Simple:这个依赖项也需要用于在现有文档中打印内容。可以使用IntelliJ中的Maven依赖管理器添加,或者可以直接从Maven网站下载。在pom.xml文件中添加以下依赖项:
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
XML

添加必要的导入

一旦所有的前提条件都安装完毕,第一步就是导入必要的 IronPDF 包以处理 PDF 文件。在 Main.java 文件的顶部添加以下代码:

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
JAVA

许可证密钥

IronPDF 中的某些方法需要许可证才能使用。您可以购买许可证或免费试用 IronPDF。您可以按以下方式设置密钥:

License.setLicenseKey("YOUR-KEY");
JAVA

Step 1: 解析现有的 PDF 文件

要解析现有的文档以提取内容, PDFDocument 类被使用。其静态 fromFile 方法用于在 Java 程序中从特定路径解析特定文件名的 PDF 文件。代码如下:

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
JAVA

如何在Java中解析PDF(开发者教程),图1:解析文档

解析的文档

第 2 步:从解析后的 PDF 文件中提取文本数据

IronPDF for Java 提供了一种简便的方法来 提取文本 从 PDF 文件中提取文本数据。以下代码片段用于从 PDF 文件中提取文本数据:

String extracted_text = parsedDocument.extractAllText();
JAVA

上述代码的输出结果如下:

如何在Java中解析PDF(开发者教程),图2:输出

输出

第3步:从URL或HTML字符串中提取文本数据

IronPDF for Java 的功能不仅限于现有PDF文档,它还可以创建和解析新文件以提取内容。在这里,本教程将创建一个 从 URL 获取 PDF 文件 然后从中提取内容。下面的示例展示了如何完成这项任务:

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extracted_text = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extracted_text);
    }
}
JAVA

输出结果如下

如何在Java中解析PDF(开发人员教程),图3:输出

输出

第 4 步:从解析的 PDF 文档中提取图像

IronPDF 还提供了一个简单的选项来 提取所有图像 从解析的文档中。在这里,本教程将使用前面的示例来查看如何轻松地从PDF文件中提取图像。

import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public static void main(String[] args) throws IOException {
    License.setLicenseKey("YOUR-KEY");

    PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

    try {
        List<BufferedImage> images = parsedDocument.extractAllImages();
        System.out.println("Number of images extracted from the website: " + images.size());

        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
        }
    } catch (Exception exception) {
        System.out.println("Failed to extract images from the website");
        exception.printStackTrace();
    }
}
JAVA

"(《世界人权宣言》) [提取所有图像](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages()) 方法返回一个 BufferedImages 列表。可以使用 ImageIO.write 方法将每个 BufferedImage 存储为 PNG 图像。解析的 PDF 文件中有 34 张图像,每张图像都被完美提取。

如何在Java中解析PDF(开发者教程),图4:提取的图像

提取的图像

第五步:从 PDF 文件中的表格提取数据

通过仅使用一行代码,从 PDF 文件中的表格边界提取内容变得非常简单,使用以下工具: [提取所有文本](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) 方法。以下代码片段演示了如何从PDF文件中的表格提取文本:

如何在 Java 中解析 PDF(开发人员教程),图 5:PDF 中的表格

PDF 中的表格

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
JAVA

输出结果如下

如何在Java中解析PDF(开发者教程),图6:输出

输出

结论

本文演示了如何使用IronPDF解析现有的PDF文档或从URL创建一个新的PDF解析器文件以从中提取数据。在打开文件后,它可以从PDF中提取表格数据、图像和文本,并且还可以将提取的文本添加到文本文件中以备后用。

有关如何在Java中以编程方式处理PDF文件的详细信息,请访问此网站。 创建 PDF 文件的示例.

IronPDF for Java 库可免费用于开发目的,但需支付一定的费用。 免费试用.不过,对于商业用途,它可以 特许,从 $749 开始。

< 前一页
在 IntelliJ 中处理 Maven 项目
下一步 >
如何在Java中生成PDF报告

准备开始了吗? 版本: 2024.9 刚刚发布

免费 Maven 下载 查看许可证 >