使用IRONPDF FOR JAVA

如何在Java中从PDF中提取数据

本教程将向您展示如何使用 IronPDF for Java 从 PDF 文件中提取数据。通过代码示例解释了环境设置、导入库、读取输入文件以及提取所需数据的过程。

2. IronPDF Java PDF库

IronPDF 是一个软件库,为开发人员提供了在 Java 应用程序中使用 IronPDF for Java 生成、编辑和从 PDF 文件中提取数据的能力。 它允许您从HTML文档、图像等创建PDF,以及合并多个PDF拆分PDF文件和处理现有的PDF。 IronPDF还提供了通过密码保护功能保护PDF文件和为PDF文件添加数字签名的能力,以及其他功能。

IronPDF for Java 由 Iron Software 开发和维护。 其中最受好评的功能之一是从PDF文件以及HTML和URL中提取文本和数据。

3. 先决条件

使用IronPDF从PDF文件中提取数据,您必须满足以下先决条件:

  1. Java 安装:确保在您的系统上安装了 Java,并且在环境变量中设置了其路径。 如果您还没有安装 Java,请参考 Java 网站上的下载页面 获取说明。

  2. Java IDE:安装一个像 Eclipse 或 IntelliJ 的 Java IDE。 您可以从这个Eclipse下载页面下载Eclipse,从这个IntelliJ下载页面下载IntelliJ。

  3. IronPDF 库:下载并将 IronPDF 库作为依赖项添加到您的项目中。 请访问IronPDF 设置说明页面以获取设置说明。

  4. Maven 安装:在开始 PDF 转换过程之前,应安装 Maven 并与您的 IDE 集成。 请参考此JetBrains上的Maven安装教程,以了解如何安装和集成Maven。

4. Java 版 IronPDF 的安装

安装IronPDF for Java很简单,只要满足所有要求。 本指南将使用 JetBrains 的 IntelliJ IDEA 演示安装和运行示例代码。

这是需要做的事:

打开 IntelliJ IDEA:在您的系统上启动 JetBrains IntelliJ IDEA。

创建一个Maven项目:在IntelliJ IDEA中,创建一个新的Maven项目。 这将为安装IronPDF for Java提供合适的环境。

如何在 Java 中从 PDF 提取数据,图 1:IntelliJ 中的新 Maven 项目

IntelliJ中的新Maven项目

一个新窗口将会出现。 输入项目名称,然后点击完成。

如何在 Java 中从 PDF 中提取数据,图 2:命名 Maven 项目并点击完成

命名 Maven 项目并点击完成

单击完成后,将打开一个带有 pom.xml 的新项目。 这将用于添加IronPDF Java Maven依赖项。

如何在 Java 中从 PDF 提取数据,图 3:pom.xml 文件

pom.xml 文件

pom.xml文件中添加以下依赖项,或者您可以从Sonatype Central上的IronPDF库页面下载JAR文件。

<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2025.5.6</version>
</dependency>

一旦将依赖项放入pom.xml文件中,文件右上角会出现一个小图标。

如何在Java中从PDF中提取数据,图4:单击浮动图标以自动安装Maven依赖项

点击浮动图标以自动安装Maven依赖项

通过点击此按钮安装IronPDF for Java的Maven依赖项。 根据您的互联网连接速度,这应该只需要几分钟。

提取数据

IronPDF 是一个用于创建、编辑和从PDF文档中提取数据的Java库。 它提供了一个简单的API,从PDF文件、URL和表格中提取文本。

从PDF文档中提取数据

使用IronPDF for Java,您可以轻松地从PDF文档中提取文本数据。 下面是从PDF文件提取数据的示例代码。

如何从PDF中提取数据的Java指南,图5:PDF输入

PDF输入

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}
import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}
JAVA

源代码的输出结果如下:

> Text extracted from the PDF:
> 
> CRAFT-ARENA
> 
> Muhammad Waleed Butt
> 
> Hassan Khan
> 
> ABOUT US
> 
> Craft-Arena is a partnershipbased business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.

从URLs中提取数据

IronPDF for Java在运行时将URL转换为PDF并从中提取文本。 此示例将查看从URL提取文本的源代码。

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        // new PDF parser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}
import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        // new PDF parser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}
JAVA

如何从PDF中提取数据(Java),图6:提取的网页数据

提取的网页数据

从表格数据中提取数据

使用 IronPDF for Java 从 PDF 中提取表格数据非常简单; 您只需要一个包含表格的PDF文件,并运行以下代码。

如何在Java中从PDF中提取数据,图7:样本PDF表格输入

示例 PDF 表格输入

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}
import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}
JAVA
> Test Case Description Expected Result Actual Result Status
> 
> 1 Test login functionality User should be able to log in with valid credentials
> 
> User log in successfully Pass
> 
> 2 Test search functionality Search results should be relevant and accurate
> 
> Search is accurate and provide relevant products Pass
> 
> 3 Test checkout process User should be able to complete a purchase successfully
> 
> User can purchase successfully Pass

6. 结论

总之,本教程演示了如何使用IronPDF for Java从PDF文件中提取数据,特别是表格数据。

欲了解更多信息,请参考IronPDF网站上的从PDF提取文本示例

IronPDF 是一个库,具有商业许可证详情,起价为$749。 但是,您可以在生产环境中使用 IronPDF 试用许可证进行免费试用

Darrius Serrant
全栈软件工程师(WebOps)

达瑞乌斯·塞兰特拥有迈阿密大学计算机科学学士学位,目前在Iron Software担任全栈WebOps营销工程师。从小对编码的热爱使他认为计算机既神秘又易接近,成为创意和解决问题的完美媒介。

在Iron Software,达瑞乌斯乐于创造新事物并简化复杂概念,使其更易于理解。作为我们在职开发者之一,他还自愿教授学生,将他的专业知识传授给下一代。

对达瑞乌斯而言,他的工作之所以令人满足,是因为它具有价值并产生了真正的影响。

< 前一页
如何在Java中从PDF提取图像
下一步 >
如何使用Java合并两个PDF文件

通过Maven安装

版本:2025.5.6

<dependency>
  <groupId>com.ironsoftware</groupId>
  <artifactId>ironpdf</artifactId>
  <version>2025.5.6</version>
</dependency>