使用IRONPDF FOR JAVA

如何在Java中从PDF中提取数据

更新 2024年九月1日
分享:

本教程将向您展示如何使用 IronPDF for Java 从PDF文件中提取数据。通过代码示例解释了设置环境、导入库、读取输入文件和提取所需数据的过程。

2. IronPDF Java PDF Library

IronPDF 是一个软件库,为开发人员提供了生成、编辑和 从PDF文件中提取数据 在他们的 Java 应用程序内。它允许您 从 HTML 创建 PDF图像等,以及 并吞, (意见) 分歧,和操作现有的PDF。IronPDF还提供了保护PDF文件的能力。 密码保护添加数字签名,及其他功能。

IronPDF for Java由Iron Software开发和维护。其最受好评的功能之一是从PDF文件以及HTML和URL中提取文本和数据。

3.先决条件

要使用 IronPDF 从 PDF 文件中提取数据,必须满足以下前提条件:

  1. Java 安装: 确保 Java 已安装在系统上,且其路径已在环境变量中设置。如果您尚未安装 Java,请参阅此文 从Java网站下载链接 以获取说明。

  2. Java IDE: 安装 Java IDE,如 Eclipse 或 IntelliJ。您可以从以下网址下载 Eclipse 下载链接 和 IntelliJ 下载链接.

  3. IronPDF 库: 下载 IronPDF 库并将其作为依赖项添加到项目中。访问 IronPDF 网站 以下是设置说明。

  4. Maven 安装: 在开始 PDF 转换过程之前,应先安装 Maven 并将其集成到您的 IDE 中。请参考此 安装教程 关于安装和集成Maven。

4. IronPDF for Java 的安装

安装IronPDF for Java很简单,只要满足所有要求。本指南将使用JetBrains的IntelliJ IDEA来演示安装并运行示例代码。

下面是操作步骤:

打开IntelliJ IDEA:在你的系统上启动JetBrains IntelliJ IDEA。

创建一个Maven项目:在IntelliJ IDEA中,创建一个新的Maven项目。这将为安装IronPDF for Java提供一个合适的环境。

如何在Java中从PDF中提取数据,图1:在IntelliJ中创建新的Maven项目

在 IntelliJ 中创建新的 Maven 项目

将会出现一个新窗口。输入项目名称,然后点击完成。

如何在Java中提取PDF数据,图2:命名Maven项目并点击完成

为 Maven 项目命名并点击 Finish

一旦点击 Finish,一个带有 pom.xml 的新项目将会打开。这将用于添加 IronPDF Java Maven 依赖项。

如何在Java中从PDF中提取数据,图3:pom.xml文件

pom.xml 文件

pom.xml 文件中添加以下依赖项,或者你可以从以下网址下载 JAR 文件。 链接.

<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2024.9.1</version>
</dependency>

将依赖项放入pom.xml文件后,文件的右上角会出现一个小图标。

如何从PDF中提取数据在Java,图4:点击浮动图标以自动安装Maven依赖项

点击浮动图标自动安装 Maven 依赖项

通过点击此按钮安装 IronPDF for Java 的 Maven 依赖项。根据您的网络连接速度,这应该只需要几分钟。

5. 提取数据

IronPDF 是一个用于从 PDF 文档中创建、编辑、和提取数据的 Java 库。它提供了一个简单的 API 用于从 PDF 文件、URL 和表中提取文本。

5.1. 从PDF文档提取数据

使用 IronPDF for Java,您可以轻松地从PDF文档中提取文本数据。以下是从PDF文件中提取数据的示例代码。

如何在 Java 中提取 PDF 数据, 图 5:PDF 输入

PDF 输入

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}
JAVA

源代码的输出结果如下:

> Text extracted from the PDF:
> 
> CRAFT-ARENA
> 
> Muhammad Waleed Butt
> 
> Hassan Khan
> 
> ABOUT US
> 
> Craft-Arena is a partnership￾based business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.

5.2. 从URL提取数据

IronPDF for Java 在运行时将URL转换为PDF并从中提取文本。此示例将展示从URL提取文本的源代码。

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        // new PDF parser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}
JAVA

如何在 Java 中从 PDF 提取数据,图6:提取的网页数据

提取的网页数据

5.3. 从表格数据中提取数据

使用 IronPDF for Java 从 PDF 中提取表格数据非常简单;您只需要一个包含表格的 PDF,并运行以下代码。

如何在Java中从PDF中提取数据,图7:示例PDF表格输入

样本PDF表输入

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}
JAVA
> Test Case Description Expected Result Actual Result Status
> 
> 1 Test login functionality User should be able to log in with valid credentials
> 
> User log in successfully Pass
> 
> 2 Test search functionality Search results should be relevant and accurate
> 
> Search is accurate and provide relevant products Pass
> 
> 3 Test checkout process User should be able to complete a purchase successfully
> 
> User can purchase successfully Pass

6.结论

最后,本教程演示了如何使用 IronPDF for Java 从 PDF 文件中提取数据,特别是表格数据。

如需了解更多信息,请参阅 提取文本示例 在 IronPDF 网站上。

IronPDF 是一个具有 商业许可从 $749 开始。然而,您可以在生产环境中评估它 免费试用.

< 前一页
如何在Java中从PDF提取图像
下一步 >
如何使用Java合并两个PDF文件

通过Maven安装

版本: 2024.9.1

<dependency>
  <groupId>com.ironsoftware</groupId>
  <artifactId>ironpdf</artifactId>
  <version>2024.9.1</version>
</dependency>

准备开始了吗? 版本: 2024.9 刚刚发布

免费 Maven 下载 查看许可证 >