在生产环境中测试,无水印。
随时随地满足您的需求。
获得30天的全功能产品。
几分钟内就能启动并运行。
在您的产品试用期间,全面访问我们的支持工程团队。
本教程将向您展示如何使用 IronPDF for Java 从 PDF 文件中提取数据。通过代码示例解释了环境设置、导入库、读取输入文件以及提取所需数据的过程。
IronPDF 是一个软件库,为开发人员提供了在 Java 应用程序中使用 IronPDF for Java 生成、编辑和从 PDF 文件中提取数据的能力。 它允许您从HTML文档、图像等创建PDF,以及合并多个PDF、拆分PDF文件和处理现有的PDF。 IronPDF还提供了通过密码保护功能保护PDF文件和为PDF文件添加数字签名的能力,以及其他功能。
IronPDF for Java 由 Iron Software 开发和维护。 其中最受好评的功能之一是从PDF文件以及HTML和URL中提取文本和数据。
使用IronPDF从PDF文件中提取数据,您必须满足以下先决条件:
Java 安装:确保在您的系统上安装了 Java,并且在环境变量中设置了其路径。 如果您还没有安装 Java,请参考 Java 网站上的下载页面 获取说明。
Java IDE:安装一个像 Eclipse 或 IntelliJ 的 Java IDE。 您可以从这个Eclipse下载页面下载Eclipse,从这个IntelliJ下载页面下载IntelliJ。
IronPDF 库:下载并将 IronPDF 库作为依赖项添加到您的项目中。 请访问IronPDF 设置说明页面以获取设置说明。
安装IronPDF for Java很简单,只要满足所有要求。 本指南将使用 JetBrains 的 IntelliJ IDEA 演示安装和运行示例代码。
这是需要做的事:
打开 IntelliJ IDEA:在您的系统上启动 JetBrains IntelliJ IDEA。
创建一个Maven项目:在IntelliJ IDEA中,创建一个新的Maven项目。 这将为安装IronPDF for Java提供合适的环境。
IntelliJ中的新Maven项目
一个新窗口将会出现。 输入项目名称,然后点击完成。
命名 Maven 项目并点击完成
单击完成后,将打开一个带有 pom.xml 的新项目。 这将用于添加IronPDF Java Maven依赖项。
pom.xml 文件
在pom.xml
文件中添加以下依赖项,或者您可以从Sonatype Central上的IronPDF库页面下载JAR文件。
<dependency>
<groupId>com.ironsoftware</groupId>
<artifactId>com.ironsoftware</artifactId>
<version>2025.5.6</version>
</dependency>
一旦将依赖项放入pom.xml
文件中,文件右上角会出现一个小图标。
点击浮动图标以自动安装Maven依赖项
通过点击此按钮安装IronPDF for Java的Maven依赖项。 根据您的互联网连接速度,这应该只需要几分钟。
IronPDF 是一个用于创建、编辑和从PDF文档中提取数据的Java库。 它提供了一个简单的API,从PDF文件、URL和表格中提取文本。
使用IronPDF for Java,您可以轻松地从PDF文档中提取文本数据。 下面是从PDF文件提取数据的示例代码。
PDF输入
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
String text = pdf.extractAllText();
System.out.println("Text extracted from the PDF: " + text);
}
}
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
String text = pdf.extractAllText();
System.out.println("Text extracted from the PDF: " + text);
}
}
源代码的输出结果如下:
> Text extracted from the PDF:
>
> CRAFT-ARENA
>
> Muhammad Waleed Butt
>
> Hassan Khan
>
> ABOUT US
>
> Craft-Arena is a partnershipbased business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.
IronPDF for Java在运行时将URL转换为PDF并从中提取文本。 此示例将查看从URL提取文本的源代码。
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
// new PDF parser
String text = pdf.extractAllText();
System.out.println("Text extracted from the URLs: " + text);
}
}
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
// new PDF parser
String text = pdf.extractAllText();
System.out.println("Text extracted from the URLs: " + text);
}
}
提取的网页数据
使用 IronPDF for Java 从 PDF 中提取表格数据非常简单; 您只需要一个包含表格的PDF文件,并运行以下代码。
示例 PDF 表格输入
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
String text = pdf.extractAllText();
System.out.print("Text extracted from the Marked tables: " + text);
}
}
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
String text = pdf.extractAllText();
System.out.print("Text extracted from the Marked tables: " + text);
}
}
> Test Case Description Expected Result Actual Result Status
>
> 1 Test login functionality User should be able to log in with valid credentials
>
> User log in successfully Pass
>
> 2 Test search functionality Search results should be relevant and accurate
>
> Search is accurate and provide relevant products Pass
>
> 3 Test checkout process User should be able to complete a purchase successfully
>
> User can purchase successfully Pass
总之,本教程演示了如何使用IronPDF for Java从PDF文件中提取数据,特别是表格数据。
欲了解更多信息,请参考IronPDF网站上的从PDF提取文本示例。
IronPDF 是一个库,具有商业许可证详情,起价为$749。 但是,您可以在生产环境中使用 IronPDF 试用许可证进行免费试用。