在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
本教程将向您展示如何使用 IronPDF for Java 从PDF文件中提取数据。通过代码示例解释了设置环境、导入库、读取输入文件和提取所需数据的过程。
IronPDF 是一个软件库,为开发人员提供了生成、编辑和 从PDF文件中提取数据 在他们的 Java 应用程序内。它允许您 从 HTML 创建 PDF图像等,以及 并吞, (意见) 分歧,和操作现有的PDF。IronPDF还提供了保护PDF文件的能力。 密码保护 和 添加数字签名,及其他功能。
IronPDF for Java由Iron Software开发和维护。其最受好评的功能之一是从PDF文件以及HTML和URL中提取文本和数据。
要使用 IronPDF 从 PDF 文件中提取数据,必须满足以下前提条件:
Java 安装: 确保 Java 已安装在系统上,且其路径已在环境变量中设置。如果您尚未安装 Java,请参阅此文 从Java网站下载链接 以获取说明。
Java IDE: 安装 Java IDE,如 Eclipse 或 IntelliJ。您可以从以下网址下载 Eclipse 下载链接 和 IntelliJ 下载链接.
IronPDF 库: 下载 IronPDF 库并将其作为依赖项添加到项目中。访问 IronPDF 网站 以下是设置说明。
安装IronPDF for Java很简单,只要满足所有要求。本指南将使用JetBrains的IntelliJ IDEA来演示安装并运行示例代码。
下面是操作步骤:
打开IntelliJ IDEA:在你的系统上启动JetBrains IntelliJ IDEA。
创建一个Maven项目:在IntelliJ IDEA中,创建一个新的Maven项目。这将为安装IronPDF for Java提供一个合适的环境。
在 IntelliJ 中创建新的 Maven 项目
将会出现一个新窗口。输入项目名称,然后点击完成。
为 Maven 项目命名并点击 Finish
一旦点击 Finish,一个带有 pom.xml 的新项目将会打开。这将用于添加 IronPDF Java Maven 依赖项。
pom.xml 文件
在 pom.xml
文件中添加以下依赖项,或者你可以从以下网址下载 JAR 文件。 链接.
<dependency>
<groupId>com.ironsoftware</groupId>
<artifactId>com.ironsoftware</artifactId>
<version>2024.9.1</version>
</dependency>
将依赖项放入pom.xml
文件后,文件的右上角会出现一个小图标。
点击浮动图标自动安装 Maven 依赖项
通过点击此按钮安装 IronPDF for Java 的 Maven 依赖项。根据您的网络连接速度,这应该只需要几分钟。
IronPDF 是一个用于从 PDF 文档中创建、编辑、和提取数据的 Java 库。它提供了一个简单的 API 用于从 PDF 文件、URL 和表中提取文本。
使用 IronPDF for Java,您可以轻松地从PDF文档中提取文本数据。以下是从PDF文件中提取数据的示例代码。
PDF 输入
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
String text = pdf.extractAllText();
System.out.println("Text extracted from the PDF: " + text);
}
}
源代码的输出结果如下:
> Text extracted from the PDF:
>
> CRAFT-ARENA
>
> Muhammad Waleed Butt
>
> Hassan Khan
>
> ABOUT US
>
> Craft-Arena is a partnershipbased business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.
IronPDF for Java 在运行时将URL转换为PDF并从中提取文本。此示例将展示从URL提取文本的源代码。
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
// new PDF parser
String text = pdf.extractAllText();
System.out.println("Text extracted from the URLs: " + text);
}
}
提取的网页数据
使用 IronPDF for Java 从 PDF 中提取表格数据非常简单;您只需要一个包含表格的 PDF,并运行以下代码。
样本PDF表输入
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
String text = pdf.extractAllText();
System.out.print("Text extracted from the Marked tables: " + text);
}
}
> Test Case Description Expected Result Actual Result Status
>
> 1 Test login functionality User should be able to log in with valid credentials
>
> User log in successfully Pass
>
> 2 Test search functionality Search results should be relevant and accurate
>
> Search is accurate and provide relevant products Pass
>
> 3 Test checkout process User should be able to complete a purchase successfully
>
> User can purchase successfully Pass
最后,本教程演示了如何使用 IronPDF for Java 从 PDF 文件中提取数据,特别是表格数据。
如需了解更多信息,请参阅 提取文本示例 在 IronPDF 网站上。