在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
本文将使用IronPDF库以高效的方法在Java中创建一个PDF解析器。
IronPDF 是一个Java PDF库,可以轻松准确地创建、读取和操作PDF文档。它基于IronPDF for .NET的成功构建,并在不同平台上提供高效功能。IronPDF for Java利用 IronPdfEngine
快速且针对性能优化。
使用IronPDF,您可以 解析PDF页面 并从PDF文件中提取文本、图像和其他对象。它还使 创建PDF 从HTML字符串、文件、URL和图像中提取内容,并且支持不同文件格式之间的转换。此外,您还可以轻松添加新内容, 添加签名和 添加元数据 到现有的PDF文档中。IronPDF专为Java 8+、Scala和Kotlin设计,并与Windows、Linux和云平台兼容。
要在 Java 中制作一个 PDF 解析项目,您将需要以下工具:
Java IDE:可以使用任何支持 Java 的 IDE。市面上有多种 Java IDE 可供开发使用。本教程将使用 IntelliJ IDE.您可以使用 NetBeans、Eclipse 等。
Maven 项目:Maven 是一种依赖关系管理器,可以控制 Java 项目。Java 版 Maven 可从以下网址下载 这里. IntelliJ Java IDE 内置对 Maven 的支持。
IronPDF - 您可以通过多种方式下载和安装 IronPDF for Java。
pom.xml
文件中添加 IronPDF 依赖。 :ProductInstall
访问 Maven 网站并下载最新的 IronPDF for Java 软件包,它可以从 Maven 仓库网站.
通过以下链接从 IronPDF 网站直接下载 下载链接.
pom.xml
文件中添加以下依赖项: <dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-simple</artifactId>
<version>2.0.5</version>
</dependency>
一旦所有的前提条件都安装完毕,第一步就是导入必要的 IronPDF 包以处理 PDF 文件。在 Main.java
文件的顶部添加以下代码:
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
IronPDF 中的某些方法需要许可证才能使用。您可以购买许可证或免费试用 IronPDF。您可以按以下方式设置密钥:
License.setLicenseKey("YOUR-KEY");
要解析现有的文档以提取内容, PDFDocument 类被使用。其静态 fromFile
方法用于在 Java 程序中从特定路径解析特定文件名的 PDF 文件。代码如下:
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
解析的文档
IronPDF for Java 提供了一种简便的方法来 提取文本 从 PDF 文件中提取文本数据。以下代码片段用于从 PDF 文件中提取文本数据:
String extracted_text = parsedDocument.extractAllText();
上述代码的输出结果如下:
输出
IronPDF for Java 的功能不仅限于现有PDF文档,它还可以创建和解析新文件以提取内容。在这里,本教程将创建一个 从 URL 获取 PDF 文件 然后从中提取内容。下面的示例展示了如何完成这项任务:
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extracted_text = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extracted_text);
}
}
输出结果如下
输出
IronPDF 还提供了一个简单的选项来 提取所有图像 从解析的文档中。在这里,本教程将使用前面的示例来查看如何轻松地从PDF文件中提取图像。
import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
"(《世界人权宣言》) [提取所有图像
](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages()) 方法返回一个 BufferedImages
列表。可以使用 ImageIO.write
方法将每个 BufferedImage
存储为 PNG 图像。解析的 PDF 文件中有 34 张图像,每张图像都被完美提取。
提取的图像
通过仅使用一行代码,从 PDF 文件中的表格边界提取内容变得非常简单,使用以下工具: [提取所有文本
](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) 方法。以下代码片段演示了如何从PDF文件中的表格提取文本:
PDF 中的表格
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
输出结果如下
输出
本文演示了如何使用IronPDF解析现有的PDF文档或从URL创建一个新的PDF解析器文件以从中提取数据。在打开文件后,它可以从PDF中提取表格数据、图像和文本,并且还可以将提取的文本添加到文本文件中以备后用。
有关如何在Java中以编程方式处理PDF文件的详细信息,请访问此网站。 创建 PDF 文件的示例.
IronPDF for Java 库可免费用于开发目的,但需支付一定的费用。 免费试用.不过,对于商业用途,它可以 特许,从 $749 开始。