在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
本文将使用IronPDF库以高效的方法在Java中创建一个PDF解析器。
IronPDF for Java是一个 Java PDF 库,可轻松准确地创建、阅读和操作 PDF 文档。 它建立在 IronPDF for .NET 的成功基础之上,提供了跨不同平台的高效功能。 IronPDF for Java 使用了IronPdfEngine
该翻译工具可快速翻译,并对性能进行了优化。
使用IronPDF,您可以从 PDF 文件中提取文本和图像它还能从各种来源创建 PDF包括 HTML 字符串、文件、URL 和图像。 此外,您还可以轻松添加新内容、使用 IronPDF 插入签名和将元数据嵌入 PDF 文档. IronPdf 专为 Java 8+、Scala 和 Kotlin 而设计,兼容 Windows、Linux 和云平台。
要制作 Java PDF 解析项目,您需要以下工具:
Java IDE:您可以使用任何支持 Java 的集成开发环境。有多种 Java IDE 可用于开发。 本教程将使用IntelliJ IDE. 您可以使用 NetBeans、Eclipse 等等。
Maven 项目:Maven 是一种依赖关系管理器,可以控制 Java 项目。 可以从以下网址下载Java的Maven:Maven 官方网站. IntelliJ Java IDE 内置支持 Maven。
IronPDF - 您可以通过多种方式下载并安装 IronPDF for Java。
pom.xml
文件中添加 IronPDF 依赖关系。 :ProductInstall
访问IronPDF for Java 最新软件包的 Maven 资源库网站.
从 Iron Software 直接下载官方下载页面.
pom.xml
文件中添加以下依赖项: <dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-simple</artifactId>
<version>2.0.5</version>
</dependency>
安装好所有先决条件后,第一步就是导入必要的 IronPDF 软件包,以处理 PDF 文档。 在 Main.java
文件顶部添加以下代码:
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
IronPDF中的某些方法需要许可证才能使用。 您可以购买许可证或免费试用 IronPDF。 您可以将密钥设置如下:
License.setLicenseKey("YOUR-KEY");
要解析现有文档以提取内容,需要PDFDocument使用类。 它是静态的fromFile
该方法用于在 Java 程序中用特定文件名从特定路径解析 PDF 文件。 代码如下
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
已解析文件
IronPDF for Java 为以下方面提供了简便的方法从 PDF 文档中提取文本. 以下代码片段用于从 PDF 文件中提取文本数据:
String extracted_text = parsedDocument.extractAllText();
上述代码的输出结果如下:
输出
IronPDF for Java 的功能不仅限于现有的 PDF,它还可以创建和解析一个新文件以提取内容。 在此,本教程将创建一个从 URL 获取 PDF 文件并从中提取内容. 下面的示例展示了如何完成这项任务:
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extracted_text = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extracted_text);
}
}
输出结果如下
输出
IronPDF 还提供了一个简便的选项来从解析的文档中提取所有图像. 在此,教程将使用之前的示例来说明如何轻松地从 PDF 文件中提取图像。
import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
"(《世界人权宣言》)[提取所有图像
](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages())方法返回一个 BufferedImages
列表。 然后,可以使用 ImageIO.write
方法将每个 BufferedImage
存储为 PNG 图像。 解析后的 PDF 文件中有 34 张图片,每张图片都提取得非常完美。
提取图片
从 PDF 文件的表格边界中提取内容非常简单,只需单行代码,使用[提取所有文本 "方法](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()). 以下代码片段演示了如何从 PDF 文件的表格中提取文本:
PDF 格式的表格
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
输出结果如下
输出
本文演示了如何使用 IronPDF for Java 在 Java 中解析现有 PDF 文档或从 URL 创建新的 PDF 解析器文件,以从中提取数据。 打开文件后,它可以从 PDF 中提取表格数据、图像和文本,还可以将提取的文本添加到文本文件中,以供日后使用。
有关如何用 Java 编程处理 PDF 文件的详细信息,请访问以下网站PDF 文件创建示例.
IronPDF for Java 库可免费用于开发目的,但需支付一定的费用。可免费试用. 但是,对于商业用途,可以通过 IronSoftware 授权,从 $749 开始。