在實際環境中測試
在生產環境中測試無浮水印。
在任何需要的地方都能運作。
本文將使用IronPDF庫以高效的方法在Java中創建PDF解析器。
IronPDF for Java是一個 Java PDF 庫,能夠輕鬆且精確地創建、閱讀和操作 PDF 文件。 它基於IronPDF for .NET的成功之上,並在不同平台上提供高效功能。 IronPDF for Java 利用IronPdfEngine
快速且針對效能進行了優化。
使用 IronPDF,您可以從 PDF 檔案中提取文字和圖像以及它還能夠從各種來源創建 PDF包括 HTML 字串、檔案、URL 和圖像。 此外,您可以輕鬆添加新內容,使用 IronPDF 插入簽名,和將元數據嵌入PDF文件中. IronPDF 專為 Java 8+、Scala 和 Kotlin 設計,並與 Windows、Linux 和雲端平台相容。
要在 Java 中建立一個 PDF 解析專案,您將需要以下工具:
Java IDE:您可以使用任何支援 Java 的 IDE。有多種 Java IDE 可供開發使用。 這個教程將使用IntelliJ IDE. 您可以使用 NetBeans、Eclipse 等。
Maven 專案:Maven 是一個依賴管理工具,並允許控制 Java 專案。 可以從Maven為Java下載Maven 官方網站. IntelliJ Java IDE內建對Maven的支持。
IronPDF - 您可以通過多種方式下載和安裝 IronPDF for Java。
pom.xml
文件中添加 IronPDF 依賴項。 :ProductInstall
訪問Maven 存儲庫網站上的最新 IronPDF for Java 套件.
直接從 Iron Software 下載官方下載頁面.
pom.xml
文件中: <dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-simple</artifactId>
<version>2.0.5</version>
</dependency>
一旦安裝所有必要的前提條件,第一步是導入必要的IronPDF套件以處理PDF文檔。 在 Main.java
文件的顶部添加以下代码:
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
IronPDF中的某些方法需要許可才能使用。 您可以購買許可證或在免費試用中免費試用IronPDF。 您可以按如下方式設定金鑰:
License.setLicenseKey("YOUR-KEY");
要解析現有文件以進行內容提取,PdfDocument
類別被使用。 它是靜態的從檔案
此方法用於在 Java 程式中從特定路徑解析具體檔名的 PDF 文件。 代碼如下:
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
解析文件
IronPDF for Java 提供了一種簡便的方法來進行從 PDF 文件中提取文本. 以下代碼片段用於從 PDF 文件中提取文字數據:
String extracted_text = parsedDocument.extractAllText();
上述程式碼產生如下輸出:
輸出
IronPDF for Java 的功能不僅限於現有的 PDF 文件,它還可以創建和解析新文件以提取內容。 在這裡,本教學將創建一個從 URL 下載 PDF 文件並提取其中的內容. 以下示例顯示如何完成此任務:
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extracted_text = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extracted_text);
}
}
輸出如下:
輸出
IronPDF 亦提供簡便的選項來從解析的文件中提取所有圖像. 在此教程中,我們將使用先前的範例來看看如何輕鬆從 PDF 檔案中提取圖像。
import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
這[提取所有圖像
](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages())方法返回一個 BufferedImages
列表。 每個 BufferedImage
然後可以使用 ImageIO.write
方法儲存為 PNG 圖片。 解析的 PDF 檔案中有 34 張圖像,每張圖像都被完美提取。
提取的圖像
使用僅一行代碼從 PDF 文件的表格邊界中提取內容變得輕而易舉,使用[extractAllText
方法](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()). 以下代碼片段示範如何從 PDF 文件中的表格提取文字:
PDF 中的表格
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
輸出如下:
輸出
這篇文章演示了如何在 Java 中使用 IronPDF 解析現有的 PDF 文件或從 URL 創建新的 PDF 解析器文件來提取數據。 打開文件後,可以從 PDF 中提取表格數據、圖像和文本,還可以將提取的文本添加到文本文件中以供日後使用。
如需有關如何在 Java 中以程式方式處理 PDF 文件的詳細資訊,請造訪這些PDF 檔案創建範例.
IronPDF for Java 庫可免費用於開發目的,並且有一個免費試用可用. 然而,用於商業用途時,它可以是通過 IronSoftware 授權,起始於 $749。