使用 IRONPDF FOR JAVA

如何在 Java 中解析 PDF(開發者教程)

已更新 2024年9月15日
分享:

本文將使用IronPDF庫以高效的方法在Java中創建PDF解析器。

IronPDF - Java PDF Library

IronPDF 是針對 Java 開發的一個強大 PDF 庫, 可用來創建、編輯、操作及轉換 PDF 文件。

IronPDF 是一個 Java PDF 庫,允許用戶輕鬆且準確地創建、閱讀和操作 PDF 文件。它基於 IronPDF for .NET 的成功並在不同平台間提供高效的功能。IronPDF for Java 利用 IronPdfEngine, 其速度快且優化了性能。

利用 IronPDF,你可以 解析 PDF 頁面 並從 PDF 文件中提取文字、圖片和其他對象。 它還可以 創建PDFs 從HTML字串、檔案、網址、及圖片中擷取數據,以及在不同檔案格式之間轉換。此外,您還能輕鬆添加新內容, 添加簽名,和 添加元數據 到現有的PDF文件。IronPDF專為Java 8+、Scala和Kotlin設計,並且兼容Windows、Linux和雲平台。

使用 IronPDF 在 Java 程式中建立 PDF 檔案解析器

必要條件

要在 Java 中製作 PDF 解析項目,您需要以下工具:

  1. Java IDE:您可以使用任何支援 Java 的 IDE。有多種 Java IDE 可供選擇。在本教程中將使用 IntelliJ IDE. 你可以使用 NetBeans、Eclipse 等。

  2. Maven 專案:Maven 是一個依賴管理工具,並且可以控制 Java 專案。可以從以下位置下載 Maven for Java 這裡. IntelliJ Java IDE 內建支持 Maven。

  3. IronPDF - 您可以通過多種方式下載和安裝 IronPDF for Java。

    • 在 Maven 項目的 pom.xml 文件中添加 IronPDF 依賴。
        :ProductInstall
  • 訪問 Maven 網站並下載最新的 IronPDF for Java 套件,可以從 Maven倉庫網站.
  • 直接從IronPDF網站下載通過此 下載連結.
  • 手動安裝 IronPDF 使用 JAR 文件在您的簡單 Java 應用程序中。
  1. Slf4j-Simple:此依賴項也需要來將內容加蓋到現有文檔。可以使用 IntelliJ 中的 Maven 依賴管理器添加,或直接從 Maven 網站下載。將以下依賴項添加到 pom.xml 文件中:
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
XML

添加必要的导入

安裝所有必要的先決條件後,第一步是导入处理 PDF 文件所需的 IronPDF 包。在 Main.java 文件的顶部添加以下代码:

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
JAVA

授權金鑰

IronPDF 中的某些方法需要授權才能使用。您可以購買授權或在免費試用中嘗試使用 IronPDF。您可以如下設置金鑰:

License.setLicenseKey("YOUR-KEY");
JAVA

步驟1:解析現有的PDF文件

要解析現有的文件以提取內容, PdfDocument 類別被使用。其靜態 從檔案 方法用於在Java程式中從特定路徑和特定檔名解析PDF檔案。程式碼如下:

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
JAVA

如何在Java中解析PDF(開發者教程),圖1:解析後的文件

解析文件

步驟 2:從解析過的 PDF 文件中提取文本數據

IronPDF for Java 提供了一種簡單的方法來 提取文本 從 PDF 文件中提取。以下代碼片段是從 PDF 文件中提取文本數據:

String extracted_text = parsedDocument.extractAllText();
JAVA

上面的代碼產生如下的輸出:

如何在 Java 中解析 PDF(開發者教程),圖 2:輸出

輸出

第三步:從URL或HTML字串中提取文本數據

IronPDF for Java的功能不僅限於現有的PDF,還可以創建和解析新文件以提取內容。本教程將創建一個 從 URL 獲取 PDF 檔案 然後從中提取內容。以下示例顯示如何完成此任務:

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extracted_text = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extracted_text);
    }
}
JAVA

輸出如下:

如何在 Java 中解析 PDF (開發者教程),圖 3:輸出

輸出

第四步:從解析的 PDF 文件中擷取圖像

IronPDF 也提供了一個簡單的選項來 提取所有圖片 從解析後的文檔中。教程將使用之前的例子,來查看從 PDF 文件中提取圖像有多麼容易。

import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public static void main(String[] args) throws IOException {
    License.setLicenseKey("YOUR-KEY");

    PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

    try {
        List<BufferedImage> images = parsedDocument.extractAllImages();
        System.out.println("Number of images extracted from the website: " + images.size());

        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
        }
    } catch (Exception exception) {
        System.out.println("Failed to extract images from the website");
        exception.printStackTrace();
    }
}
JAVA

這 [提取所有圖像](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages()) 該方法返回一個 BufferedImages 列表。每個 BufferedImage 然後可以使用 ImageIO.write 方法存儲為 PNG 圖片在指定位置。解析的 PDF 文件中有 34 幅圖像,並且每張圖像都完美地提取出來。

如何在 Java 中解析 PDF(開發者教程),圖4:提取的圖像

提取的圖片

第五步:從 PDF 文件內的表格提取數據

通過使用一行代碼即可輕鬆從 PDF 文件內的表格邊界提取內容。 [提取所有文本](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) 方法。以下代碼示例展示了如何從 PDF 文件中的表格中提取文本:

如何在Java中解析PDF(開發者教程),圖5:PDF內的表格

PDF 中的表格

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
JAVA

輸出如下:

如何在 Java 中解析 PDF(開發者教程),圖6:輸出

輸出

結論

本文演示如何使用 IronPDF 在 Java 中解析現有的 PDF 文檔或從 URL 建立一個新的 PDF 解析文件以從中提取數據。打開文件後,它可以從 PDF 中提取表格數據、圖像和文本,還可以將提取的文本添加到文本文件中以供後續使用。

有關如何在 Java 中以程式方式處理 PDF 文件的更多詳細信息,請訪問此 創建 PDF 文件的範例IronPDF for Java 函式庫在開發用途上是免費的 免費試用然而,對於商業用途,它可以是 授權,起始於 $749。

< 上一頁
使用 IntelliJ 處理 Maven 項目
下一個 >
如何在 Java 中生成 PDF 報告

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 Maven 下載 查看許可證 >