使用 IRONPDF FOR JAVA

如何在 Java 中從 PDF 提取資料

本教程將向您展示如何使用IronPDF for Java從 PDF 文件中提取數據。環境設置、匯入庫、讀取輸入文件以及提取所需數據等全部通過代碼示例進行了說明。

2. IronPDF Java PDF 庫

IronPDF 是一個軟體庫,為開發人員提供在他們的 Java 應用程式中使用 IronPDF for Java 生成、編輯和從 PDF 文件中提取數據的能力。 它允許您從 HTML 文件、圖像等創建 PDF,以及合併多個 PDF拆分 PDF 文件,並操作現有的 PDF。 IronPDF 還提供使用密碼保護功能來保護 PDF,以及為 PDF 添加數位簽章等其他功能。

IronPDF for Java 由 Iron Software 開發和維護。 其最高評價的功能之一是從 PDF 檔案以及 HTML 和 URL 中提取文字和資料。

3. 先決條件

要使用IronPDF從PDF檔案中提取數據,您必須滿足以下先決條件:

  1. Java 安裝:確保您的系統上已安裝 Java,並在環境變數中設置其路徑。 如果您尚未安裝 Java,請參考 Java 官網上的下載頁面獲取指導。

  2. Java IDE:安裝像 Eclipse 或 IntelliJ 的 Java IDE。 你可以從這個Eclipse 下載頁面下載 Eclipse,並從這個IntelliJ 下載頁面下載 IntelliJ。

  3. IronPDF 庫:下載並將 IronPDF 庫作為依賴項添加到您的項目中。 請造訪 IronPDF 設定說明頁面 以獲取設定說明。

  4. Maven 安裝:在開始 PDF 轉換過程之前,應先安裝 Maven 並將其與您的 IDE 整合。 請參考這篇JetBrains 上的 Maven 安裝教學,以了解如何安裝和整合 Maven。

4. IronPDF for Java 安裝

只要滿足所有要求,安裝IronPDF for Java是簡單且不複雜的。 本指南將使用 JetBrains 的 IntelliJ IDEA 來示範安裝和運行範例代碼。

以下是要做的事情:

開啟 IntelliJ IDEA:在您的系統上啟動 JetBrains IntelliJ IDEA。

在 IntelliJ IDEA 中創建一個新的 Maven 項目。 這將為安裝 IronPDF for Java 提供合適的環境。

如何在Java中從PDF提取數據,圖1:IntelliJ中的新Maven項目

在 IntelliJ 中建立新的 Maven 專案

將會出現一個新視窗。 輸入專案名稱,然後點擊完成。

如何從 PDF 中提取資料在 Java 中,圖 2:命名 Maven 專案並按下完成

命名 Maven 專案並點擊完成

當您點擊完成後,一個包含 pom.xml 的新項目將會打開。 這將用於添加IronPDF Java Maven相依性。

如何從 PDF 中提取資料(Java),圖 3:pom.xml 文件

pom.xml 文件

pom.xml檔案中添加以下依賴項,或者您可以從Sonatype Central上的IronPDF庫頁面下載JAR檔案。

<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2025.5.6</version>
</dependency>

當您將依賴項放置到pom.xml檔案中時,檔案右上角會出現一個小圖標。

如何在 Java 中從 PDF 中提取數據,圖 4:點擊浮動圖標自動安裝 Maven 依賴項

點擊浮動圖示自動安裝 Maven 依賴項

按下此按鈕來安裝 IronPDF for Java 的 Maven 依賴項。 根據您的網路連接速度,這應該只需要幾分鐘。

5. 提取數據

IronPDF 是一個用於創建、編輯和提取 PDF 文檔資料的 Java 庫。 它提供了一個簡單的 API,用於從 PDF 文件、URL 和表格中提取文本。

5.1. 從 PDF 文件中提取數據

使用IronPDF for Java,您可以輕鬆從PDF文檔中提取文字資料。 以下是從 PDF 文件中提取數據的範例代碼。

如何從 PDF 中提取數據(Java 教程),圖 5:PDF 輸入

PDF 輸入

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}
import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}
JAVA

該源代碼生成以下輸出:

> Text extracted from the PDF:
> 
> CRAFT-ARENA
> 
> Muhammad Waleed Butt
> 
> Hassan Khan
> 
> ABOUT US
> 
> Craft-Arena is a partnershipbased business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.

5.2. 從網址提取數據

IronPDF for Java 在執行時將 URL 轉換為 PDF 並從中提取文本。 此範例將查看從 URL 中提取文本的原始程式碼。

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        // new PDF parser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}
import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        // new PDF parser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}
JAVA

如何從 PDF 中提取數據,Figure 6︰已提取的網頁數據

提取的網頁數據

5.3. 從表格數據提取資料

使用 IronPDF for Java 從 PDF 中提取表格數據非常簡單; 您只需要一個包含表格的 PDF,然後運行以下代碼即可。

如何從 PDF 中提取數據(Java),圖 7:樣例 PDF 表格輸入

範例 PDF 表格輸入

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}
import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}
JAVA
> Test Case Description Expected Result Actual Result Status
> 
> 1 Test login functionality User should be able to log in with valid credentials
> 
> User log in successfully Pass
> 
> 2 Test search functionality Search results should be relevant and accurate
> 
> Search is accurate and provide relevant products Pass
> 
> 3 Test checkout process User should be able to complete a purchase successfully
> 
> User can purchase successfully Pass

6. 結論

總之,本教程已演示如何使用 IronPDF for Java 從 PDF 文件中提取數據,特別是表格數據。

如需更多資訊,請參考 IronPDF 網站上的從 PDF 提取文字範例

IronPDF 是一個有商業授權細節的庫,詳細請見此處,起始價格為$749。 然而,您可以使用 IronPDF 試用許可證免費試用 進行生產環境中的評估。

Darrius Serrant
全端軟體工程師(WebOps)

Darrius Serrant 擁有邁阿密大學的計算機科學學士學位,目前擔任 Iron Software 的全端 WebOps 行銷工程師。自幼對編程產生興趣,他認為計算機既神秘又易於接觸,使其成為創造力和解決問題的完美媒介。

在 Iron Software,Darrius 享受創造新事物並簡化複雜概念使其更易理解的過程。作為我們的其中一位常駐開發人員,他也自願教導學生,將他的專業知識傳授給下一代。

對 Darrius 來說,他的工作之所以令人滿足,是因為它受到重視並且產生了真正的影響。

< 上一頁
如何在 Java 中從 PDF 提取圖像
下一個 >
如何使用 Java 合併兩個 PDF 文件

使用 Maven 安裝

版本:2025.5.6

<dependency>
  <groupId>com.ironsoftware</groupId>
  <artifactId>ironpdf</artifactId>
  <version>2025.5.6</version>
</dependency>