使用 IRONPDF FOR JAVA

如何在 Java 中從 PDF 提取資料

已更新 2024年9月1日
分享:

本教程將向您展示如何使用IronPDF for Java從 PDF 文件提取數據。設置環境、導入庫、讀取輸入文件和提取所需數據都用代碼範例說明。

2. IronPDF Java PDF 庫

IronPDF 是一個軟體庫,為開發者提供生成、編輯的功能。使用 IronPDF for Java 從 PDF 文件中提取數據在他們的 Java 應用程式中。 它允許您從 HTML 文件創建 PDF,圖片等,還有更多,合併多個 PDF, 拆分 PDF 文件和操作現有的 PDF。 IronPDF還提供加密PDF的功能密碼保護功能將數位簽名添加到PDF檔案中等其他功能。

IronPDF for Java 由 Iron Software 開發和維護。 其最高評價的功能之一是從 PDF 檔案以及 HTML 和 URL 中提取文字和資料。

3. 先決條件

要使用IronPDF從PDF檔案中提取數據,您必須滿足以下先決條件:

  1. Java 安裝: 確保您的系統上已安裝 Java,並在環境變數中設定其路徑。 如果您尚未安裝 Java,請參考此Java網站上的下載頁面請參閱使用說明。

  2. Java IDE: 安裝像 Eclipse 或 IntelliJ 這樣的 Java IDE。 您可以從這裡下載 EclipseEclipse 下載頁面和IntelliJ從這個IntelliJ 下載頁面.

  3. IronPDF 函式庫:下載並將 IronPDF 函式庫添加為專案中的相依項。 訪問IronPDF 設定指導頁面安裝說明。

  4. Maven 安裝: 在開始 PDF 轉換過程之前,應該安裝 Maven 並將其整合到您的 IDE。 Refer to thisJetBrains上的Maven安裝教程安裝和整合 Maven。

4. IronPDF for Java 安裝

只要滿足所有要求,安裝IronPDF for Java是簡單且不複雜的。 本指南將使用 JetBrains 的 IntelliJ IDEA 來示範安裝和運行範例代碼。

以下是要做的事情:

開啟 IntelliJ IDEA:在您的系統上啟動 JetBrains IntelliJ IDEA。

在 IntelliJ IDEA 中創建一個新的 Maven 項目。 這將為安裝 IronPDF for Java 提供合適的環境。

如何在 Java 中從 PDF 提取數據,圖 1:IntelliJ 中的新 Maven 專案

在 IntelliJ 中建立新的 Maven 專案

將會出現一個新視窗。 輸入專案名稱,然後點擊完成。

如何在 Java 中從 PDF 中提取數據,圖 2:命名 Maven 專案並點擊完成

命名 Maven 專案並點擊完成

當您點擊完成後,一個包含 pom.xml 的新項目將會打開。 這將用於添加IronPDF Java Maven相依性。

如何在 Java 中從 PDF 提取數據,圖 3:pom.xml 文件

pom.xml 文件

pom.xml 文件中添加以下依赖項,或者您可以從下載 JAR 文件。IronPDF 庫在 Sonatype Central 的頁面.

<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2024.11.4</version>
</dependency>

一旦您將依賴項放入 pom.xml 文件,文件右上角將會出現一個小圖標。

如何在 Java 中從 PDF 提取數據,圖 4:點擊浮動圖標自動安裝 Maven 依賴項

點擊浮動圖標自動安裝 Maven 依賴項

按下此按鈕來安裝 IronPDF for Java 的 Maven 依賴項。 根據您的網路連接速度,這應該只需要幾分鐘。

5. 提取數據

IronPDF 是一個用於創建、編輯和提取 PDF 文檔資料的 Java 庫。 它提供了一個簡單的 API,用於從 PDF 文件、URL 和表格中提取文本。

5.1. 從 PDF 文件中提取數據

使用IronPDF for Java,您可以輕鬆從PDF文檔中提取文字資料。 以下是從 PDF 文件中提取數據的範例代碼。

如何從 PDF 中提取 Java 數據,圖 5:PDF 輸入

PDF 輸入

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}
JAVA

該源代碼生成以下輸出:

> Text extracted from the PDF:
> 
> CRAFT-ARENA
> 
> Muhammad Waleed Butt
> 
> Hassan Khan
> 
> ABOUT US
> 
> Craft-Arena is a partnershipbased business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.

5.2. 從網址提取數據

IronPDF for Java 在執行時將 URL 轉換為 PDF 並從中提取文本。 此範例將查看從 URL 中提取文本的原始程式碼。

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        // new PDF parser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}
JAVA

如何在 Java 中從 PDF 提取數據,圖6:提取的網頁數據

提取的網頁數據

5.3. 從表格數據提取資料

使用 IronPDF for Java 從 PDF 中提取表格數據非常簡單; 您只需要一個包含表格的 PDF,然後運行以下代碼即可。

如何在 Java 中從 PDF 提取數據,圖 7:樣本 PDF 表格輸入

範例 PDF 表格輸入

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}
JAVA
> Test Case Description Expected Result Actual Result Status
> 
> 1 Test login functionality User should be able to log in with valid credentials
> 
> User log in successfully Pass
> 
> 2 Test search functionality Search results should be relevant and accurate
> 
> Search is accurate and provide relevant products Pass
> 
> 3 Test checkout process User should be able to complete a purchase successfully
> 
> User can purchase successfully Pass

6. 結論

總之,本教程已演示如何使用 IronPDF for Java 從 PDF 文件中提取數據,特別是表格數據。

欲了解更多信息,請參閱從 PDF 提取文本範例在 IronPDF 網站上。

IronPDF 是一個庫,具有一個商業授權詳情,起始於 $749。 然而,您可以在生產中進行評估,搭配一個使用 IronPDF 試用許可證免費試用.

< 上一頁
如何在 Java 中從 PDF 提取圖像
下一個 >
如何使用 Java 合併兩個 PDF 文件

使用 Maven 安裝

版本:2024.11.4

<dependency>
  <groupId>com.ironsoftware</groupId>
  <artifactId>ironpdf</artifactId>
  <version>2024.11.4</version>
</dependency>

準備開始了嗎? 版本: 2024.11 剛剛發布

免費 Maven 下載 查看許可證 >