使用 IRONPDF FOR JAVA

如何在 Java 中從 PDF 提取資料

已更新 2024年9月1日
分享:

本教程將向您展示如何使用 IronPDF for Java 從 PDF 文件提取數據。設置環境、導入庫、讀取輸入文件和提取所需數據都用代碼範例說明。

2. IronPDF Java PDF Library

IronPDF 是一個軟體庫,為開發者提供生成、編輯和 從 PDF 文件中提取數據 在他們的Java應用程式中。它可以讓你 從HTML創建PDF,圖片等,還有更多, 合併, 分割,以及操作現有的PDF。IronPDF還提供了保護PDF的功能。 密碼保護添加數字簽名,除其他功能外。

IronPDF for Java 是由 Iron Software 開發和維護的。其最受歡迎的功能之一是從 PDF 文件以及 HTML 和 URL 中提取文本和數據。

3. 先決條件

要使用 IronPDF 從 PDF 文件中提取數據,您必須滿足以下先決條件:

  1. Java 安裝: 確保您的系統已安裝 Java 並且其路徑設置在環境變量中。如果尚未安裝 Java,請參考此 從 Java 網站下載連結 如需說明。

  2. Java IDE: 安裝一個像 Eclipse 或 IntelliJ 這樣的 Java IDE。您可以從這個網站下載 Eclipse 下載連結 和IntelliJ從這個 下載連結

  3. IronPDF 庫: 下載並將 IronPDF 庫添加為您項目中的一個依賴。瀏覽 IronPDF 網站 安裝說明。

  4. Maven 安裝: 在開始 PDF 轉換流程之前,應該先安裝 Maven 並將其與 IDE 整合。請參考這個 安裝教程 安裝和整合 Maven。

4. IronPDF for Java 安裝

安裝IronPDF for Java很簡單,只要滿足所有需求。此指南將使用JetBrains的IntelliJ IDEA來演示安裝並運行示例代碼。

以下是需要做的步驟:

打開IntelliJ IDEA:在您的系統上啟動JetBrains IntelliJ IDEA。

創建一個Maven項目:在IntelliJ IDEA中創建一個新的Maven項目。這將為安裝IronPDF for Java提供合適的環境。

如何在 Java 中從 PDF 提取數據,圖 1:IntelliJ 中的新 Maven 專案

在 IntelliJ 中建立新的 Maven 項目

將會彈出一個新視窗。輸入項目的名稱,然後點擊完成。

如何在 Java 中從 PDF 中提取數據,圖 2:命名 Maven 專案並點擊完成

命名 Maven 項目並點擊完成

點擊完成後,將打開一個帶有 pom.xml 的新項目。 這將用於添加 IronPDF Java Maven 依賴。

如何在 Java 中從 PDF 提取數據,圖 3:pom.xml 文件

pom.xml 文件

請在 pom.xml 文件中添加以下依賴項,或者您可以從以下位置下載 JAR 文件 連結.

<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2024.9.1</version>
</dependency>

一旦將依賴項放入 pom.xml 文件中,文件右上角將出現一個小圖標。

如何在 Java 中從 PDF 提取數據,圖 4:點擊浮動圖標自動安裝 Maven 依賴項

按一下浮動圖示以自動安裝 Maven 相依套件

透過按一下此按鈕來安裝 IronPDF for Java 的 Maven 相依套件。根據您網際網路連線的速度,這只需幾分鐘即可完成。

5. 提取數據

IronPDF 是一個用於創建、編輯和從PDF文檔中提取數據的Java庫。它提供了一個簡單的API來從PDF文件、網址和表格中提取文字。

5.1. 從 PDF 文件中提取數據

使用 IronPDF for Java,您可以輕鬆從 PDF 文件中提取文本數據。以下是從 PDF 文件中提取數據的範例代碼。

如何從 PDF 中提取 Java 數據,圖 5:PDF 輸入

PDF輸入

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}
JAVA

該源代碼生成以下輸出:

> Text extracted from the PDF:
> 
> CRAFT-ARENA
> 
> Muhammad Waleed Butt
> 
> Hassan Khan
> 
> ABOUT US
> 
> Craft-Arena is a partnership￾based business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.

5.2. 從URL提取數據

IronPDF for Java在運行時將URL轉換為PDF並從中提取文本。這個例子將展示從URL提取文本的源代碼。

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        // new PDF parser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}
JAVA

如何在 Java 中從 PDF 提取數據,圖6:提取的網頁數據

提取的網頁數據

5.3. 從表格數據中提取數據

使用 IronPDF for Java 從 PDF 中提取表格數據非常簡單;您只需要一個包含表格的 PDF,然後運行以下代碼即可。

如何在 Java 中從 PDF 提取數據,圖 7:樣本 PDF 表格輸入

範例 PDF 表格輸入

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}
JAVA
> Test Case Description Expected Result Actual Result Status
> 
> 1 Test login functionality User should be able to log in with valid credentials
> 
> User log in successfully Pass
> 
> 2 Test search functionality Search results should be relevant and accurate
> 
> Search is accurate and provide relevant products Pass
> 
> 3 Test checkout process User should be able to complete a purchase successfully
> 
> User can purchase successfully Pass

6. 結論

總之,本教程演示了如何使用 IronPDF for Java 從 PDF 文件中提取數據,特別是表格數據。

欲了解更多信息,請參閱 提取文字範例 在IronPDF網站上。

IronPDF是一個帶有 商業授權, 起價為 $Lite License。不過,您可以在生產環境中評估該軟體 免費試用.

< 上一頁
如何在 Java 中從 PDF 提取圖像
下一個 >
如何使用 Java 合併兩個 PDF 文件

使用 Maven 安裝

版本: 2024.9.1

<dependency>
  <groupId>com.ironsoftware</groupId>
  <artifactId>ironpdf</artifactId>
  <version>2024.9.1</version>
</dependency>

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 Maven 下載 查看許可證 >