在生產環境中測試,無水印。
在任何需要的地方都能運行。
獲得 30 天的全功能產品。
在幾分鐘內上手運行。
試用產品期間完全訪問我們的支援工程團隊
本教程將向您展示如何使用IronPDF for Java從 PDF 文件中提取數據。環境設置、匯入庫、讀取輸入文件以及提取所需數據等全部通過代碼示例進行了說明。
IronPDF 是一個軟體庫,為開發人員提供在他們的 Java 應用程式中使用 IronPDF for Java 生成、編輯和從 PDF 文件中提取數據的能力。 它允許您從 HTML 文件、圖像等創建 PDF,以及合併多個 PDF、拆分 PDF 文件,並操作現有的 PDF。 IronPDF 還提供使用密碼保護功能來保護 PDF,以及為 PDF 添加數位簽章等其他功能。
IronPDF for Java 由 Iron Software 開發和維護。 其最高評價的功能之一是從 PDF 檔案以及 HTML 和 URL 中提取文字和資料。
要使用IronPDF從PDF檔案中提取數據,您必須滿足以下先決條件:
Java 安裝:確保您的系統上已安裝 Java,並在環境變數中設置其路徑。 如果您尚未安裝 Java,請參考 Java 官網上的下載頁面獲取指導。
Java IDE:安裝像 Eclipse 或 IntelliJ 的 Java IDE。 你可以從這個Eclipse 下載頁面下載 Eclipse,並從這個IntelliJ 下載頁面下載 IntelliJ。
IronPDF 庫:下載並將 IronPDF 庫作為依賴項添加到您的項目中。 請造訪 IronPDF 設定說明頁面 以獲取設定說明。
只要滿足所有要求,安裝IronPDF for Java是簡單且不複雜的。 本指南將使用 JetBrains 的 IntelliJ IDEA 來示範安裝和運行範例代碼。
以下是要做的事情:
開啟 IntelliJ IDEA:在您的系統上啟動 JetBrains IntelliJ IDEA。
在 IntelliJ IDEA 中創建一個新的 Maven 項目。 這將為安裝 IronPDF for Java 提供合適的環境。
在 IntelliJ 中建立新的 Maven 專案
將會出現一個新視窗。 輸入專案名稱,然後點擊完成。
命名 Maven 專案並點擊完成
當您點擊完成後,一個包含 pom.xml 的新項目將會打開。 這將用於添加IronPDF Java Maven相依性。
pom.xml 文件
在pom.xml
檔案中添加以下依賴項,或者您可以從Sonatype Central上的IronPDF庫頁面下載JAR檔案。
<dependency>
<groupId>com.ironsoftware</groupId>
<artifactId>com.ironsoftware</artifactId>
<version>2025.5.6</version>
</dependency>
當您將依賴項放置到pom.xml
檔案中時,檔案右上角會出現一個小圖標。
點擊浮動圖示自動安裝 Maven 依賴項
按下此按鈕來安裝 IronPDF for Java 的 Maven 依賴項。 根據您的網路連接速度,這應該只需要幾分鐘。
IronPDF 是一個用於創建、編輯和提取 PDF 文檔資料的 Java 庫。 它提供了一個簡單的 API,用於從 PDF 文件、URL 和表格中提取文本。
使用IronPDF for Java,您可以輕鬆從PDF文檔中提取文字資料。 以下是從 PDF 文件中提取數據的範例代碼。
PDF 輸入
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
String text = pdf.extractAllText();
System.out.println("Text extracted from the PDF: " + text);
}
}
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
String text = pdf.extractAllText();
System.out.println("Text extracted from the PDF: " + text);
}
}
該源代碼生成以下輸出:
> Text extracted from the PDF:
>
> CRAFT-ARENA
>
> Muhammad Waleed Butt
>
> Hassan Khan
>
> ABOUT US
>
> Craft-Arena is a partnershipbased business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.
IronPDF for Java 在執行時將 URL 轉換為 PDF 並從中提取文本。 此範例將查看從 URL 中提取文本的原始程式碼。
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
// new PDF parser
String text = pdf.extractAllText();
System.out.println("Text extracted from the URLs: " + text);
}
}
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
// new PDF parser
String text = pdf.extractAllText();
System.out.println("Text extracted from the URLs: " + text);
}
}
提取的網頁數據
使用 IronPDF for Java 從 PDF 中提取表格數據非常簡單; 您只需要一個包含表格的 PDF,然後運行以下代碼即可。
範例 PDF 表格輸入
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
String text = pdf.extractAllText();
System.out.print("Text extracted from the Marked tables: " + text);
}
}
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
String text = pdf.extractAllText();
System.out.print("Text extracted from the Marked tables: " + text);
}
}
> Test Case Description Expected Result Actual Result Status
>
> 1 Test login functionality User should be able to log in with valid credentials
>
> User log in successfully Pass
>
> 2 Test search functionality Search results should be relevant and accurate
>
> Search is accurate and provide relevant products Pass
>
> 3 Test checkout process User should be able to complete a purchase successfully
>
> User can purchase successfully Pass
總之,本教程已演示如何使用 IronPDF for Java 從 PDF 文件中提取數據,特別是表格數據。
如需更多資訊,請參考 IronPDF 網站上的從 PDF 提取文字範例。
IronPDF 是一個有商業授權細節的庫,詳細請見此處,起始價格為$749。 然而,您可以使用 IronPDF 試用許可證免費試用 進行生產環境中的評估。