在實際環境中測試
在生產環境中測試無浮水印。
在任何需要的地方都能運作。
本教程將向您展示如何使用 IronPDF for Java 從 PDF 文件提取數據。設置環境、導入庫、讀取輸入文件和提取所需數據都用代碼範例說明。
IronPDF 是一個軟體庫,為開發者提供生成、編輯和 從 PDF 文件中提取數據 在他們的Java應用程式中。它可以讓你 從HTML創建PDF,圖片等,還有更多, 合併, 分割,以及操作現有的PDF。IronPDF還提供了保護PDF的功能。 密碼保護 和 添加數字簽名,除其他功能外。
IronPDF for Java 是由 Iron Software 開發和維護的。其最受歡迎的功能之一是從 PDF 文件以及 HTML 和 URL 中提取文本和數據。
要使用 IronPDF 從 PDF 文件中提取數據,您必須滿足以下先決條件:
Java 安裝: 確保您的系統已安裝 Java 並且其路徑設置在環境變量中。如果尚未安裝 Java,請參考此 從 Java 網站下載連結 如需說明。
Java IDE: 安裝一個像 Eclipse 或 IntelliJ 這樣的 Java IDE。您可以從這個網站下載 Eclipse 下載連結 和IntelliJ從這個 下載連結。
IronPDF 庫: 下載並將 IronPDF 庫添加為您項目中的一個依賴。瀏覽 IronPDF 網站 安裝說明。
安裝IronPDF for Java很簡單,只要滿足所有需求。此指南將使用JetBrains的IntelliJ IDEA來演示安裝並運行示例代碼。
以下是需要做的步驟:
打開IntelliJ IDEA:在您的系統上啟動JetBrains IntelliJ IDEA。
創建一個Maven項目:在IntelliJ IDEA中創建一個新的Maven項目。這將為安裝IronPDF for Java提供合適的環境。
在 IntelliJ 中建立新的 Maven 項目
將會彈出一個新視窗。輸入項目的名稱,然後點擊完成。
命名 Maven 項目並點擊完成
點擊完成後,將打開一個帶有 pom.xml 的新項目。 這將用於添加 IronPDF Java Maven 依賴。
pom.xml 文件
請在 pom.xml
文件中添加以下依賴項,或者您可以從以下位置下載 JAR 文件 連結.
<dependency>
<groupId>com.ironsoftware</groupId>
<artifactId>com.ironsoftware</artifactId>
<version>2024.9.1</version>
</dependency>
一旦將依賴項放入 pom.xml
文件中,文件右上角將出現一個小圖標。
按一下浮動圖示以自動安裝 Maven 相依套件
透過按一下此按鈕來安裝 IronPDF for Java 的 Maven 相依套件。根據您網際網路連線的速度,這只需幾分鐘即可完成。
IronPDF 是一個用於創建、編輯和從PDF文檔中提取數據的Java庫。它提供了一個簡單的API來從PDF文件、網址和表格中提取文字。
使用 IronPDF for Java,您可以輕鬆從 PDF 文件中提取文本數據。以下是從 PDF 文件中提取數據的範例代碼。
PDF輸入
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
String text = pdf.extractAllText();
System.out.println("Text extracted from the PDF: " + text);
}
}
該源代碼生成以下輸出:
> Text extracted from the PDF:
>
> CRAFT-ARENA
>
> Muhammad Waleed Butt
>
> Hassan Khan
>
> ABOUT US
>
> Craft-Arena is a partnershipbased business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.
IronPDF for Java在運行時將URL轉換為PDF並從中提取文本。這個例子將展示從URL提取文本的源代碼。
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
// new PDF parser
String text = pdf.extractAllText();
System.out.println("Text extracted from the URLs: " + text);
}
}
提取的網頁數據
使用 IronPDF for Java 從 PDF 中提取表格數據非常簡單;您只需要一個包含表格的 PDF,然後運行以下代碼即可。
範例 PDF 表格輸入
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
String text = pdf.extractAllText();
System.out.print("Text extracted from the Marked tables: " + text);
}
}
> Test Case Description Expected Result Actual Result Status
>
> 1 Test login functionality User should be able to log in with valid credentials
>
> User log in successfully Pass
>
> 2 Test search functionality Search results should be relevant and accurate
>
> Search is accurate and provide relevant products Pass
>
> 3 Test checkout process User should be able to complete a purchase successfully
>
> User can purchase successfully Pass
總之,本教程演示了如何使用 IronPDF for Java 從 PDF 文件中提取數據,特別是表格數據。
欲了解更多信息,請參閱 提取文字範例 在IronPDF網站上。
IronPDF是一個帶有 商業授權, 起價為 $Lite License
。不過,您可以在生產環境中評估該軟體 免費試用.