使用 IRONPDF FOR JAVA

如何在 Java 中閱讀 PDF 檔案

里根普恩
里根普恩
2023年2月26日
已更新 2024年9月1日
分享:

本文將探討如何創建一個 PDF 閱讀器,以程式化方式在您的軟體應用程式中打開 PDF 文件。 為了有效地執行此任務,IronPDF for Java 是一個系統庫,可以在 Java 程式中使用檔案名稱來打開和閱讀 PDF 檔案。

IronPDF

IronPDF - Java Library 是建立在已經成功的 .NET Framework 之上。 這使得 IronPDF 成為一個在處理 PDF 文件方面比其他類庫(如 Apache PDFBox)更具靈活性的工具。 它提供了提取和解析內容、加載文本和加載圖像的功能。 它還提供自訂 PDF 頁面的選項,例如頁面佈局、邊距、頁首和頁尾頁面方向等等。

除此之外,IronPDF 還支持從其他文件格式轉換,使用密碼保護 PDF,數位簽名,合併和分割 PDF 文件。

如何在 Java 中讀取 PDF 檔案

先決條件

要使用 IronPDF 建立 Java PDF 閱讀器,必須確保在電腦上安裝以下組件:

  1. JDK - Java 開發工具包是構建和運行 Java 程式所必需的。 如果尚未安裝,請從Oracle 網站下載。

  2. IDE - 整合開發環境是幫助編寫、編輯和除錯程式的軟體。 下載任何 Java 的 IDE,例如 Eclipse、NetBeans、IntelliJ。

  3. Maven - Maven 是一種自動化工具,可用於從中央庫下載庫。 從Apache Maven 網站下載它。

  4. IronPDF - 最後,要在 Java 中讀取 PDF 文件需要使用 IronPDF。 這需要作為依賴項添加到您的 Java Maven 項目中。 在pom.xml文件中包括IronPDF工件以及slf4j依赖項,如以下示例所示:
<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2025.3.6</version>
</dependency>

新增必要的匯入

首先,在 Java 原始檔案的頂部添加以下代碼,以引用 IronPDF 所需的所有方法。 在此範例中,導入 org 是可選的。

import com.ironsoftware.ironpdf.*;
JAVA

接下來,配置IronPDF並使用有效的授權密鑰以使用其方法。 在主方法中調用setLicenseKey方法。

License.setLicenseKey("Your license key");
JAVA

注意:您可以獲取免費試用許可證碼來建立、閱讀和打印 PDF 文件。

在 Java 中读取现有 PDF 文件

閱讀 PDF 文件,必須有 PDF 文件,或者可以創建一個。 本文將使用一個已經創建的 PDF 文件。代碼簡單,提取文件中文本的過程分為兩步。

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractAllText();
System.out.println(text);
JAVA

在上述程式碼中,fromFile 用來開啟一個 PDF 文件。 Paths.get 方法獲取文件的目錄,並準備從文件中提取內容。然後,[extractAllText](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) 讀取文檔中的所有文本。

輸出如下:

如何在 Java 中讀取 PDF 文件,圖 1:讀取 PDF 文本輸出

讀取 PDF 文本輸出

從特定頁面讀取文本

IronPDF 也可以從 PDF 的特定頁面讀取內容。 extractTextFromPage 方法使用 PageSelection 物件來接受一個或多個頁面的範圍以從中讀取文字。

在以下示例中,文本是從 PDF 文件的第二頁中提取的。 PageSelection.singlePage 取出需要提取的頁面索引。

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
System.out.println(text);
JAVA

如何在 Java 中讀取 PDF 檔案,圖 2:讀取 PDF 文字輸出

讀取 PDF 文本輸出

PageSelection 類別中可用於從各種頁面提取文本的其他方法包括:[firstPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#firstPage()、[lastPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#lastPage()、[pageRange](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#pageRange(int,int) 和 [allPages](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#allPages()。

從新生成的 PDF 文件中讀取文本

從 HTML 文件或 URL 新生成的 PDF 文件中也可以執行文本搜尋。 以下範例代碼從 URL 生成 PDF 並從網站提取所有文本。

PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
String text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);
JAVA

如何在 Java 中讀取 PDF 文件,圖 2:從新文件中讀取

從新文件中讀取

IronPDF 也可以用來從 PDF 檔案中提取圖像

完整程式碼如下:

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {

        License.setLicenseKey("YOUR LICENSE KEY HERE");

        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);

    }
}
JAVA

摘要

本文介紹了如何使用IronPDF在Java中打開和閱讀PDF文件。

IronPDF 可輕鬆從 HTML 或 URL 創建 PDF 並從不同的文件格式進行轉換。 它還有助於快速輕鬆地完成 PDF 任務。

試用 IronPDF 30 天免費試用,了解它在生產環境中的運行效果。 探索 IronPDF 的商業授權選項,價格僅從$749起。

里根普恩
軟體工程師
Regan 畢業於雷丁大學,擁有電子工程學士學位。在加入 Iron Software 之前,他的工作角色讓他專注於單一任務;而他在 Iron Software 工作中最喜歡的是他所能承擔的工作範圍,無論是增加銷售價值、技術支持、產品開發或市場營銷。他喜歡了解開發人員如何使用 Iron Software 庫,並利用這些知識不斷改進文檔和開發產品。
< 上一頁
如何在 Java 中拆分 PDF 文件
下一個 >
HTML2PDF Java (代碼範例教程)