使用 IRONPDF FOR JAVA

如何在 Java 中閱讀 PDF 檔案

已更新 2024年9月1日
分享:

本文將探討如何創建一個 PDF 閱讀器,以程式化方式在您的軟體應用程式中打開 PDF 文件。 為了有效地執行此任務,IronPDF for Java 是一個系統庫,可以在 Java 程式中使用檔案名稱來打開和閱讀 PDF 檔案。

IronPDF

IronPDF - Java 函式庫是建立在已經成功的 .NET Framework 之上。 這使得 IronPDF 成為一個在處理 PDF 文件方面比其他類庫(如 Apache PDFBox)更具靈活性的工具。 它提供了支持提取和解析內容,載入文本,載入圖像。 它還提供了自定義 PDF 頁面的選項,例如頁面佈局邊距頁首和頁尾, 頁面方向,等等。

除此之外,IronPDF 還支持從其他文件格式轉換,使用密碼保護 PDF,數位簽名,合併和分割 PDF 文件。

如何在 Java 中讀取 PDF 檔案

先決條件

要使用 IronPDF 建立 Java PDF 閱讀器,必須確保在電腦上安裝以下組件:

  1. JDK - Java 開發工具包是構建和運行 Java 程式所需的。 如果尚未安裝,請從中下載甲骨文網站.

  2. IDE - 整合開發環境是一種幫助編寫、編輯和調試程式的軟體。 下載任何 Java 的 IDE,例如 Eclipse、NetBeans、IntelliJ。

  3. Maven - Maven 是一個自動化工具,幫助從中央存儲庫下載程式庫。 從下載它Apache Maven 網站.

  4. IronPDF - 最後,IronPDF 被用於在 Java 中讀取 PDF 文件。 這需要作為依賴項添加到您的 Java Maven 項目中。 如下例所示,將 IronPDF 工件與 slf4j 相依檔案一起包含在 pom.xml 文件中:
<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2024.11.4</version>
</dependency>

新增必要的匯入

首先,在 Java 原始檔案的頂部添加以下代碼,以引用 IronPDF 所需的所有方法。 在此範例中,導入 org 是可選的。

import com.ironsoftware.ironpdf.*;
JAVA

接下來,配置IronPDF並使用有效的授權密鑰以使用其方法。 在主方法中調用 setLicenseKey 方法。

License.setLicenseKey("Your license key");
JAVA

注意: 您可以獲取免費試用許可證密鑰來創建、閱讀和打印PDF。

在 Java 中读取现有 PDF 文件

To讀取 PDF 文件,必須有 PDF 文件,或者可以創建一個。 本文將使用一個已經創建的 PDF 文件。代碼簡單,提取文件中文本的過程分為兩步。

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractAllText();
System.out.println(text);
JAVA

在上面的代碼中,從檔案打開 PDF 文件。 Paths.get 方法獲取文件的目錄,並準備從文件中提取內容。然後,[提取所有文本](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText())讀取文件中的所有文本。

輸出如下:

如何在 Java 中讀取 PDF 文件,圖 1:讀取 PDF 文本輸出

讀取 PDF 文本輸出

從特定頁面讀取文本

IronPDF 也可以從 PDF 的特定頁面讀取內容。 extractTextFromPage 方法使用 PageSelection 對象來接受頁面的範圍(s)將從中讀取文本。

在以下示例中,文本是從 PDF 文件的第二頁中提取的。 PageSelection.singlePage 接受需要提取的頁面索引。

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
System.out.println(text);
JAVA

如何在 Java 中读取 PDF 文件,圖 2:讀取 PDF 文字輸出

讀取 PDF 文本輸出

PageSelection 類別中可用於從各種頁面提取文本的其他方法包括:[firstPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#lastPage()), [最後一頁](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#firstPage()), 頁面範圍,和[所有頁面](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#allPages()).

從新生成的 PDF 文件中讀取文本

從 HTML 文件或 URL 新生成的 PDF 文件中也可以執行文本搜尋。 以下範例代碼從 URL 生成 PDF 並從網站提取所有文本。

PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
String text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);
JAVA

如何在 Java 中讀取 PDF 文件,圖 2:從新文件讀取

從新文件讀取

IronPDF 也可以用來提取圖像從 PDF 文件中。

完整程式碼如下:

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {

        License.setLicenseKey("YOUR LICENSE KEY HERE");

        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);

    }
}
JAVA

摘要

本文介紹了如何使用IronPDF在Java中打開和閱讀PDF文件。

IronPDF 可輕鬆從 HTML 或 URL 創建 PDF 並從不同的文件格式進行轉換。 它還有助於快速輕鬆地完成 PDF 任務。

Try IronPDF for 免費試用30天並瞭解它在生產環境中的運作情況。 探索 IronPDF 的商業授權選項僅從 $749 開始。

< 上一頁
如何在 Java 中拆分 PDF 文件
下一個 >
HTML2PDF Java (代碼範例教程)

使用 Maven 安裝

版本:2024.11.4

<dependency>
  <groupId>com.ironsoftware</groupId>
  <artifactId>ironpdf</artifactId>
  <version>2024.11.4</version>
</dependency>

準備開始了嗎? 版本: 2024.11 剛剛發布

免費 Maven 下載 查看許可證 >