使用 IRONPDF FOR JAVA

如何在 Java 中閱讀 PDF 檔案

已更新 2024年9月1日
分享:

本文將探討如何建立一個 PDF 閱讀器,以在您的軟體應用程序中以程式方式打開 PDF 文件。為了有效地執行此任務,IronPDF for Java 是一個可以幫助使用檔名在 Java 程式中打開和閱讀 PDF 文件的系統庫。

IronPDF

IronPDF - Java 函式庫 建立於已經成功的 .NET Framework 之上。這使 IronPDF 成為一個相比於其他類庫(如 Apache PDFBox)處理 PDF 文件的多功能工具。它提供了這樣的功能來 提取/解析內容, 加載文本, 並加載圖像。它還提供了自定義PDF頁面的選項,如 頁面佈局邊距 頁首和頁尾, 頁面方向 以及更多。

除此之外,IronPDF還支持從其他文件格式轉換、用密碼保護PDF、數字簽名、合併和分割PDF文件。

如何在 Java 中讀取 PDF 檔案

先決條件

要使用 IronPDF 製作 Java PDF 閱讀器,需要確保計算機上已安裝以下組件:

  1. JDK - Java 開發工具包是構建和運行 Java 程序所必需的。如果尚未安裝,請從 甲骨文網站.

  2. IDE - 整合開發環境是一種幫助編寫、編輯和調試程式的軟體。下載任何 Java 的 IDE。例如:Eclipse、NetBeans、IntelliJ。

  3. Maven - Maven 是一個幫助從中央倉庫下載庫的自動化工具。從 Apache Maven 網站.

  4. IronPDF - 最後,需要 IronPDF 來讀取 Java 中的 PDF 文件。這需要作為依賴項添加到您的 Java Maven 專案中。將 IronPDF 工件與 slf4j 依賴項一起包含在 pom.xml 文件中,如下面的示例所示:
<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2024.9.1</version>
</dependency>

添加必要的導入

首先,在 Java 源文件的頂部添加以下代碼,以引用 IronPDF 的所有必要方法。此範例中導入 org 是可選的。

import com.ironsoftware.ironpdf.*;
JAVA

接下來,配置 IronPDF 的有效授權碼以使用其方法。在主方法中調用 setLicenseKey 方法。

License.setLicenseKey("Your license key");
JAVA

注意: 您可以獲取免費試用許可證密鑰來創建、閱讀和打印PDF。

以 Java 讀取現有的 PDF 檔案 讀取 PDF 文件,必須有PDF檔案或者可以創建一個。本文將使用已經創建的PDF檔案。程式碼非常簡單,分兩步即可從文檔中提取文字。

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractAllText();
System.out.println(text);
JAVA

在上面的代碼中, 從檔案 打開 PDF 文件。Paths.get 方法獲取文件的目錄,並準備從文件中提取內容。 然後, [提取所有文本](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) 讀取文件中的所有文字。

輸出如下:

如何在 Java 中讀取 PDF 文件,圖 1:讀取 PDF 文本輸出

閱讀 PDF 文本輸出

從特定頁面讀取文本

IronPDF 也可以從 PDF 的特定頁面讀取內容。extractTextFromPage 方法使用 PageSelection 對象來接受頁面範圍(s) 從中將讀取文本。

在以下範例中,文本將從 PDF 文件的第二頁提取。PageSelection.singlePage 採用需要提取的頁面的索引。

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
System.out.println(text);
JAVA

如何在 Java 中读取 PDF 文件,圖 2:讀取 PDF 文字輸出

閱讀 PDF 文本輸出

PageSelection 類別中還有其他可用的方法,可以用來從不同頁面提取文本,包括: [firstPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#lastPage()), [最後一頁](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#firstPage()), 頁面範圍,和 [所有頁面](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#allPages()).

從新生成的 PDF 文件中讀取文本

也可以從新生成的 PDF 文件(來自 HTML 文件或 URL)中進行文本搜索。以下範例代碼從 URL 生成 PDF 並提取網站上的所有文本。

PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
String text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);
JAVA

如何在 Java 中讀取 PDF 文件,圖 2:從新文件讀取

從新文件讀取

IronPDF 也可用來 提取圖像 從 PDF 檔案。

完整程式碼如下:

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {

        License.setLicenseKey("YOUR LICENSE KEY HERE");

        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);

    }
}
JAVA

摘要

本文解釋了如何使用 IronPDF 在 Java 中打開和閱讀 PDF。

IronPDF 幫助輕鬆從 HTML 或 URL 創建 PDF 並且也可從不同的文件格式進行轉換。它還幫助快速輕鬆地完成 PDF 任務。

試用 IronPDF 用於 30天 並瞭解它在生產中的運作情況。 商業授權 從 $749 開始。

< 上一頁
如何在 Java 中拆分 PDF 文件
下一個 >
HTML2PDF Java (代碼範例教程)

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 Maven 下載 查看許可證 >