使用 IRONPDF FOR JAVA

如何在 Java 中讀取 PDF 文件

已更新 2024年9月15日
分享:

本文將展示如何在Java中使用PDF庫讀取PDF文件,並以名為的演示Java項目為例。 IronPDF讀取 PDF 文件中的文字和元數據類型物件,並創建加密文件。

使用 Java 讀取 PDF 檔案的步驟

  1. 安裝 PDF 庫以使用 Java 讀取 PDF 檔案。

  2. 導入依賴以在專案中使用 PDF 文件。

  3. 使用 IronPDF for Java 加載現有的 PDF 檔案。 PdfDocument.fromFile

  4. 使用 IronPDF 提取 PDF 文件中的文本 [提取所有文本](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) 方法。

  5. 使用該 [getMetadata](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#getMetadata()) 方法。

  6. 使用元數據讀取作者名。 [getAuthor](/java/object-reference/api/com/ironsoftware/ironpdf/metadata/MetadataManager.html#getAuthor()) 方法。

介紹IronPDF for Java作為PDF閱讀庫

為了簡化在Java中閱讀PDF文件的過程,開發人員通常會轉向提供全面和高效解決方案的第三方庫。其中一個突出的庫是IronPDF for Java。

IronPDF旨在對開發者友好,提供簡單易用的API,抽象出PDF頁面操作的複雜性。通過IronPDF,Java開發人員可以將PDF閱讀功能無縫整合到他們的項目中,從而減少開發時間和精力。這個庫支持廣泛的PDF功能,使其成為各種用例的多功能選擇。

主要功能包括能够 創建 PDF 文件 從 HTML、JavaScript、CSS、XML 文件和各種圖像格式中。除此之外,IronPDF 還提供了能夠 添加頁首和頁尾, 建立表格,等等。

安裝 IronPDF for Java

要設置 IronPDF,請確保您擁有可靠的 Java 編譯器。本文推薦使用 IntelliJ IDEA。

  1. 啟動 IntelliJ IDEA 並創建一個新的 Maven 專案。

  2. 專案建立後,訪問 pom.xml 文件。插入以下 Maven 依賴來整合 IronPDF:
    :ProductInstall
  1. 添加這些依賴項後,點擊螢幕右側出現的小按鈕以安裝它們。

在 Java 程式碼範例中讀取 PDF 檔案

讓我們來探討一個簡單的 Java 程式碼範例,演示如何使用 IronPDF 讀取 PDF 檔案的內容。在這個範例中,我們將重點放在從 PDF 文件中提取文本的方法上。

// Importing necessary classes from IronPDF and Java libraries
import com.ironsoftware.ironpdf.*;

import java.io.IOException;
import java.nio.file.Paths;

// Class definition
class Test {
    public static void main(String[] args) throws IOException {
        // Setting the license key for IronPDF (replace "License-Key" with a valid key)
        License.setLicenseKey("License-Key");
        // Loading a PDF document from the file "html_file_saved.pdf"
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("html_file_saved.pdf"));
        // Extracting all text content from the PDF document
        String text = pdf.extractAllText();
        // Printing the extracted text to the console
        System.out.println(text);
    }
}
JAVA

這段 Java 程式碼利用 IronPDF 庫從指定的 PDF 文件中提取文本。程式碼將匯入該 Java 庫並設置許可證金鑰,這是使用該庫的先決條件。然後,程式碼從名為 "html_file_saved.pdf" 的文件中加載 PDF 文檔,並將所有文本內容從文件中提取為內部字串緩衝區。提取的文本存儲在一個變數中,並隨後列印到控制台。

控制台輸出圖像

如何在 Java 中讀取 PDF 文件,圖 1:控制台輸出

控制台輸出

在 Java 代碼範例中讀取 PDF 檔案的元數據

除了文字提取功能外,IronPDF 還支援從 PDF 檔案中提取元數據。為了展示這項功能,讓我們深入探討一個 Java 代碼範例,展示如何從 PDF 文件中檢索元數據的過程。

// Importing necessary classes from IronPDF and Java libraries

import com.ironsoftware.ironpdf.*;
import com.ironsoftware.ironpdf.metadata.MetadataManager;

import java.io.IOException;
import java.nio.file.Paths;

// Class definition
class Test {
    public static void main(String[] args) throws IOException {
        // Setting the license key for IronPDF (replace "License-Key" with a valid key)
        License.setLicenseKey("License-Key");
        // Loading a PDF document from the file "html_file_saved.pdf"
        PdfDocument document = PdfDocument.fromFile(Paths.get("html_file_saved.pdf"));
        // Creating a MetadataManager object to access document metadata
        MetadataManager metadata = document.getMetadata();
        // Extracting the author information from the document metadata
        String author = metadata.getAuthor();
        // Printing the extracted author information to the console
        System.out.println(author);
    }
}
JAVA

這段 Java 代碼使用 IronPDF 庫來提取元數據,特別是PDF文件中的作者信息。 它首先從文件 "html_file_saved.pdf" 加載 PDF 文件。代碼使用 MetadataManager 類別,特別是提取作者信息。提取的作者詳細信息存儲在變數中並打印到控制台。

如何在 Java 中讀取 PDF 文件,圖 2:控制台輸出

控制台輸出

結論

總之,在 Java 程式中讀取現有的 PDF 文件是一項寶貴技能,為開發者開啟了無限可能。不論是提取文本、圖片或其它數據,能夠以程式化方式操作 PDF 是許多應用程式的重要方面。IronPDF for Java 是一個穩健且高效的解決方案,適用於尋求將 PDF 讀取功能整合到 Java 專案中的開發者。

通過遵循安裝步驟並探索提供的代碼示例,開發者可以迅速利用 IronPDF 的強大功能來創建新文件並輕鬆處理與 PDF 相關的任務。除此之外,您還可以進一步探索其創建加密文件的功能。

IronPDF 提供廣泛的支援給開發人員。欲了解更多關於IronPDF for Java的運行方式,請訪問這些網站 完整的文件頁面此外,IronPDF 提供一個 免費試用授權 這是一個了解IronPDF及其功能的好機會。

< 上一頁
如何在Java中創建PDF文件
下一個 >
如何在 Java 中創建 PDF 閱讀器

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 Maven 下載 查看許可證 >