使用 IRONPDF FOR JAVA

如何在 Java 中解析 PDF(開發者教程)

已更新 2024年9月15日
分享:

本文將使用IronPDF庫以高效的方法在Java中創建PDF解析器。

IronPDF - Java PDF 庫

IronPDF for Java是一個 Java PDF 庫,能夠輕鬆且精確地創建、閱讀和操作 PDF 文件。 它基於IronPDF for .NET的成功之上,並在不同平台上提供高效功能。 IronPDF for Java 利用IronPdfEngine快速且針對效能進行了優化。

使用 IronPDF,您可以從 PDF 檔案中提取文字和圖像以及它還能夠從各種來源創建 PDF包括 HTML 字串、檔案、URL 和圖像。 此外,您可以輕鬆添加新內容,使用 IronPDF 插入簽名,和將元數據嵌入PDF文件中. IronPDF 專為 Java 8+、Scala 和 Kotlin 設計,並與 Windows、Linux 和雲端平台相容。

使用 IronPDF 在 Java 程式中建立 PDF 檔案解析器

先決條件

要在 Java 中建立一個 PDF 解析專案,您將需要以下工具:

  1. Java IDE:您可以使用任何支援 Java 的 IDE。有多種 Java IDE 可供開發使用。 這個教程將使用IntelliJ IDE. 您可以使用 NetBeans、Eclipse 等。

  2. Maven 專案:Maven 是一個依賴管理工具,並允許控制 Java 專案。 可以從Maven為Java下載Maven 官方網站. IntelliJ Java IDE內建對Maven的支持。

  3. IronPDF - 您可以通過多種方式下載和安裝 IronPDF for Java。

    • 在 Maven 專案的 pom.xml 文件中添加 IronPDF 依賴項。
     :ProductInstall
  1. Slf4j-Simple:這個依賴項也需要用來在現有文件上加蓋內容。 可以在 IntelliJ 中使用 Maven 依賴管理器添加,或者直接從 Maven 網站下載。將以下依賴添加到 pom.xml 文件中:
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
XML

新增必要的匯入

一旦安裝所有必要的前提條件,第一步是導入必要的IronPDF套件以處理PDF文檔。 在 Main.java 文件的顶部添加以下代码:

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
JAVA

授權金鑰

IronPDF中的某些方法需要許可才能使用。 您可以購買許可證或在免費試用中免費試用IronPDF。 您可以按如下方式設定金鑰:

License.setLicenseKey("YOUR-KEY");
JAVA

步驟 1:解析現有的 PDF 文件

要解析現有文件以進行內容提取,PdfDocument類別被使用。 它是靜態的從檔案此方法用於在 Java 程式中從特定路徑解析具體檔名的 PDF 文件。 代碼如下:

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
JAVA

如何在Java中解析PDF(開發者教程),圖1:解析後的文件

解析文件

步驟 2:從解析的 PDF 文件中提取文本數據

IronPDF for Java 提供了一種簡便的方法來進行從 PDF 文件中提取文本. 以下代碼片段用於從 PDF 文件中提取文字數據:

String extracted_text = parsedDocument.extractAllText();
JAVA

上述程式碼產生如下輸出:

如何在 Java 中解析 PDF(開發者教程),圖 2:輸出

輸出

步驟 3:從 URL 或 HTML 字串中提取文字資料

IronPDF for Java 的功能不僅限於現有的 PDF 文件,它還可以創建和解析新文件以提取內容。 在這裡,本教學將創建一個從 URL 下載 PDF 文件並提取其中的內容. 以下示例顯示如何完成此任務:

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extracted_text = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extracted_text);
    }
}
JAVA

輸出如下:

如何在 Java 中解析 PDF (開發者教程),圖 3:輸出

輸出

步驟 4:從已解析的 PDF 文檔中提取圖像

IronPDF 亦提供簡便的選項來從解析的文件中提取所有圖像. 在此教程中,我們將使用先前的範例來看看如何輕鬆從 PDF 檔案中提取圖像。

import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public static void main(String[] args) throws IOException {
    License.setLicenseKey("YOUR-KEY");

    PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

    try {
        List<BufferedImage> images = parsedDocument.extractAllImages();
        System.out.println("Number of images extracted from the website: " + images.size());

        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
        }
    } catch (Exception exception) {
        System.out.println("Failed to extract images from the website");
        exception.printStackTrace();
    }
}
JAVA

這[提取所有圖像](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages())方法返回一個 BufferedImages 列表。 每個 BufferedImage 然後可以使用 ImageIO.write 方法儲存為 PNG 圖片。 解析的 PDF 檔案中有 34 張圖像,每張圖像都被完美提取。

如何在 Java 中解析 PDF(開發者教程),圖4:提取的圖像

提取的圖像

步驟 5:從 PDF 文件中的表格提取數據

使用僅一行代碼從 PDF 文件的表格邊界中提取內容變得輕而易舉,使用[extractAllText 方法](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()). 以下代碼片段示範如何從 PDF 文件中的表格提取文字:

如何在Java中解析PDF(開發者教程),圖5:PDF內的表格

PDF 中的表格

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
JAVA

輸出如下:

如何在 Java 中解析 PDF(開發者教程),圖6:輸出

輸出

結論

這篇文章演示了如何在 Java 中使用 IronPDF 解析現有的 PDF 文件或從 URL 創建新的 PDF 解析器文件來提取數據。 打開文件後,可以從 PDF 中提取表格數據、圖像和文本,還可以將提取的文本添加到文本文件中以供日後使用。

如需有關如何在 Java 中以程式方式處理 PDF 文件的詳細資訊,請造訪這些PDF 檔案創建範例.

IronPDF for Java 庫可免費用於開發目的,並且有一個免費試用可用. 然而,用於商業用途時,它可以是通過 IronSoftware 授權,起始於 $749。

< 上一頁
使用 IntelliJ 處理 Maven 項目
下一個 >
如何在 Java 中生成 PDF 報告

準備開始了嗎? 版本: 2024.11 剛剛發布

免費 Maven 下載 查看許可證 >