在實際環境中測試
在生產環境中測試無浮水印。
在任何需要的地方都能運作。
本文將使用IronPDF庫以高效的方法在Java中創建PDF解析器。
IronPDF 是針對 Java 開發的一個強大 PDF 庫, 可用來創建、編輯、操作及轉換 PDF 文件。
IronPDF 是一個 Java PDF 庫,允許用戶輕鬆且準確地創建、閱讀和操作 PDF 文件。它基於 IronPDF for .NET 的成功並在不同平台間提供高效的功能。IronPDF for Java 利用 IronPdfEngine
, 其速度快且優化了性能。
利用 IronPDF,你可以 解析 PDF 頁面 並從 PDF 文件中提取文字、圖片和其他對象。 它還可以 創建PDFs 從HTML字串、檔案、網址、及圖片中擷取數據,以及在不同檔案格式之間轉換。此外,您還能輕鬆添加新內容, 添加簽名,和 添加元數據 到現有的PDF文件。IronPDF專為Java 8+、Scala和Kotlin設計,並且兼容Windows、Linux和雲平台。
要在 Java 中製作 PDF 解析項目,您需要以下工具:
Java IDE:您可以使用任何支援 Java 的 IDE。有多種 Java IDE 可供選擇。在本教程中將使用 IntelliJ IDE. 你可以使用 NetBeans、Eclipse 等。
Maven 專案:Maven 是一個依賴管理工具,並且可以控制 Java 專案。可以從以下位置下載 Maven for Java 這裡. IntelliJ Java IDE 內建支持 Maven。
IronPDF - 您可以通過多種方式下載和安裝 IronPDF for Java。
pom.xml
文件中添加 IronPDF 依賴。 :ProductInstall
pom.xml
文件中: <dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-simple</artifactId>
<version>2.0.5</version>
</dependency>
安裝所有必要的先決條件後,第一步是导入处理 PDF 文件所需的 IronPDF 包。在 Main.java
文件的顶部添加以下代码:
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
IronPDF 中的某些方法需要授權才能使用。您可以購買授權或在免費試用中嘗試使用 IronPDF。您可以如下設置金鑰:
License.setLicenseKey("YOUR-KEY");
要解析現有的文件以提取內容, PdfDocument
類別被使用。其靜態 從檔案
方法用於在Java程式中從特定路徑和特定檔名解析PDF檔案。程式碼如下:
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
解析文件
IronPDF for Java 提供了一種簡單的方法來 提取文本 從 PDF 文件中提取。以下代碼片段是從 PDF 文件中提取文本數據:
String extracted_text = parsedDocument.extractAllText();
上面的代碼產生如下的輸出:
輸出
IronPDF for Java的功能不僅限於現有的PDF,還可以創建和解析新文件以提取內容。本教程將創建一個 從 URL 獲取 PDF 檔案 然後從中提取內容。以下示例顯示如何完成此任務:
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extracted_text = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extracted_text);
}
}
輸出如下:
輸出
IronPDF 也提供了一個簡單的選項來 提取所有圖片 從解析後的文檔中。教程將使用之前的例子,來查看從 PDF 文件中提取圖像有多麼容易。
import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
這 [提取所有圖像
](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages()) 該方法返回一個 BufferedImages
列表。每個 BufferedImage
然後可以使用 ImageIO.write
方法存儲為 PNG 圖片在指定位置。解析的 PDF 文件中有 34 幅圖像,並且每張圖像都完美地提取出來。
提取的圖片
通過使用一行代碼即可輕鬆從 PDF 文件內的表格邊界提取內容。 [提取所有文本
](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) 方法。以下代碼示例展示了如何從 PDF 文件中的表格中提取文本:
PDF 中的表格
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
輸出如下:
輸出
本文演示如何使用 IronPDF 在 Java 中解析現有的 PDF 文檔或從 URL 建立一個新的 PDF 解析文件以從中提取數據。打開文件後,它可以從 PDF 中提取表格數據、圖像和文本,還可以將提取的文本添加到文本文件中以供後續使用。
有關如何在 Java 中以程式方式處理 PDF 文件的更多詳細信息,請訪問此 創建 PDF 文件的範例IronPDF for Java 函式庫在開發用途上是免費的 免費試用然而,對於商業用途,它可以是 授權,起始於 $749。