使用IRONPDF FOR PYTHON

如何在 Python 中解析 PDF 文件

發佈 2023年9月13日
分享:

1.0 介紹

便攜式文檔格式 (PDF)由Adobe 開發的PDF格式在文件共享時對於保持豐富文字和美觀信息的完整性至關重要。通常需要一個特定的程序來訪問在線PDF文件。如今,PDF文件對於許多重要的數字出版物是必需的。許多公司使用PDF文件來準備專業文檔和發票。此外,開發人員通常會利用PDF文件生成庫來滿足特定客戶需求。

現代庫的開發簡化了創建PDF的過程。選擇適當的庫進行PDF創建項目時,至關重要的是要考慮構建、閱讀和轉換功能,以實現平滑的集成和最佳性能。通過使用Python,我們可以解析現有的PDF。

2.0 IronPDF

Python 是一種程式語言,使開發者能夠快速且輕鬆地構建圖形用戶界面。與其他語言相比,它為程式員提供了更大的動態性。因此,將 IronPDF 庫與 Python 集成是一個簡單的過程。

為了快速且安全地構建一個功能齊全的圖形使用者介面,開發者可以利用幾個預先安裝的工具,包括 PyQt, wxWidgets, Kivy 和許多其他套件和庫。值得注意的是,IronPDF 不是純 Python 的 PDF 庫;相反,它允許包含來自其他框架(如 Dot Net Core)的各種功能。

IronPDF 簡化了 Python 網頁設計和開發,特別是由於 Python 網頁開發範式如 Django, Flask 和 Pyramid 的流行。包括 Reddit, Mozilla 和 Spotify 等著名網站和在線服務都已經使用了這些框架。您可以在 IronPDF 上了解更多關於 Python 的信息。 IronPDF Python 網站.

2.1 IronPDF 的功能

  • IronPDF 能夠從各種來源生成 PDF 文件,包括 HTML、HTML5、ASPX 和 Razor/MVC 視圖。它提供從 HTML 網頁和圖片創建 PDF 的功能。
  • IronPDF 工具包提供了一系列工具,用於創建互動式 PDF、填寫和提交互動表單、合併和拆分 PDF 文件、提取文字和圖片、在 PDF 文件中搜索文字、將 PDF 光柵化為圖片、調整字體大小以及轉換 PDF 文件等任務。
  • 支援使用者代理、代理伺服器、Cookies、HTTP 標頭和形狀變量,IronPDF 允許 HTML 登錄表單驗證。
  • 通過使用者名和密碼授權,IronPDF 允許訪問受保護的文件。

  • IronPDF 幫助我們僅需幾行代碼即可從字符串、流、URL 等各種來源生成 PDF 文件並列印。

3.0 設置 Python

3.1 環境設定

確保您的電腦上已安裝 Python。請訪問 官方 Python 網站 下載並安裝適合您的操作系統的最新版本的Python。一旦安裝完成後,設置一個虛擬環境來隔離您的項目依賴關係。使用 "venv" 模塊來創建和管理虛擬環境,為您的轉換項目提供一個乾淨且獨立的工作空間。

3.2 在 Pycharm 中新建項目

我們將使用 PyCharm,一個用來編寫 Python 代碼的 IDE,來進行此演示。

啟動 PyCharm IDE 後,點擊 “New Project”。

如何在 Python 中解析 PDF 文件:圖 1 - PyCharm 歡迎畫面。

當您選擇「新專案」時,將會出現一個新視窗,允許您指定專案的位置及其環境。此新視窗可以在下方的截圖中看到。

如何在 Python 中解析 PDF 檔案:圖2 - PyCharm 中的新專案畫面。

點擊「Create」按鈕來開始一個新專案,設置專案位置和環境路徑後。這將開啟一個新的窗口,供程式開發。我們在本教程中使用的是 Python 3.9。

如何在 Python 中解析 PDF 文件:圖 3 - 在 PyCharm 中打開的一個主文件。

3.3 IronPDF 庫需求

IronPDF 是一個 Python 庫,主要依賴於 .NET 6.0。因此,要使用 IronPDF Python,您的電腦必須安裝 .NET 6.0 運行時。在 Linux 和 Mac 用戶使用此 Python 模組之前,可能需要安裝 .NET。您可以從以下地址獲取所需的運行環境 .NET網站.

3.4 IronPDF 庫設置

需要安裝 "ironpdf" 軟體包以便創建、編輯和打開「.pdf」副檔名的檔案。要在 PyCharm 中安裝該軟體包,請打開終端窗口並輸入以下指令:

pip install ironpdf

下方截圖顯示了 'ironpdf' 套件的設置。

如何在 Python 中解析 PDF 文件:圖 4 - 終端顯示使用 pip 安裝 IronPDF。

4.0 使用 IronPDF 解析 PDF

在 IronPDF 庫的幫助下,我們還可以從 PDF 文件中提取文本。IronPDF 提供了各種文本提取技術。第一種方法涉及將頁面上的所有內容作為一個字符串檢索。第二種方法涉及從第一頁開始逐頁閱讀內容。使用 IronPDF 庫,我們可以探索現有的 PDF 文件。以下代碼片段演示了使用 IronPDF 檢查當前 PDF 文件的模式。

我們有兩種方法可以從 PDF 中提取數據:

  1. 按頁面從 PDF 中提取。
  2. 將整個 PDF 提取為文本。

以下是我們將在本文中使用的 PDF 文件。它有兩頁。

如何在 Python 中解析 PDF 文件:圖 5 - 每頁頂部有頁碼的 PDF。

4.0.1 按頁面提取文字

以下範例程式碼顯示如何使用頁碼從 PDF 檔案中檢索資料。

from ironpdf import *
pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)
PYTHON

這段代碼展示了如何使用 FromFile 函數讀取 PDF 文件並創建 PDF 文件對象。這個對象使我們能夠訪問 PDF 中的文本和圖像。要從特定頁面提取文本,我們可以使用 ExtractTextFromPage 方法,並提供頁面號作為參數。這個方法將返回包含指定頁面上所有單詞的字符串。輸出將如下所示。

如何在 Python 中解析 PDF 檔案:圖 6 - 終端機截圖,文字輸出 Page 1。

結果中突出顯示的矩形框是從 PDF 文件第 1 頁中提取的數據文字,索引為 0。

4.0.2 從所有頁面提取

要快速輕鬆地將所有 PDF 內容作為字符串獲取的第一種方法如下代碼示例所示。

# creating a pdf file object pdfFileObj 
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

上面的示例代碼說明了如何從現有的文件路徑讀取 PDF 並使用 FromFile 函數將其轉換為 PDF 文件對象。我們可以使用這個 PDF 讀取器對象作為響應來查看 PDF 的文本和圖像。該對象的 ExtractAllText 函數將提取 PDF 的純文本並將其轉換為字符串,然後在終端上打印提取的文本。結果將如下所示。

如何解析 Python 中的 PDF 文件:圖 7 - 一個終端顯示帶有文本輸出 Page 1 和 Page 2 的截圖。

矩形框中突出顯示的部分包含從 PDF 文件所有頁面提取的數據文本。

我們可以藉助 IronPDF 使用 C# 創建 PDF。要了解更多關於 IronPDF 的信息,請訪問 IronPDF 網站.

5.0 結論

為了將風險降至最低並確保資料保護,IronPDF 函式庫提供了強大的安全措施。它兼容所有常用的瀏覽器,不受任何限制。IronPDF 使程式設計師只需幾行程式碼即可輕鬆地創建和讀取 PDF 檔案。為了滿足開發者的各種需求,IronPDF 函式庫提供了多種授權選項,包括免費的開發者授權以及可供購買的其他開發授權。

$749 Lite 套餐提供永久授權、30 天退款保證、一年的軟件支援和升級可能性。首次購買後,沒有額外的費用。這些授權可用於生產、測試和開發環境。IronPDF 也提供了一些時限和重發限制的免費授權。在免費試用期內,使用者可以在實際使用中測試產品而不會有浮水印。關於 IronPDF 試用版本的成本和授權的更多詳情,請訪問 IronPDF 網站.

< 上一頁
如何在 Python 中拆分 PDF 文件
下一個 >
如何在 Python 中從 PDF 中提取發票數據

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 pip 安裝 查看許可證 >