在實際環境中測試
在生產環境中測試無浮水印。
在任何需要的地方都能運作。
本文將演示如何使用 IronPDF for Python 庫從 PDF 文件中提取文本元素。
Python 是一種程式語言,讓開發者可以簡單快速地建立圖形使用者介面。 與其他語言相比,Python 對程式設計師來說更加動態。 因此,將 IronPDF 函式庫添加到 Python 是一個簡單的過程。 包括 PyQt、wxWidgets、Kivy 以及許多其他套件和 Python 函式庫在內的大量預安裝工具,可以用於快速且安全地構建一個完整的圖形用戶界面。 IronPDF 內建 Python,並且允許整合其他框架的功能,如 .NET Core。
IronPDF 使網站開發更簡單。 這主要是因為廣泛採用如 Django、Flask 和 Pyramid 的 Python 網路開發範式。 Reddit、Mozilla 和 Spotify 只是使用這些框架的一小部分網站和線上服務。
確保您的電腦上已安裝 Python。 要下載並安裝與您的操作系統相容的最新版本的 Python,請前往官方 Python 網站. 在安裝 Python 後,建立虛擬環境以分離您專案的需求。 使用 venv
模組創建和管理虛擬環境,為您的轉換專案提供一個整潔、獨立的工作空間。
在此示範中,建議使用 PyCharm 作為開發 Python 程式碼的 IDE。
在啟動 PyCharm IDE 後,選擇「New Project」。
PyCharm
當您選擇「新專案」時,將會開啟一個新窗口,允許您設置專案的位置和環境。 這可能會在下面的圖像中看到。
新專案
選擇專案位置和環境路徑後,點擊 Create 按鈕以開始新專案。 然後,程序可以在一個新窗口中創建,該窗口將隨之打開。 本課使用 Python 3.9。
創建 Python 專案
Python 函式庫 IronPDF 大多使用 .NET 6.0。因此,為了使用 IronPDF for Python,必須在您的電腦上安裝 .NET 6.0 執行時。 Linux 和 Mac 使用者在使用此 Python 模組之前可能需要安裝 .NET。 訪問此頁面從 Microsoft 下載頁面以取得所需的執行環境。
要生成、修改和打開「.pdf」擴展名的文件,必須安裝「ironpdf」套件。 開啟終端窗口,輸入以下指令以在 PyCharm 中安裝套件:
:PackageInstall
ironpdf
軟體包的安裝顯示在下方的截圖中。
安裝 IronPDF
可以利用IronPDF庫從PDF文件中提取文本。 IronPDF 提供多種文字提取方法。 第一種方法是將整個頁面的內容作為單個字符串檢索。 第二種策略是逐頁檢查內容,從第一頁開始。 可以使用IronPDF庫來調查現有的PDF文件。 下面的程式碼片段顯示如何使用 IronPDF 檢查即時的 PDF 文件。
從 PDF 中提取信息有兩種選擇:
從 PDF 逐頁提取
將整個 PDF 轉換為文本
以下是本文的示例PDF文件。
輸入 PDF
以下示例代碼顯示如何使用頁碼從PDF文件中獲取數據。
from ironpdf import *
# PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
if('Name' in _data):
print(_data)
此程式碼片段展示瞭如何使用 FromFile
函數讀取PDF文件並建立PDF物件。 此物件可用於存取 PDF 的文字和圖像。 通過將頁碼作為參數傳遞給 ExtractTextFromPage
函數,可以從特定頁面檢索文本。 此方法將返回包含所選頁面上所有文字的字符串。 然後,使用 Python 中的 split
函數將提取出的文本按新行分割。 之後,檢查提取文本中的每一行是否包含所需的關鍵字。 如果關鍵字匹配,它會在命令提示符中顯示特定行。 否則,它將忽略該行並繼續到下一行。文字提取的輸出將如下所示。
以下程式碼範例展示了第一種方法,用以快速簡便地將所有 PDF 內容作為字串獲取。
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
if('Name' in _data):
print(_data)
上面的示例代碼演示瞭如何使用 FromFile
函數從現有的文件路徑讀取 PDF 並將其轉換為 PDF 文件對象。 因此,我們可以使用這個PDF閱讀器對象來查看PDF中的文字和圖像。 對象的 ExtractAllText
函數將用於從 PDF 提取數據為純文本,將其轉換為字串,並使用類似上面的邏輯來查找特定關鍵字,以在終端中顯示結果。 結果顯示如下。
輸出
上面的代碼/輸出顯示,給定的 PDF 文件包含姓名和年齡,但結果僅顯示 PDF 文件中可用的姓名。
IronPDF 庫提供強大的安全機制,以減少威脅並保證數據安全。 它不僅限於任何一個瀏覽器,且與所有廣泛使用的瀏覽器兼容。 只需幾行代碼,程序員就可以使用IronPDF快速生成和讀取PDF文件。 IronPDF 庫提供多種授權選項,包括免費的開發人員授權和可購買的額外開發授權,以滿足開發人員的多樣化需求。
永久許可證、30天退款保證、一年軟體維護和升級選項包含在內的輕量套件. 這些許可證可用於所有環境。 此外,IronPDF 提供免費授權,但附有一些重新分發的限制。 A試用授權允許用戶在沒有浮水印的情況下評估產品。
請查看可用的 IronPDF 授權如需更多有關商用授權的資訊。