如何從 Python 中的 PDF 提取特定文本
本文將演示如何使用IronPDF for Python程式庫從PDF文件中提取文本元素。
IronPDF
Python是一種編程語言,使開發人員可以簡單快捷地創建圖形用戶界面。 與其他語言相比,Python對於程序員來說更加動態。 因此,將IronPDF程式庫添加到Python中是一個簡單的過程。 可以使用大量預先安裝的工具,包括PyQt、wxWidgets、Kivy,以及許多其他套件和Python程式庫,來快速且安全地構建一個完整的GUI。 IronPDF結合了Python,還可讓其它框架的功能進行整合,例如.NET Core。
IronPDF使Web開發變得更加簡易。 這主要歸功於Python Web開發範式的廣泛採用,如Django、Flask和Pyramid。 Reddit、Mozilla和Spotify等網站和線上服務就使用了這些框架。
IronPDF特性
- 使用IronPDF,可以從各種來源創建PDF文件,包括HTML、HTML5、ASPX和Razor/MVC View。 它提供了將HTML頁面轉換和將圖像轉換為PDF文件的功能。
- 創建交互式PDF、完成並提交交互式表單、拆分和合併PDF文件、提取文本和圖像、在PDF文件中搜索文本、將PDF光柵化為圖像、更改字體大小、使用ChatGPT進行自然語言處理以及將PDF頁面屬性轉換只是IronPDF工具包可以協助的部分活動。
- IronPDF提供HTML登錄表單驗證,支援用戶代理、代理伺服器、Cookie、HTTP標頭和表單變數。
- IronPDF通過使用用戶名和密碼來提供對受保護文件的訪問。
- 使用幾行代碼,IronPDF即可從各種來源打印PDF文件,包括字符串、流或URL。
設置Python
環境配置
確保您的計算機上已安裝Python。 要下載並安裝兼容您的操作系統的最新Python版本,請訪問官方Python網站。 安裝Python後,創建一個虛擬環境以隔離您專案的需求。 使用venv模組創建和管理虛擬環境,為您的轉換專案提供一個整潔、單獨的工作環境。
在PyCharm中的新項目
建議使用PyCharm作為開發Python代碼的IDE。
啟動PyCharm IDE後,選擇"New Project"。
PyCharm
選擇"New Project"時,將打開一個新窗口,允許您設置專案的位置和環境。 這可以看到下圖所示。
新專案
選擇好專案位置和環境路徑後,點擊創建按鈕開始一個新專案。 然後,將在新窗口中創建該程序。 在本教程中,使用的是Python 3.9。
創建Python專案
IronPDF程式庫需求
Python程式庫IronPDF主要使用.NET 6.0。因此,要在您的計算機上使用IronPDF for Python,必須安裝.NET 6.0運行時。 Linux和Mac用戶可能需要安裝.NET才能使用此Python模塊。 訪問Microsoft的下載頁面來獲取所需的運行時環境。
安裝IronPDF程式庫
要生成、修改和打開具有".pdf"擴展名的文件,必須安裝"ironpdf"套件。 開啟終端窗口,輸入以下命令以安裝該包於PyCharm中:
pip install ironpdfpip install ironpdf下圖顯示了ironpdf套件的安裝情況。
安裝IronPDF
從PDF文件提取特定數據
利用IronPDF程式庫可以從PDF文件中提取文本。 IronPDF提供了多種文本提取方法。 第一種方法涉及將整個頁面的內容作為單個字串進行檢索。 第二種策略是從第1頁開始逐頁瀏覽內容。 可以使用IronPDF程式庫來研究現有的PDF文件。 以下代碼片段顯示了如何使用IronPDF來檢查實時PDF文件。
有兩個選項可以從PDF中提取信息:
- 從PDF逐頁提取
- 將整個PDF轉換為文本
本文的示例PDF文件在下方提供。
輸入PDF
從PDF逐頁提取
下方提供的示例代碼顯示了如何使用頁碼從PDF文件中獲取數據。
from ironpdf import PdfDocument
# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from the first page of the PDF document
all_text = pdf.ExtractTextFromPage(0)
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
# Check if the line contains the keyword "Name"
if 'Name' in line:
# Print the line if it contains the keyword
print(line)from ironpdf import PdfDocument
# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from the first page of the PDF document
all_text = pdf.ExtractTextFromPage(0)
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
# Check if the line contains the keyword "Name"
if 'Name' in line:
# Print the line if it contains the keyword
print(line)代碼片段顯示了如何使用FromFile函數讀取PDF文件並構建PDF對象。 此對象可用於訪問PDF中的文本和圖像。 通過將頁碼作為參數傳遞給ExtractTextFromPage函數,可以從特定頁面檢索文本。 此方法將返回一個包含所選頁面所有字詞的字符串。 然後,使用Python中的split函數將提取的文本中的所有新行分割。 之後,檢查提取的文本中每行是否包含所需的關鍵字。 如果關鍵字匹配,它將在命令提示字符中顯示特定行。 否則,它將忽略該行並繼續下一行。文本提取的輸出將如下圖所示。
將整個PDF轉換為文本
以下代碼示例演示了第一種快速簡單地將所有PDF內容作為字符串的方法。
from ironpdf import PdfDocument
# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract all text from the PDF document
all_text = pdf.ExtractAllText()
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
# Check if the line contains the keyword "Name"
if 'Name' in line:
# Print the line if it contains the keyword
print(line)from ironpdf import PdfDocument
# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract all text from the PDF document
all_text = pdf.ExtractAllText()
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
# Check if the line contains the keyword "Name"
if 'Name' in line:
# Print the line if it contains the keyword
print(line)上面的示例代碼演示了如何使用FromFile函數從現有文件路徑讀取PDF並將其轉換為PDF文件對象。 因此,我們可以使用這個PDF讀取器對象查看PDF中的文字和圖像。 對象的ExtractAllText函數將被用於將PDF中的數據提取為純文本,將其轉換為字符串,並使用類似上述的邏輯來查找特定關鍵字以在終端顯示結果。 結果顯示如下。
輸出
上面的代碼/輸出顯示提供的PDF文件包含姓名和年齡,但結果僅顯示在PDF文件中可用的姓名。
結論
IronPDF程式庫提供了強大的安全機制以降低威脅並保證數據安全。 它不受限於任何一種瀏覽器,與所有廣泛使用的瀏覽器兼容。 只需幾行代碼,程序員即可使用IronPDF快速生成和讀取PDF文件。 IronPDF程式庫提供了多種授權選擇,包括免費的開發者授權和可供購買的額外開發授權,以滿足開發人員的多樣需求。
包括在Lite套裝中的有:永久授權、30天退款保證、一年的軟體維護和升級選項。 這些授權可以在所有環境中使用。 此外,IronPDF提供了一些再分發限制的免費授權。 試用授權允許用戶評估產品並且無水印。
如需更多關於商業授權信息,請查看可用的IronPDF授權。
常見問題解答
如何使用 Python 從 PDF 中提取特定文本?
您可以使用 IronPDF 的 Python 庫從 PDF 中提取文本。它提供了功能,可以使用 ExtractTextFromPage 按頁提取文本,或使用 ExtractAllText 從整個文檔中提取文本。
在 Python 項目中設置 IronPDF 的步驟是什麼?
首先,如果尚未安裝,請安裝 .NET 6.0 運行時。然後,在您的開發環境中設置 Python,例如 PyCharm。使用 pip install ironpdf 安裝 IronPDF,以開始將 PDF 功能集成到您的項目中。
IronPDF 與 Django 和 Flask 等框架兼容嗎?
是的,IronPDF 與 Django 和 Flask 等 Python 網路開發框架集成良好,提供了處理 Web 應用程序中的 PDF 的多功能選擇。
有哪些使用 IronPDF 與 Python 的許可選項?
IronPDF 提供多種許可選項,包括個人使用的免費開發者許可和提供附加功能和利益的各種商業許可。
如何安裝 IronPDF for Python?
使用 pip 包管理器安裝 IronPDF,方法是在終端或命令提示符中運行命令 pip install ironpdf。
推薦的開發環境是什麼,適用於使用 IronPDF 與 Python?
PyCharm 是開發 Python 應用程序使用 IronPDF 的推薦集成開發環境(IDE),因為它具有全面的功能和對 Python 的支持。
IronPDF 的 Python 庫有哪些關鍵功能?
IronPDF for Python 提供創建 PDF、從 HTML 轉換圖像為 PDF、表單處理、文本和圖像提取以及 PDF 合併等功能。
IronPDF 庫在處理 PDF 文件時的安全性如何?
IronPDF 設計具有強大的安全功能,確保 PDF 文件的安全處理。它支持加密和密碼保護以保護敏感信息。










