在生產環境中測試,無水印。
在任何需要的地方都能運行。
獲得 30 天的全功能產品。
在幾分鐘內上手運行。
試用產品期間完全訪問我們的支援工程團隊
本指南將展示如何在Python中使用IronPDF從PDF文件中按順序提取文本的細微差別。 它將涵蓋從設置您的 Python 環境到執行您的第一個 Python 程式以進行 PDF 文本擷取的所有內容。
使用 Python 下載並安裝 PDF 函式庫,以從 PDF 文件行中提取文本。
在您偏好的 IDE 中創建一個 Python 專案。
載入所需的 PDF 文件以提取文字內容。
使用內建庫的功能逐步循環遍歷 PDF 並提取文本。
IronPDF 是一個方便的工具,可讓您在 Python 中處理 PDF 文件。 把它想像成一個能讓閱讀、創建和編輯 PDF 文件變得容易的助手。 無論您是想從 PDF 文件中提取內容,加入新的資訊,或將網頁轉換為 PDF 格式,IronPDF 提供全面的解決方案。 這是一個付費的軟體包,但他們提供試用版本讓您在購買前進行探索。
在深入腳本之前,設置您的 Python 環境是至關重要的。 本逐步指南將幫助您配置環境,在 Visual Studio Code 中創建新的 Python 專案,並設定 IronPDF 程式庫的環境配置。
下載並安裝 Python:如果您尚未安裝 Python,請從Python 官方網站下載最新版本。 按照適用於您特定操作系統的安裝說明進行操作。
檢查 Python 安裝:打開終端或命令提示符並輸入 python --version。 此命令應顯示已安裝的 Python 版本,以確認安裝成功。
更新 pip:Pip 是 Python 的軟體包安裝工具。 通過運行 pip install --upgrade pip 確保其為最新版本。
下載 Visual Studio Code:如果您沒有它,可以從官方網站下載。
安裝 Python 擴充功能:打開 Visual Studio Code,然後前往擴充功能市集。 搜尋 Microsoft 的 Python 擴展並安裝它。
建立新資料夾:建立一個新資料夾來存放您的 Python 專案。 將其命名為類似PDF_Text_Extractor。
在 VS Code 中開啟資料夾:將資料夾拖到 Visual Studio Code 中,或者使用檔案 > 開啟資料夾選項來開啟資料夾。
建立 Python 檔案:在 VS Code Explorer 面板中右鍵點擊並選擇新增檔案。 將檔案命名為main.py或類似名稱。 這個文件將保存您的 Python 程式。
在 Visual Studio Code 中新增 Python 文件
IronPDF 對於從 PDF 檔案中提取文本內容至關重要。 以下是安裝方法:
在 VS Code 中開啟終端機:您可以透過進入終端機 > 新建終端機在 VS Code 中開啟終端機。
安裝 IronPDF:在終端機中執行以下命令以安裝最新版的 IronPDF:
pip install ironpdf
此過程會檢索並安裝 IronPDF 庫以及任何所需的模組。
安裝 IronPDF 套件
就是這樣! 您現已成功設置 Python 環境,在 Visual Studio Code 中創建新項目,並安裝 IronPDF 庫。
在繼續之前,請確保您已應用您的 IronPDF 授權金鑰。
from ironpdf import PdfDocument
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
py
將 YOUR-LICENSE-KEY-HERE
替換為您實際的 IronPDF 授權金鑰。 此授權可讓您為您的專案解鎖所有庫功能。
您需要將現有的 PDF 檔案載入到您的 Python 程式中。 您可以使用 IronPDF 的 PdfDocument.FromFile
方法來實現這一點。
pdfFileObj = PdfDocument.FromFile("content.pdf")
py
「content.pdf」指的是您希望閱讀的 PDF 檔案。 此已載入的 PDF 文件被存儲在pdfFileObj
變量中,用作 PDF 閱讀器或 PDF 文件對象pdfFileObj
。
如果您想一次擷取 PDF 檔案中的所有文本數據,可以使用ExtractAllText
方法。
all_text = pdfFileObj.ExtractAllText()
py
ExtractAllText
方法在此用於演示目的。 此方法將從 PDF 文件中提取所有文本,並將其存儲在名為 all_text
的變數中。
IronPDF 透過 ExtractTextFromPage
方法啟用從特定頁面提取文本。 此方法在您只需要某些頁面的文本時非常有用。
page_2_text = pdfFileObj.ExtractTextFromPage(1)
py
在這裡,我們正在從第二頁提取文字,對應於索引1。
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
py
打開一個名為「extracted_text.txt」的檔案,儲存文本數據。 Python 的內建 open
函數用於此目的,將檔案模式設定為「寫入」(「w」)。 只需將encoding='utf-8'
作為引數添加到open
函數中。 此功能應允許文本文檔處理您遇到的 Unicode 字符。
for i in range(0, pdfFileObj.get_Pages().Count):
py
上述代碼使用 IronPDF 的 get_Pages().Count
遍歷 PDF 文件中的每一頁,以獲取頁面總數。
page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
py
對於每頁,使用 ExtractTextFromPage
方法來獲取所有文本,然後使用 Python 的 split
方法將其分成多行。 這將產生一個可循環的行列表。
for eachline in lines:
print(eachline)
text_file.write(eachline + '\n')
py
這裡,程式碼會遍歷行列表中的每一行,將其列印到控制台,並將其寫入檔案,在每行之後添加換行符號(\n)以正確格式化此文字。
以下是綜合實施:
from ironpdf import PdfDocument
# Apply your license key
License.LicenseKey = "Your-License-Key-Here"
# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")
# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()
# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
# Print number of pages in PDF file print count of pages present in PDF file
num_of_pages = pdfFileObj.get_Pages().Count
print("Number of pages in given document are ", num_of_pages)
# Loop through each page using the Count property
for i in range(0, num_of_pages):
# Extract text from the current page
page_text = pdfFileObj.ExtractTextFromPage(i)
# Split the text by lines from this page object
lines = page_text.split('\n')
# Loop through the lines and print/write them
for eachline in lines:
print(eachline) # Print each eachline to the console
# Write each line to the text documents
text_file.write(eachline + '\n')
py
在 Visual Studio Code 終端中輸入以下命令來運行 Python 文件:
python main.py
python main.py
此結果將顯示在終端機上:
提取的文本
這是從 PDF 文件中檢索到的文本。您還會注意到在您的目錄中創建了一個文本文件。
存儲在TXT文件中的提取文字
在此文本檔中,您將找到已檢索出的文本格式,按順序呈現。
提取的文本檔內容
總之,使用 IronPDF 和 Python 從 PDF 文件中提取文本是一種強大而簡單的方法,無論是從整個文檔、特定頁面,甚至是逐行提取文本。將這些提取的文本保存到文本文件中的附加好處使您能夠有效管理和利用這些數據以供未來處理。 IronPDF 被證明是在處理 PDF 時不可或缺的工具,提供的不只是文字提取的多種功能。 您也可以使用 IronPDF 將 PDF 轉換為 Python 中的文本。
此外,創建交互式PDF、完成並提交交互式表單、合併和分割PDF文件、提取文本和圖像、在PDF文件中搜尋文本、光柵化PDF為圖像、更改字體大小、邊框和背景顏色,以及轉換PDF文件,這些都是IronPDF工具包可以幫助完成的任務。
IronPDF不是開源的Python庫。 如果您考慮將 IronPDF 用於您的專案,此套件的授權起價為 $749。 不過,如果您需要釐清投資內容,IronPDF 提供免費試用以徹底探索其功能。