如何在 Python 中將 PDF 轉換為文本(教程)
本文將演示如何使用IronPDF for Python,這是最強大的PDF程式庫之一,從PDF文件中提取任何可用的文本。
- 安裝一個Python程式庫以將PDF轉換為文本
- 載入現有的PDF文件或渲染新的文件
- 利用`ExtractAllText`方法從打開的文件中讀取文本
- 使用該方法的另一個多載來從特定頁面讀取文本。
- 將提取的文本輸出到控制台或保存到文本文件中
2.0 如何使用Python從PDF中提取文本?
- 從Python下載頁面安裝最新版本的Python
- 打開任何Python的IDE工具
- 安裝.NET Core運行時
- 安裝IronPDF for Python程式庫或從PyPI下載頁面下載
- 從PDF中提取文本
2.1 什麼是IronPDF for Python?
很容易將IronPDF程式庫整合到Python中,因為相較於其他語言,它是一個更具動態性的語言,使得開發人員可以快速輕鬆地創建圖形用戶介面。 它擁有大量預裝的工具,包括PyQT、wxWidgets、kivy和許多額外的套件和程式庫,所有這些都可用於快速且安全地創建一個完整的GUI。
IronPDF for Python是一個非常高效的程式庫,特別適用於Web開發。 這部分歸因於Python網頁開發範式,如Django、Flask和Pyramid的多樣可用性。 這些框架已被多個網站和在線服務使用,包括Reddit、Mozilla和Spotify。
2.2 IronPDF的特點
- 可以從多種類型的來源創建PDF文件,包括HTML、HTML5、ASP和PHP網站。 除了HTML文件外,也可以將影像文件轉換為PDF。
- IronPDF允許您構建交互式PDF文件,填寫和送出互動表單,拆分和合併PDF文件,從PDF文件中提取文本和圖片,搜索PDF文件中的特定單詞,將PDF頁面光柵化為影像,將PDF轉換為HTML,並列印PDF文件。
- IronPDF可以打開PDF文件並從URL列印。 此外,它使用戶代理能夠在HTML登入表單、代理、Cookie、HTTP標頭、自定義網絡登入憑證、表單變數和用戶代理後登入。
- 可以使用IronPDF從文檔中提取影像。
- 使用IronPDF,您可以非常輕鬆地添加標頭和頁腳、文本和影像、書籤和水印,以及更多內容到文檔中。
- 可以使用IronPDF將頁面組合和分離,無論是新的還是現有的文檔。
- 不使用Acrobat查看器即可將文檔轉換為PDF對象。
- 可以使用CSS文件製作PDF文檔。
- 使用媒體類型CSS文件創建文檔是可能的。
2.3 匯入IronPDF程式庫
在使用IronPDF的源文件開始處添加以下匯入語句,以便匯入IronPDF:
from ironpdf import *from ironpdf import *2.4 設置授權金鑰(如果需要)
儘管IronPDF for Python是免費使用,但它會將PDF文件加上帶有平鋪背景的水印以作為免費用戶的標誌。 您必須給程式庫一個合法的授權金鑰才能使用IronPDF創建無水印的PDF。 如何設定帶有授權金鑰的程式庫在下面的代碼片段中顯示:
# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"在創建PDF文件或對其內容進行更改之前,請確保設置好授權金鑰。 LicenseKey方法應該在其他代碼行之前調用。 要獲取免費試用授權金鑰,請訪問授權頁面。
2.5 設置日誌文件
名為"Default"的文本文件可以將Custom.log在Python腳本目錄中產生的日誌信息儲存。 可以使用下面的代碼片段來設置LogFilePath屬性並自定義日誌文件名稱和位置:
# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All3.0 使用IronPDF提取PDF文本
IronPDF for Python程式庫可以將PDF頁面轉換為PDF對象,並允許從PDF文件中提取文本,包括掃描的PDF文件。 這裡有一個範例,顯示如何使用IronPDF讀取現有的PDF。
第一個方法涉及提取PDF中所有可用的文本; 下面提供了一段代碼樣本。
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()
# Display the extracted text
print(all_text)from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()
# Display the extracted text
print(all_text)如上面的代碼所示,FromFile方法是一個PDF閱讀器對象,它加載現有的PDF文件並將其轉換為PDF-文件對象。 此對象可用於讀取PDF頁面上可用的文本和圖片。 該對象提供了一個名為ExtractAllText的方法,可以從整個PDF文件中提取所有的文本,並將其保存在一個可處理的字符串中。 然後使用print函數顯示文本。
顯示文本
提供了可以逐頁提取文本的第二種方法的代碼範例,它在下面提供。
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)
# Display the extracted text from the specified page
print(page_text)from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)
# Display the extracted text from the specified page
print(page_text)FromFile方法用於加載現有文件中的PDF文件並將其轉換為PDF文件對象,如上面的代碼所示。 PDF頁面對象上的一個名為ExtractTextFromPage的方法從PDF檔案中的一頁中提取所有文本。要從那個特定頁面提取文本,必須將頁碼作為參數提供。 然後,在提取文本後,可以使用page_text來保存可處理的信息。
查看更多範例來從PDF中提取文本。
4.0 結論
IronPDF程式庫相反,提供強大的安全措施以減少潛在風險。 它並非針對某個特定瀏覽器,而是適用於所有常用的瀏覽器。 IronPDF允許程式設計師僅需幾行代碼即可輕鬆生成和讀取PDF文件。 IronPDF程式庫提供了一系列授權選項,包括一個免費的開發者授權和可購買的額外開發授權,用於滿足不同開發者的需求。
IronPDF包含永久授權、30天退款保證、一年的軟體支援和升級選項。 初次購買後沒有額外費用。 這些授權可用於開發、測試和生產環境中。 了解更多關於產品授權的信息。
下載軟體產品。
常見問題解答
如何在Python中將PDF轉換為文本?
您可以使用IronPDF的PdfDocument.FromFile方法加載您的PDF,然後使用ExtractAllText或ExtractTextFromPage方法提取所需的文本。
使用Python的PDF庫需要哪些設置?
要使用IronPDF,您需要安裝Python和IDE,並安裝.NET Core運行時。IronPDF可以通過PyPI下載頁安裝。
我可以使用Python從PDF的特定頁面提取文本嗎?
可以,使用IronPDF,您可以使用ExtractTextFromPage方法,通過提供頁碼作為參數從指定頁面提取文本。
在Python中使用PDF庫有免費選項嗎?
IronPDF for Python提供了添加水印到PDF的免費版本。若要刪除水印並解鎖完整功能,需要許可密鑰。
如何將PDF庫與Django或Flask等Web框架集成?
IronPDF可以無縫集成到Django和Flask等Web框架中,允許您在Web應用程序項目中生成和操作PDF。
Python PDF庫應具備哪些功能?
像IronPDF這樣全面的PDF庫應支持從HTML和圖像創建PDF,提取文本,填寫表單,合併PDF及添加書籤和水印。
如何在Python中設置PDF庫的許可證密鑰?
對於IronPDF,使用License.LicenseKey方法設置許可證密鑰,在執行任何其他代碼之前註冊您的許可證並移除水印。
Python PDF庫支持從網頁創建PDF嗎?
IronPDF可以從HTML、HTML5和由ASP或PHP構建的網頁創建PDF,使其成為Web基於PDF生成的多功能工具。
如何啟用Python PDF庫中的調試?
通過將Logger.EnableDebugging設置為true並使用Logger.LogFilePath定義日志文件路徑來啟用IronPDF中的調試。
Python PDF庫的安全功能有哪些?
IronPDF保證安全性和跨瀏覽器兼容性,為開發人員提供一種可靠的Python中安全PDF操作解決方案。










