使用IRONPDF FOR PYTHON

如何在 Python 中將 PDF 轉換為文本(教程)

發佈 2023年6月30日
分享:

1.0 什麼是 PDF?

當談到文件共享時,由 Adobe 創建的可移植文檔格式 (PDF) 對於保存內容豐富且美觀的文字內容至關重要。在大多數情況下,需要特定的程式才能訪問線上PDF檔案。如今,許多重要的數位出版物都需要PDF檔案。許多企業利用PDF檔案來建立專業檔案和發票。IronPDF for Python 是最強大的PDF庫之一,可以提取PDF文件中的任何文字。

2.0 如何使用 Python 從 PDF 提取文本?

  1. 安裝最新版本的 Python 這裡

  2. 開啟任何 Python 的 IDE 工具

  3. 安裝 .NET Core 運行時

  4. 安裝 IronPDF Python 庫或從 這裡

  5. 從 PDF 中提取文本

2.1 IronPDF for Python 是什麼?

在 Python 中整合 IronPDF 庫非常簡單,因為相比於其他語言,Python 更加動態,並且能讓開發者快速且輕鬆地創建圖形用戶接口。它擁有大量預安裝的工具,包括 PyQT、wxWidgets、kivy,以及眾多其他套件和庫,所有這些都可以用來快速且安全地創建一個完整的 GUI。

IronPDF for Python 是一個非常高效的庫,特別適用於 web 開發。眾多 Python web 開發範式的可用性,使其部分歸功於這一點,如 Django、Flask 和 Piramyd。這些框架已被無數網站和在線服務使用,包括 Reddit、Mozilla 和 Spotify。

2.2 IronPDF 的功能

  • 可以從各種來源創建 PDF 文件,包括 HTML、HTML5、ASP 和 PHP 網站。除了 HTML 文件,我們還可以將圖片文件轉換為 PDF。
  • IronPDF 允許您構建互動式 PDF 文件、填寫和發送互動表單、拆分和合併 PDF 文件、從 PDF 文件中提取文字和圖片、搜索 PDF 文件中的特定單詞、將 PDF 頁面光柵化為圖片、將 PDF 轉換為 HTML 以及列印 PDF 文件。
  • IronPDF 可以打開 PDF 文件,並從 URL 列印。此外,它還支持通過 HTML 登錄表單、代理、Cookie、HTTP 標頭、自定義網絡登錄憑證、表單變量和用戶代理進行用戶代理登錄。
  • 可以使用 IronPDF 從文檔中提取圖片。
  • 使用 IronPDF,我們可以在文檔中添加頁眉、頁腳、文字、圖片、書籤、水印等。
  • 我們可以使用新的或現有的文檔來合併和分離頁面。
  • 無需使用 Acrobat 檢視器即可將文檔轉換為 PDF 物件。
  • 可以使用 CSS 文件來製作 PDF 文檔。
  • 可以使用媒體類型 CSS 文件創建文檔。

2.3 匯入 IronPDF 庫

在將使用 IronPDF 的原始檔案開頭,包含以下匯入語句以匯入 IronPDF:

from ironpdf import *
PYTHON

2.4 設置授權密鑰 (如果需要)

雖然 IronPDF for Python 可以免費使用,但它會在免費使用者的 PDF 文件中加上帶有平鋪背景的浮水印。您必須提供合法的授權金鑰給程式庫,才能使用 IronPDF 來生成無浮水印的 PDF 文件。以下程式碼片段展示了如何使用授權金鑰設定此程式庫:

License.LicenseKey = "IRONPDF-LICENCE-KEY-ABCDEFGH"
PYTHON

在創建 PDF 檔案或修改其內容之前,請確保已設定授權金鑰。應在任何其他程式碼行之前呼叫 LicenseKey 方法。若需要免費試用授權金鑰,請聯繫我們或從我們的授權頁面購買授權金鑰。

2.5 設定日誌檔案

一個名為 "Default" 的文本文件可以存儲由 Python 腳本目錄內的 Custom.log 產生的日誌消息。以下代碼片段可以用來設定 LogFilePath 屬性,並自定義日誌文件的名稱和位置:

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 使用 IronPDF 提取 PDF 文本

IronPDF Python 庫可以將 PDF 頁面轉換為 PDF 對象,並啟用從 PDF 文件中提取文本,包括掃描的 PDF 文件。下面是一個示例,展示如何使用 IronPDF 讀取現有的 PDF。

第一種方法是提取 PDF 中的所有可用文本;以下是一段示例代碼。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

如上所示,Fromfile 方法是一個 PDF 閱讀器對象,可以幫助我們加載現有的 PDF 檔案並將其轉換為 PDF 文檔對象。 使用此對象,我們可以讀取 PDF 頁面上的文字和圖片。 該對象提供了一個名為 ExtractAllText 的方法,可以從整個 PDF 檔案中提取所有文字,並將文字保存為可以處理的字串。 然後我們使用 print 函數來顯示這些文字。

如何在 Python 中將 PDF 轉換為文字(教程):圖 1 - 顯示文字

以下是我們可以使用第二種方法逐頁從 PDF 文件中提取文字的代碼示例。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
PYTHON

Fromfile 方法用於從現有文件中加載 PDF 文件並將其轉換為 PDF 文件對象,如上面的代碼所示。在 PDF 頁面對象上的一個方法稱為 ExtractTextFromPage,它從 PDF 文件的頁面中檢索所有文本。必須提供頁碼作為參數,才能從特定頁面中提取文本。然後,在提取文本後,我們將其轉移到變量中,以將其保存為可以處理的字符串。 更多範例 從 PDF 中提取文字。

4.0 結論

相比之下,IronPDF 庫提供了強大的安全措施以減少潛在風險。它並非針對任何特定瀏覽器設計的,而是兼容所有常用的瀏覽器。IronPDF 允許程式設計師僅用幾行程式碼就能輕鬆生成和讀取 PDF 檔案。IronPDF 庫提供一系列許可選項,包括免費的開發者許可證和可購買的額外開發許可證,以滿足不同開發者的需求。

IronPDF 包括永久許可證、30 天內退款保證、一年的軟體支援和升級選項。初次購買後,不會有額外費用。這些許可證可用於開發、預備和生產環境。了解更多關於 產品授權下載 該軟體產品。

< 上一頁
如何在 Python 中查看 PDF 文件

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 pip 安裝 查看許可證 >