PYTHON PDF 工具

如何在 Python 中讀取 PDF 文件

坎納帕特·烏頓潘

2023年7月3日

PDF，或可攜式文件格式文件，已成為分享文件的全球標準。它們廣泛用於其保持文件版面和格式的能力。然而，使用如 Python 這樣的程式語言處理 PDF 檔案可能會有些挑戰。本文介紹了IronPDF，一個Python的PDF庫，使我們能夠對PDF文件進行各種操作。

IronPDF Python PDF 工具庫

IronPDF 是一個先進的Python PDF 庫有助於處理 PDF 格式檔案。它提供了一個易於使用的API來進行各種PDF操作。您可以讀取和寫入 PDF 文件、將 PDF 文件轉換為不同格式、合併多個 PDF 文件，等等。它還可以處理頁面物件，從 PDF 文件的所有頁面提取文本，並旋轉 PDF 頁面等功能。

如何在 Python 中讀取 PDF 文件

使用 Pip 安裝 Python PDF 庫。
在 Python 腳本中匯入 Python PDF Library。
應用PDFReader Python庫的授權密鑰。
通過提供文檔的路徑加載任何 PDF 文檔。
在 Python 控制台上讀取 PDF 內容。

使用 IronPDF 讀取 PDF 文件

使用 IronPDF 閱讀 PDF 文件涉及多個步驟。以下是讓您入門的簡單指南：

第 1 步在 Visual Studio 中創建虛擬環境

在使用 Python 時，建立一個稱為虛擬環境的隔離環境是至關重要的。此環境允許您管理特定於您正在處理項目的依賴項，而不會干擾其他項目。在集成開發環境中創建虛擬環境變得更加簡單。(集成開發環境)像 Visual Studio Code。要執行此操作，請按照以下步驟進行：

在 Visual Studio Code 中打開資料夾。按 Ctrl+Shift+P 開啟命令面板。在命令面板中，搜尋「Python: Create Environment」。
選擇第一個選項，然後選擇「Venv」作為環境類型。
之後，選擇 Python 解譯器，系統將開始建立虛擬環境。
現在，您的隔離工作區已準備好用於 Python 腳本，確保專案的相依性被限制在此環境中。

步驟 2 安裝 IronPDF Python 函式庫

設定虛擬環境後，您就可以安裝IronPDF Python庫了。您可以使用 Python 軟體包管理工具 'pip' 來安裝它：

pip install ironpdf

步驟 3 安裝 .NET 6.0

IronPDF for Python 需要安裝 .NET 6.0 SDK。

請從 .NET 6.0 SDK 下載並安裝微軟 .NET 網站.

步驟 4 匯入 IronPDF

成功安裝 IronPDF 之後，下一步就是將其匯入您的 Python 腳本中。匯入該庫可使其所有功能和方法在您的腳本中可用。您可以使用以下代碼行導入IronPDF：

from ironpdf import *

from ironpdf import *

PYTHON

此行代碼將 IronPDF 庫中所有可用的模組、函數和類別導入到您的腳本中。

步驟 5 套用授權金鑰

要完全解鎖 IronPDF 函式庫的功能，您需要申請授權金鑰。將授權金鑰應用程式碼簡單地分配至License類的LicenseKey屬性即可。以下是操作方法：

License.LicenseKey = "License-Key-Here"

License.LicenseKey = "License-Key-Here"

PYTHON

將「License-Key-Here」替換為您的實際 IronPDF 授權金鑰。現在有了授權密鑰，您就可以在 Python 腳本中充分發揮 IronPDF 庫的潛力。

步驟 6 設定日誌路徑

接下來，為 IronPDF 操作設置日誌記錄。通過設置自定義日誌路徑，您可以存儲庫在運行時生成的日誌，以幫助您調試和診斷執行期間可能發生的問題。以下是設定的方法：

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All

PYTHON

在此程式碼片段中，Logger.EnableDebugging = True 開啟除錯模式，Logger.LogFilePath = "Custom.log" 將輸出日誌檔案設定為 "Custom.log"，並且 Logger.LoggingMode = Logger.LoggingModes.All 確保記錄所有類型的日誌資訊。

步驟 7 加載 PDF 文件

使用 IronPDF 載入 PDF 文件就像呼叫一個方法一樣簡單。 PdfDocument.FromFile 方法將 PDF 文件從給定的路徑加載到 PDF 文件對象中。您只需要提供 PDF 文件的路徑作為字串：

pdf = PdfDocument.FromFile("PDF B.pdf")

pdf = PdfDocument.FromFile("PDF B.pdf")

PYTHON

在此程式碼中，pdf 成為代表指定 PDF 檔案的 PdfDocument 物件。

步驟8 讀取 PDF 文件內容

IronPDF 提供一個名為 ExtractAllText 的方法()這有助於從PDF中提取文字內容文件。當您需要閱讀和分析 PDF 檔案的內容時，這尤其方便：

all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console

all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console

PYTHON

在此範例中，all_text 將會保存來自 pdf 對象的所有 PDF 文件文本。您將能夠在控制台上閱讀 PDF 內容。

如何在 Python 中讀取 PDF 文件：圖5

步驟9 載入第二個PDF檔案

就像您載入第一個 PDF 文件一樣，您也可以載入第二個 PDF 文件。當您想要操作多個 PDF 檔案時，這項功能很有幫助：

pdf_2 = PdfDocument.FromFile("PDF A.pdf")

pdf_2 = PdfDocument.FromFile("PDF A.pdf")

PYTHON

在此程式碼中，pdf_2 是另一個代表第二個 PDF 文件的 PdfDocument 物件。

第 10 步合併兩個文件

IronPDF 的強大功能之一是合併多個PDF文件合併為一個新的 PDF 檔。您可以使用 PdfDocument.Merge 方法輕鬆地合併兩個或多個 PDF 文件：

merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'

merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'

PYTHON

在此範例中，merged 是一個新的 PdfDocument 物件，這是合併 pdf 和 pdf_2 的結果。然後使用 SaveAs 方法將這個合併的文件保存為 "Merged.pdf"。

如何在 Python 中讀取 PDF 文件：圖 6

步驟 11 分割第一個 PDF

IronPDF 也允許您拆分 PDF 文件並將特定頁面提取到新的 PDF 文件中。這是使用 CopyPage 方法完成的：

page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'

page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'

PYTHON

在這裡，page1doc 是一個新的 PdfDocument 對象，包含 pdf 文件的第一頁。此頁面然後被儲存為名為「Split1.pdf」的輸出 PDF。

如何在 Python 中讀取 PDF 文件：圖7

步驟12 套用浮水印

水印是IronPDF提供的另一個令人印象深刻的功能。您可以使用所需的文字或圖像為您的 PDF 文件加上水印。 ApplyWatermark 方法用於向由 pdf 對象代表的 PDF 添加水印。

pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")

pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")

PYTHON

在這段程式碼中，ApplyWatermark 將帶有文本 "SAMPLE" 的紅色水印應用在 PDF 的中央位置。然後，SaveAs將有水印的文件保存為 "Watermarked.pdf"。

IronPDF 相容性

IronPDF 是一個兼容多個 Python 版本的多功能 Python 函式庫。它支援所有現代的 Python 版本，從 Python 3.6 開始。 IronPDF 不侷限於單一作業系統。它是平台無關的，因此可以在各種操作系統上使用。無論是 Windows、Mac 還是 Linux，IronPDF 都能順暢地在這些平台上運行。這種跨平台相容性是一大優勢，使得IronPDF成為開發人員無論其操作系統偏好如何的首選。

結論

總之，IronPDF 是一個優秀的 Python 庫，大大簡化了 PDF 文件的處理。無論您需要合併多個 PDF、提取文本、拆分 PDF 檔案或應用浮水印，IronPDF 都能滿足您的需求。它與多個平台的相容性以及易用性使其成為任何處理 PDF 文件的開發人員的重要工具。

IronPDF 提供一個免費試用. 這段試用期讓您有充足的機會試驗其功能，並評估它是否符合您的具體需求。經過測試後，您可以購買價格自 $749 起的授權。

坎納帕特·烏頓潘

立即與工程團隊聊天

軟體工程師

在成為軟體工程師之前，Kannapat 在日本北海道大學完成了環境資源博士學位。在攻讀學位期間，Kannapat 也成為了車輛機器人實驗室的成員，該實驗室隸屬於生物生產工程學系。2022 年，他利用自己的 C# 技能，加入了 Iron Software 的工程團隊，專注於 IronPDF 的開發。Kannapat 珍視這份工作，因為他可以直接向負責撰寫大部分 IronPDF 程式碼的開發人員學習。除了同儕學習外，Kannapat 還享受在 Iron Software 工作的社交方面。當他不在撰寫程式碼或文件時，Kannapat 通常會在 PS5 上玩遊戲或重看《最後生還者》。

< 上一頁
如何在 Python 中創建 PDF 文件

下一個 >
如何在 Python 中將 HTML 轉換為 PDF