在實際環境中測試
在生產環境中測試無浮水印。
在任何需要的地方都能運作。
現代的庫已經簡化了 PDF 的創建過程。 在選擇 PDF 專案的程式庫時,請考慮建置、讀取和轉換功能,以實現最佳的整合和效能。 Python 提供像 IronPDF 這樣的工具,可以高效解析現有的 PDF。
Python是一種程式語言,使開發人員能夠快速且輕鬆地構建圖形用戶界面。 與其他語言相比,它為程式設計師提供了更大的活力。 因此,將 IronPDF 庫與 Python 整合是一個簡單的過程。
為了快速且安全地建立一個功能完整的圖形用戶界面,開發人員可以利用包括 PyQt、wxWidgets、Kivy 以及許多其他套件和庫在內的多個預安裝工具。 值得注意的是,IronPDF 並不是純粹的 Python PDF 庫; 相反地,它允許包括來自其他框架(如 .NET Core)的各種功能。
IronPDF 簡化了 Python 網站設計和開發,特別是由於 Django、Flask 和 Pyramid 等 Python 網頁開發範式的流行。 包括 Reddit、Mozilla 和 Spotify 在內的知名網站和線上服務已使用這些框架。 您可以在 IronPDF 的 Python 相關頁面上了解更多信息IronPDF for Python 網站.
IronPDF 支援使用者代理、代理伺服器、Cookie、HTTP 標頭和形狀變數,允許 HTML 登入表單驗證。
*訪問受保護的文件在 IronPDF 中,授權是通過使用用戶名和密碼進行的。
確保您的電腦上已安裝 Python。 訪問官方 Python 網站下載並安裝適合您作業系統的最新版本 Python。 安裝 Python 之後,建立一個虛擬環境來隔離專案的依賴項。 使用「venv」模組來建立和管理虛擬環境,為您的轉換專案提供一個乾淨且獨立的工作空間。
為了這次演示,我們將使用 PyCharm,一個用於撰寫 Python 代碼的 IDE。
啟動 PyCharm IDE 後,點擊「New Project」。
PyCharm 歡迎畫面
當您選擇「新專案」時,將出現一個新視窗,使您可以指定專案的位置和其環境。 此新視窗可在下方的截圖中看到。
PyCharm 的新專案畫面
點擊創建按鈕來開始一個新專案,設置完專案位置和環境路徑後。 這將開啟一個新窗口,程序可以在其中開發。 本教學建議使用 Python 3.9。
在 PyCharm 中打開的主文件
IronPDF 是一個 Python 庫,主要依賴於 .NET 6.0。因此,若要使用 IronPDF for Python,您的電腦必須安裝 .NET 6.0 執行時。 在 Linux 和 Mac 用戶使用此 Python 模組之前,可能需要安裝 .NET。 您可以從以下來源獲取所需的運行時環境.NET網站.
需要安裝「ironpdf」封包以便建立、編輯和打開擴展名為「.pdf」的檔案。 要在 PyCharm 中安裝套件,請開啟終端視窗並輸入以下指令:
pip install ironpdf
下面的截圖顯示了'ironpdf'套件的設定。
通過 pip 安裝 IronPDF 的終端顯示
借助IronPDF庫,可以從PDF文件中提取文本。 IronPDF 提供多種文本提取技術。 第一種方法是將頁面上的所有內容作為一個單字符串檢索。 第二種方法是從第一頁開始,逐頁閱讀內容。 以下程式碼片段顯示了一種使用 IronPDF 檢查當前 PDF 檔案的模式。
有兩種方法可以從 PDF 中提取數據:
按頁從 PDF 中提取。
將整個 PDF 提取為文本。
以下是我們將在本文中使用的 PDF 檔案。 它有兩頁。
每頁頂部帶有頁碼的 PDF
下面提供的範例代碼演示了如何使用頁碼從 PDF 文件中檢索數據。
from ironpdf import *
pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)
程式碼片段示範了使用 FromFile 函數來讀取 PDF 文件並建立 PDF 文件物件。 此物件允許存取 PDF 中的文字和圖像。 若要從特定頁面提取文字,可以使用 ExtractTextFromPage
方法,並提供頁碼作為參數。 此方法將返回一個包含指定頁面上所有文字的字串。 輸出將顯示如下。
終端機螢幕截圖,文字輸出為 "Page 1"
結果中高亮顯示的矩形框是從第1頁的PDF文件中提取的數據,其索引為0。
快速且輕鬆地將所有 PDF 內容作為字串獲取的第一種方法如下代碼範例所示。
# creating a PDF file object
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)
上面顯示的範例程式碼解釋了如何從現有的檔案路徑讀取 PDF,並使用 FromFile
函數將其轉換為 PDF 檔案物件。 PDF 的純文字將通過對象的 ExtractAllText
函數提取並轉換成字串,然後在終端上打印提取的文本。 結果將顯示如下。
終端機截圖,文字輸出 "Page 1",以及 "Page 2"
結果中突出顯示的矩形框包含從 PDF 文件所有頁面提取的數據文本。
我們能夠藉助IronPDF使用C#創建PDF。 若要了解有關 IronPDF 的更多資訊,請造訪IronPDF 網站.
為了降低風險並確保數據保護,IronPDF 庫提供強大的安全措施。 與所有常用的瀏覽器兼容,且不限於任何特定瀏覽器。 IronPDF 使程式設計師只需使用幾行程式碼即可輕鬆建立和讀取 PDF 檔案。 為了滿足開發人員的各種需求,IronPDF庫提供多種授權選項,包括免費的開發者授權以及可購買的額外開發授權。
$749 Lite 包含永久授權、30 天退款保證、一年軟體支援以及升級可能性。 超出首次購買,沒有額外收費。 生產、預備和開發環境皆使用這些授權。 IronPDF 也提供具有一些時間和重新分發限制的免費授權。 在免費試用期間,使用者可以在實際使用中測試產品,而不會有浮水印。 有關 IronPDF 試用版本的價格和許可的更多詳細資訊,請訪問IronPDF 授權頁面.