在生產環境中測試,無水印。
在任何需要的地方都能運行。
獲得 30 天的全功能產品。
在幾分鐘內上手運行。
試用產品期間完全訪問我們的支援工程團隊
本文將討論如何使用 IronPDF 函式庫來從發票 PDF 文件中提取文本數據。
安裝用於從 PDF 發票中提取數據的 Python 庫。
使用 PdfDocument.FromFile
方法來開啟 PDF 檔案。
使用ExtractAllText
方法從發票中提取所有數據。
使用print
方法列印發票中提取的所有數據。
IronPDF for Python 是一個使用 Python 的強大函式庫,作為 Python 應用程序與 PDF 文件之間的橋樑。 這個多功能工具為開發人員提供了一種在其 Python 項目中輕鬆創建、操作和互動 PDF 文件的方法。 以下是使IronPDF成為有價值資產的一些突出特點:
PDF 生成: IronPDF 允許從零開始動態生成 PDF 文件,使開發人員能夠以程式方式創建具有自定義內容、樣式和佈局的 PDF。
HTML 到 PDF 轉換:它可以將 HTML 內容(包括網頁)轉換為高品質的 PDF,保留原始 HTML 的佈局和樣式,這對生成報告和文檔特別有用。
PDF 編輯: 開發人員可以輕鬆編輯現有的 PDF,通過添加、修改或刪除文字、圖片和互動元素,使其成為一個強大的文件操作工具。
PDF 合併和分割: IronPDF 允許您將多個 PDF 文件合併為一個單一文件,或將PDF 分割為多個文件,提供管理大量 PDF 的靈活性。
PDF 表單: 它支援建立和填寫互動 PDF 表單,非常適合需要用戶輸入和數據收集的應用程式。
數位簽章:您可以在 PDF 文件中添加數位簽章,確保檔案的完整性和真實性,這對於法律和安全目的至關重要。
在 Python 中設置 IronPDF 的環境需要幾個步驟,以確保您可以有效地開始使用該庫。 以下是逐步指南:
在 PyCharm 中創建一個新的 Python 專案,並創建一個虛擬環境或使用現有的解釋器。
pip install ironpdf
從命令行安裝 IronPDF
本節將展示如何使用 Python 庫 IronPDF 從發票格式中提取數據並輸出格式。 下面的程式碼將從發票中提取所有資料並在控制台中列印出來。
範例發票
from ironpdf import *
pdf = PdfDocument.FromFile("INV_2022_00001.pdf")
all_text = pdf.ExtractAllText()
print(all_text)
python
上述程式碼使用PdfDocument.FromFile
方法載入名為"INV_2022_00001.pdf"的特定 PDF 文件。 隨後,它從載入的 PDF 文件中提取所有文本內容,並將其存儲在變數all_text
中。 最後,提取的文字透過print
函數打印到控制台。 基本上,這段程式碼自動化了從 PDF 文件中提取結構化數據和非結構化數據的過程,使其可在 Python 環境中進一步處理或分析。
從發票輸出至控制台的文本
使用 IronPDF 提取發票數據是相當簡單的過程,如我們在上面的例子中所見。 從 PDF 發票資料中擷取例如發票號碼和金額等數據可能是個棘手的過程,但使用 IronPDF 並結合 Python 開源庫re
的協助,可以實現這一點。 以下代碼將從 PDF 發票中提取數據並在控制台上打印出來。
from ironpdf import *
import re
invoice_number_pattern = r"Invoice\s+(INV/\d{4}/\d{5})"
amount_pattern = r"Total\s+\$\s*([\d,.]+(?:\.\d{2})?)"
pdf = PdfDocument.FromFile("INV_2022_00001.pdf")
all_text = pdf.ExtractAllText()
invoice_number_match = re.search(invoice_number_pattern, all_text)
amount_match = re.search(amount_pattern, all_text)
invoice_number = invoice_number_match.group(1)
if invoice_number_match else "Not found"
amount = amount_match.group(1) if amount_match else "Not found"
print('Invoice Number:' + invoice_number + '\n Amount:$' + amount)
python
此代碼片段使用 Python 和 IronPDF 庫來從 PDF 文件中進行數據提取。 它首先匯入必要的庫,並定義正則表達式模式以識別 PDF 文本內容中的發票號碼和總金額。 然後,程式會載入目標 PDF,提取其所有文字,並開始搜尋符合定義樣式的內容。
如果找到成功的匹配,將存儲對應的發票號碼和值; 否則,將分配「未找到」。 最後,腳本和輸出檔將提取的發票號碼和金額輸出到控制台,提供了一種自動化從 PDF 文件中提取特定數據的簡化方法,這是一項常見於各種數據處理和會計應用中的任務。
輸出文本
在當今快速變化的商業環境中,Python 作為一個強大的助手,幫助組織透過自動化從 PDF 發票中提取關鍵數據,以簡化其財務運營。 利用 Python 的功能和 IronPDF 庫,企業在處理發票管理的會計流程中,可以顯著減少手動數據輸入、降低錯誤、節省時間,並提高整體生產力。 IronPDF 以其多樣化的功能,例如 PDF 生成、HTML 至 PDF 轉換、PDF 編輯、合併、拆分、表單處理、數位簽名以及精確的數據提取,成為執行這些任務的強大工具。
透過遵循簡單的設置程序,Python 開發人員可以快速將 IronPDF 整合到他們的專案中,革新他們的發票處理工作流程,從發票中提取數據成為順暢且高效的過程。 使用 IronPDF 進行數據提取的代碼示例可以在詳細代碼範例中找到。 使用 IronPDF for Python 提取數據的完整教學可以在以下的Python 教學中找到,若要獲取使用 C# 提取發票的相關資料,請訪問IronOCR 教學。