使用IRONPDF FOR PYTHON

如何在 Python 中從 PDF 中提取發票數據

發佈 2023年9月12日
分享:

在當今快節奏的商業環境中,高效的發票數據提取對簡化財務操作至關重要。組織面臨的最常見挑戰之一是從PDF文檔中提取有價值的發票數據。在本文中,我們將探討如何利用Python這一多功能且強大的編程語言來自動化從PDF格式的發票中提取關鍵信息,如發票日期、金額和發票號碼。通過利用Python強大的庫和工具,企業可以顯著減少手動數據提取和輸入,降低錯誤,並提高整體管理發票的生產力。讓我們一起探索Python如何革新您的發票處理工作流程。

在本文中,我們將討論如何使用 IronPDF 庫為Python從發票PDF文件中提取文本數據。

如何在 Python 中從 PDF 提取發票數據

  1. 安裝用於從 PDF 發票中提取數據的 Python 庫。

  2. 使用 PdfDocument.FromFile 方法打開 PDF 文件。

  3. 使用 ExtractAllText 方法從發票中提取所有數據。

  4. 使用 print 方法列印所有從發票中提取的數據。

  5. 從發票數據中提取特定數據。

1. IronPDF

IronPDF for Python 是一個強大的庫,用於將 Python 應用程序和 PDF 文件之間建立聯繫。這個多功能工具為開發者提供了在 Python 項目中輕鬆創建、操作和互動 PDF 文件的手段。以下是一些使 IronPDF 成為寶貴資產的突出功能:

  1. PDF 生成: IronPDF 允許動態生成 PDF 文件,使開發者能夠通過編程創建具有自定義內容、樣式和佈局的 PDF。

  2. HTML 到 PDF 轉換: 它可以將 HTML 內容(包括網頁)轉換為高質量的 PDF,保留原始 HTML 的佈局和樣式,這對於生成報告和文檔特別有用。

  3. PDF 編輯: 開發者可以輕鬆地通過添加、修改或刪除文本、圖像和互動元素來編輯現有的 PDF,使其成為文檔操作的強大工具。

  4. PDF 合併和拆分: IronPDF 允許您將多個 PDF 文件合併為一個文件,或者將一個 PDF 拆分為多個文件,為管理大量 PDF 提供了靈活性。

  5. PDF 表單: 它支持創建和填寫互動式 PDF 表單,非常適合需要用戶輸入和數據收集的應用程序。

  6. 數字簽名: 您可以向 PDF 文件添加數字簽名,確保文件的完整性和真實性,這對於法律和安全目的至關重要。

  7. PDF 數據抽取: IronPDF 提供了抽取功能來保護 PDF 中的信息。

2. 設置環境

在 Python 中設置 IronPDF 的環境涉及幾個步驟,以確保您能夠有效地開始使用該庫。這是一個逐步指南:

  1. 在 PyCharm 中創建一個新的 Python 項目,並創建一個虛擬環境或者使用現有的解釋器。
  2. 使用命令行終端安裝 IronPDF,在終端中運行以下命令:
 pip install ironpdf

如何從 PDF 中提取發票數據:圖1 - 從命令行安裝 IronPDF。

3. 使用 IronPDF 從發票提取數據

在本文的這一部分中,我們將看到如何使用 Python 庫 IronPDF 從發票格式和輸出格式中提取數據。下面的代碼將提取發票中的所有數據並將其列印在控制台中。

範例發票

如何從 PDF 中提取發票數據在 Python 中:圖 2 - 一個包含公司、標題、發票號碼、項目明細和總計等標準發票元素的發票示例。

from ironpdf import *
pdf = PdfDocument.FromFile("INV_2022_00001.pdf")
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

上述程式碼使用 PdfDocument.FromFile 方法載入名為 "INV_2022_00001.pdf" 的特定 PDF 檔案。隨後,它會從載入的 PDF 文件中提取所有文字內容並將其存儲在變數 all_text 中。最後,使用 print 函數將提取的文字輸出到控制台。基本上,此程式碼自動化了從 PDF 檔案提取結構化數據和非結構化數據的過程,使其在 Python 環境中可供進一步處理或分析。

3.1. 輸出

如何從 PDF 中提取發票數據到 Python:圖 3 - 將發票中的文本輸出到控制台。

4. 從發票中提取特定數據

使用 IronPDF 提取發票數據是一個相當簡單的過程,如上述示例所示。從 PDF 發票數據中提取如發票號碼和金額等數據可能是一個棘手的過程,但使用 IronPDF 和 Python 開源庫 're' 的幫助,可以實現。以下代碼將從 PDF 發票中提取數據並打印在控制台中。

from ironpdf import *
import re
invoice_number_pattern = r"Invoice\s+(INV/\d{4}/\d{5})"
amount_pattern = r"Total\s+\$\s*([\d,.]+(?:\.\d{2})?)"
pdf = PdfDocument.FromFile("INV_2022_00001.pdf")
all_text = pdf.ExtractAllText()
invoice_number_match = re.search(invoice_number_pattern, all_text)
amount_match = re.search(amount_pattern, all_text)
invoice_number = invoice_number_match.group(1) if invoice_number_match else "Not found"
amount = amount_match.group(1) if amount_match else "Not found"
print('Invoice Number:' + invoice_number + '\n Amount:$' + amount)
PYTHON

此代碼片段利用Python和IronPDF庫來從PDF文檔中提取數據。首先導入必要的庫並定義正則表達式模式,用於識別PDF文本內容中的發票號碼和總金額。代碼隨後加載目標PDF,提取所有文本,並繼續搜索定義模式的匹配項。

如果找到成功的匹配項,則存儲相應的發票號碼和金額值;否則,分配為「未找到」。最後,腳本和輸出文件將提取的發票號碼和金額輸出到控制台,提供了一種自動化從PDF文檔中提取特定數據的方法,這在各種數據處理和會計應用中經常遇到。

4.1.輸出

如何從 PDF 中提取發票數據(Python):圖 4 - 輸出文本顯示:“發票號碼:INV/2022/00001”,下一行顯示“金額:$126.50”。

5. 結論

在當今快速變化的商業環境中,Python是一個強大的盟友,幫助組織通過自動化從PDF發票中提取關鍵數據來簡化其財務操作。利用Python的功能和IronPDF庫,企業可以顯著減少手動數據輸入,減少錯誤,節省時間,並提高處理發票的整體生產力。IronPDF具有多種功能,如PDF生成、HTML轉PDF、PDF編輯、合併、拆分、表單處理、數字簽名和精確數據提取,成為這些任務的強大工具。

通過簡單的設置程序,Python開發人員可以迅速將IronPDF集成到他們的項目中,變革其發票處理工作流程,使從發票中提取數據的過程變得順暢且高效。使用IronPDF提取數據的代碼範例可以在 這裡使用 IronPDF for Python 進行數據提取的完整教程可在以下網站上找到 連結並且要使用 C# 進行發票提取,請訪問 這裡.

< 上一頁
如何在 Python 中解析 PDF 文件
下一個 >
如何在 Python 中將圖片轉換為 PDF

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 pip 安裝 查看許可證 >