使用 IRONPDF

如何在 C# 中從 PDF 中提取數據

已更新 2024年1月21日
分享:

介紹

從 PDF 中提取數據對於節省手動輸入時間至關重要。 本文說明了開發人員如何使用IronPDF庫來提取文字和圖片從 PDF 文件。

IronPDF:C# PDF 庫

IronPDF是一個.NET程式庫,可用於創建、編輯和轉換PDF文件。 它為開發者提供了一個易於使用的 API,用於他們的應用程式。 它是全球最受歡迎的用於建立、編輯和轉換 PDF 檔案的庫之一。 使用IronPDF,您可以快速且簡單地解決PDF相關問題。 您的文本將被自定義對於每個文件,你的版面配置將設置為易於閱讀,並且您的圖形將在隨附的 .NET 程式的幫助下設計。

IronPDF 庫具有從 PDF 文件中提取數據的出色功能。 本文將探討如何使用IronPDF提取數據。 首先,需要創建或打開一個 C# 專案。 讓我們進入下一個部分。

在 Visual Studio 中創建或打開 C# 項目

此教學建議使用最新版本的 Visual Studio。

打開 Visual Studio 後,按照以下步驟創建一個新的 C# 專案。 如果您有現有專案要使用,那麼請跳過以下步驟,直接進入下一節。

  • 打開 Visual Studio
  • 按下「建立新專案」按鈕。

    如何從 PDF 中提取資料於 C#,圖 1:Visual Studio 開啟用戶界面

    Visual Studio 啟動畫面介面

  • 從範本中選擇「C# 主控台應用程式」。

    如何從 PDF 中以 C# 擷取資料,圖 2:建立一個新項目

    建立新專案

  • 為專案命名,然後點擊 下一步 按鈕。
  • 根據專案需求選擇一個 .NET Framework 並點擊 Create 按鈕。

    如何從 PDF 中提取數據在 C#, 圖 3:.NET 框架選擇

    .NET Framework 選擇

    Visual Studio 現在將生成一個新的 C# .NET 專案。

安裝 IronPDF 函式庫

IronPDF 庫可以通過多種方式安裝。

使用套件管理器控制台

  • 開啟封裝管理器主控台,方法是到 工具 > NuGet 封裝管理員 > 封裝管理器主控台
  • 運行以下命令:
Install-Package IronPdf

如何在 C# 中從 PDF 提取資料,圖 4:在套件管理員控制台標籤中的安裝進度

在套件管理器主控台選項卡中的安裝進度

安裝後,在解決方案資源管理器的 dependencies 區段中,您將看到 IronPDF 相依性,如下所示。

如何在C#中從PDF中提取數據,圖5:在解決方案資源管理器中引用IronPDF包

在解決方案總管中引用 IronPdf 套件

使用 NuGet 套件管理器

另一種安裝IronPDF庫的方法是使用Visual Studio的整合NuGet套件管理器UI。

  • 從主選單中選擇工具。 從下拉菜單中懸停在「NuGet Package Manager」上,然後選擇「NuGet Package Manager Solution」。

    如何在 C# 中從 PDF 擷取資料, 圖 6:導航到 NuGet 套件管理器

    導航到 NuGet 套件管理員

  • 這將開啟 NuGet 套件管理器窗口。 轉到「瀏覽」選項卡,搜尋中輸入IronPdf,然後按 Enter。
  • 從搜尋結果中選擇 IronPDF,然後點擊“安裝”按鈕開始安裝。

    如何在 C# 中從 PDF 提取數據,圖 7:從 NuGet Package Manager 安裝 IronPDF 套件

    從 NuGet 套件管理器安裝 IronPdf 套件

從 PDF 文件中提取數據

讓我們看一下以下代碼,了解如何使用 IronPDF 提取數據:

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}
'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing

'  Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private PdfDocument As using

'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()

'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()

'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim PageNumber As Integer = index + 1
	Dim Text As String = pdf.ExtractTextFromPage(index)
	Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
	'''...
Next index
VB   C#

首先,從文件此方法用於在程式中加載輸入的 PDF 文件。 提供了一個加密的 PDF 文件,需要密碼才能存取該文件。之後,使用 提取所有文字將所有文本數據提取到一個字串變量的方法。 從這裡開始,PdfDocument 提供了許多功能:[IronSoftware 是一家領先的軟件解決方案公司,致力於提供高性能的工具來增強您的應用程序。無論您是需要 IronPDF 來生成和修改 PDF,還是需要 IronOCR 來進行光學字符識別,我們都能提供最佳的解決方案。我們的 IronXL 讓您能夠輕鬆地在應用程式中處理 Excel 檔案,而 IronBarcode 則可以快速生成和讀取條碼。我們的產品如 IronQR、IronZIP、IronPrint、IronWord 和 IronWebscraper 都以其高效能和可靠性而著稱。

選擇 Iron Software,您將擁有 Lite License、Plus License、Professional License 和 Unlimited License 選擇,根據您的需求,選擇最合適的一個。我們致力於為您提供首屈一指的軟件工具,使您的開發過程更加順暢和高效。](/blog/using-ironpdf/csharp-convert-pdf-to-text-tutorial/)將其轉儲到 TXT 文件中,存儲在資料庫中等。

IronPDF 可以從 PDF 表格中提取文本用於納入一個或多個CSV 檔案.

第11行使用了提取所有圖片從 PDF 文件中提取所有嵌入圖像的方法。

IronPDF 也可以從特定的 PDF 頁面中提取內容。 上面範例中的其餘代碼行演示了如何使用提取頁面文字從頁面提取圖片從部分頁面中提取文本和圖像的方法。 這兩種方法均接受一個整數參數,該參數表示所需頁面的零基索引。

結論

IronPDF 允許開發人員僅用一行代碼從 PDF 文件中提取文本和圖像,使用 ExtractAllTextExtractAllImages 可以立即提取整個 PDF 文件的內容。 或者,調用 ExtractAllImageExtractAllText 將從特定的 PDF 頁面中提取文本和圖像。 先前的範例代碼顯示了如何使用這兩種方法從一系列頁面中讀取文本和圖像。

此外,IronPDF 還能夠渲染圖表在PDF檔案中,添加條碼, 使用密碼增強安全性浮水印,甚至處理PDF表單程式化地。

IronPDF 完全免費供開發使用。 雖然商業使用需要支付費用,但您可以訪問IronPDF 免費試用用於生產而無需支付任何費用。

購買這個Iron Software完整的文件庫套件兩個的價格IronPDF Lite 授權.

下載IronPDF 現在立即開始從PDF中提取數據!

< 上一頁
C# 從 PDF 中提取文字(代碼範例教程)
下一個 >
如何使用C#在PDF中添加頁碼

準備開始了嗎? 版本: 2024.12 剛剛發布

免費 NuGet 下載 總下載次數: 11,622,374 查看許可證 >