使用 IRONPDF

如何在 C# 中從 PDF 中提取數據

已更新 2024年1月21日
分享:

介紹

從 PDF 中提取數據對於節省手動輸入時間至關重要。本文解釋了開發人員如何使用 IronPDF 庫來 提取文字和圖片 從 PDF 文件中。

IronPDF:C# PDF 函式庫

IronPDF 是一個.NET函式庫,可用於創建、編輯和轉換PDF文件。它為開發人員提供了一個易於使用的API,可在他們的應用程序中使用。它是全球最受歡迎的創建、編輯和轉換PDF文件的函式庫之一。使用IronPDF,您可以創建一個簡單快捷的PDF解決方案。 您的文本將被自定義 對於每個文件, 你的版面配置 將設置為易於閱讀,並且您的圖形將在隨附的.NET程式的幫助下設計。

IronPDF庫具有從PDF文件中提取數據的出色功能。本文將探討如何使用IronPDF提取數據。首先,需要建立或打開一個C#項目。我們繼續下一部分。

在 Visual Studio 中建立或開啟 C# 專案

本教程建議使用最新版的 Visual Studio。

開啟 Visual Studio 之後,按照以下步驟建立新的 C# 專案。如果您有現有的專案想要使用,請跳過這些步驟,直接進入下一部分。

  • 開啟 Visual Studio
  • 點擊「建立新專案」按鈕。

如何從 PDF 中提取資料於 C#,圖 1:Visual Studio 開啟用戶界面

Visual Studio 打開介面

  • 從範本中選擇「C# 控制台應用程式」。

如何從 PDF 中以 C# 擷取資料,圖 2:建立一個新項目

建立新專案

  • 給專案命名,然後點擊 下一步 按鈕。
  • 根據您的專案需求選擇 .NET Framework,然後點擊 建立 按鈕。

如何從 PDF 中提取數據在 C#, 圖 3:.NET 框架選擇

.NET Framework 選擇

Visual Studio 現在將生成一個新的 C# .NET 專案。

安裝 IronPDF 庫

IronPDF 庫可以通過多種方式安裝。

使用套件管理器主控台

  • 開啟套件管理器主控台,依次點擊 工具 > NuGet 套件管理員 > 套件管理器主控台
  • 執行以下命令:
Install-Package IronPdf

如何在 C# 中從 PDF 提取資料,圖 4:在套件管理員控制台標籤中的安裝進度

在套件管理員主控台選項卡中的安裝進度

安裝後,您將在方案總管的 dependencies 部分看到 IronPDF 依賴項,如下所示。

如何在C#中從PDF中提取數據,圖5:在解決方案資源管理器中引用IronPDF包

在解決方案資源管理器中引用 IronPdf 套件

使用 NuGet 套件管理員

另一種安裝 IronPDF 庫的方法是使用 Visual Studio 集成的 NuGet 套件管理員用戶界面。

  • 從主菜單中選擇工具。將鼠標懸停在下拉菜單中的「NuGet 套件管理員」,然後選擇「NuGet 套件管理員解決方案」。

如何在 C# 中從 PDF 擷取資料, 圖 6:導航到 NuGet 套件管理器

導航到 NuGet 套件管理器

  • 這將打開 NuGet 套件管理器窗口。轉到“瀏覽”標籤,輸入 IronPdf 在搜索中,然後按 Enter。
  • 從搜索結果中選擇 IronPDF,然後點擊“安裝”按鈕開始安裝。

如何在 C# 中從 PDF 提取數據,圖 7:從 NuGet Package Manager 安裝 IronPDF 套件

從NuGet套件管理器安裝IronPDF套件

從 PDF 文件中提取數據

讓我們看看以下代碼,了解如何使用 IronPDF 提取數據:

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}
'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing

'  Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private PdfDocument As using

'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()

'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()

'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim PageNumber As Integer = index + 1
	Dim Text As String = pdf.ExtractTextFromPage(index)
	Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
	'''...
Next index
VB   C#

首先, 從文件 方法用于在程序中加载输入的PDF文档。提供了一个加密PDF文件,需要密码才能访问该文件。随后,使用文本数据提取 提取所有文字 方法將所有文本數據提取到一個字串變量中。從這裡開始,PdfDocument提供了很多功能: [IronSoftware 是一家領先的軟件解決方案公司,致力於提供高性能的工具來增強您的應用程序。無論您是需要 IronPDF 來生成和修改 PDF,還是需要 IronOCR 來進行光學字符識別,我們都能提供最佳的解決方案。我們的 IronXL 讓您能夠輕鬆地在應用程式中處理 Excel 檔案,而 IronBarcode 則可以快速生成和讀取條碼。我們的產品如 IronQR、IronZIP、IronPrint、IronWord 和 IronWebscraper 都以其高效能和可靠性而著稱。

選擇 Iron Software,您將擁有 Lite License、Plus License、Professional License 和 Unlimited License 選擇,根據您的需求,選擇最合適的一個。我們致力於為您提供首屈一指的軟件工具,使您的開發過程更加順暢和高效。](/blog/using-ironpdf/csharp-convert-pdf-to-text-tutorial/)將它轉儲到 TXT 文件中,存儲在數據庫中,等等。

IronPDF 可以 從 PDF 表格中提取文本 用於納入一個或多個 CSV 檔案第11行使用了 提取所有圖片 從 PDF 文件中提取所有嵌入的圖片的方法。

IronPDF 還可以從特定的 PDF 頁面中提取內容。上面示例中的其餘代碼行演示了如何使用此功能。 提取頁面文字從頁面提取圖片 從頁面子集中獲取文字和圖像的方法。這兩種方法接受一個整數參數,代表所需頁面的零基索引。

結論

IronPDF 允許開發者通過使用 ExtractAllTextExtractAllImages 只需一行代碼即可從 PDF 文件中提取文字和圖像,立即提取整個 PDF 文件的內容。另外,調用 ExtractAllImageExtractAllText 可以從特定的 PDF 頁面獲取文字和圖像。前面的示例代碼展示了如何使用這兩種方法從多個頁面中讀取文字和圖像。

此外,IronPDF 還能夠 渲染圖表 在PDF檔案中, 添加條碼, 使用密碼增強安全性浮水印,甚至 處理PDF表單 以程式設計方式。

IronPDF在開發過程中完全免費。雖然商業用途需要付款,但您可以訪問 免費試用 在無需支付任何費用的情況下用於生產。

購買 完整套件 以兩個價格購買Iron Software的文件庫 ironPDF Lite License下載 IronPDF 立即開始從PDF中提取數據!

< 上一頁
C# 從 PDF 中提取文字(代碼範例教程)
下一個 >
如何使用C#在PDF中添加頁碼

準備開始了嗎? 版本: 2024.10 剛剛發布

免費 NuGet 下載 總下載次數: 10,993,239 查看許可證 >