跳過到頁腳內容
使用IRONPDF
如何使用 IronPDF 從 PDF 擷取文字

如何在C#中從PDF中提取數據

從PDF文件中提取數據對於節省手動輸入的時間至關重要。 本文解釋了開發人員如何使用 IronPDF 庫從 PDF 文件中提取文字和圖像

IronPDF:C# PDF 函式庫

IronPDF是一個 .NET 函式庫,可用於建立、編輯和轉換 PDF 檔案。 它為開發者提供了一個易於使用的 API,供他們在應用程式中使用。 它是全球最受歡迎的用於創建、編輯和轉換 PDF 文件的庫之一。 使用 IronPDF,您可以建立簡單快速的 PDF 解決方案。 您的文字將針對每個文件進行定制您的佈局將便於閱讀,您的圖形將藉助配套的 .NET 程式進行設計。

IronPDF 庫有一個非常棒的功能,可以從 PDF 文件中提取資料。 本文將探討如何使用 IronPDF 擷取資料。 首先,需要建立或開啟一個 C# 專案。 我們進入下一節。

在 Visual Studio 中建立或開啟 C# 項目

本教學建議使用最新版本的 Visual Studio。

開啟 Visual Studio 後,請依照下列步驟建立一個新的 C# 專案。 如果您想使用現有的項目,請跳過接下來的步驟,直接進入下一節。

  • 開啟 Visual Studio 點擊"建立新項目"按鈕。

如何在 C# 中從 PDF 中提取數據,圖 1:Visual Studio 開啟介面 Visual Studio 開啟介面

  • 從範本中選擇"C# 控制台應用程式"。

如何在 C# 中從 PDF 中提取數據,圖 2:建立一個新項目 建立一個新項目

  • 為項目命名,然後點選"下一步"按鈕。
  • 根據專案需求選擇 .NET Framework,然後按一下"建立"按鈕。

如何在 C# 中從 PDF 中提取數據,圖 3:.NET Framework 選擇 .NET Framework 選擇

Visual Studio 現在將產生一個新的 C# .NET 專案。

安裝 IronPdf 函式庫

IronPDF庫可以透過多種方式安裝。

使用軟體套件管理器控制台

  • 開啟程式包管理員控制台,方法是前往"工具" > "NuGet 套件管理員" > "套件管理員控制台"
  • 執行以下指令安裝 IronPDF 庫:
Install-Package IronPdf

如何在 C# 中從 PDF 中提取數據,圖 4:程式包管理器控制台標籤中的安裝進度 軟體包管理器控制台標籤中的安裝進度

安裝完成後,您將在解決方案資源管理器的dependencies部分看到 IronPDF 依賴項,如下所示。

如何在 C# 中從 PDF 中提取數據,圖 5:在解決方案資源管理器中引用 IronPdf 包 在解決方案資源管理器中引用 IronPdf 包

使用 NuGet 套件管理器

安裝 IronPDF 庫的另一種方法是使用 Visual Studio 整合的 NuGet 套件管理器 UI。

  • 從主選單進入"工具"選單。 將滑鼠停留在下拉式功能表中的"NuGet 套件管理器"上,然後選擇"管理解決方案的 NuGet 套件..."。

如何在 C# 中從 PDF 中提取數據,圖 6:導航到 NuGet 套件管理器 導覽至 NuGet 套件管理器

這將開啟 NuGet 套件管理器視窗。 前往"瀏覽"選項卡,在搜尋框中輸入IronPdf ,然後按 Enter 鍵。

  • 從搜尋結果中選擇 IronPDF,然後點擊"安裝"按鈕開始安裝。

如何在 C# 中從 PDF 中提取數據,圖 7:從 NuGet 套件管理器安裝 IronPdf 套件 從 NuGet 套件管理器安裝 IronPdf 套件

從 PDF 文件中提取數據

讓我們來看看如何使用 IronPDF 來擷取資料:

// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
' Import necessary namespaces
Imports IronPdf
Imports System.Collections.Generic
Imports System.Drawing

Public Class PDFExtractor
	Public Sub ExtractDataFromPDF()
		' Open a 128-bit encrypted PDF file by providing the filename and password
		Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
	
			' Extract all text from the PDF document
			Dim allText As String = pdf.ExtractAllText()
	
			' Extract all images from the PDF document
			Dim allImages As IEnumerable(Of Image) = pdf.ExtractAllImages()
	
			' Iterate over each page in the PDF document
			For index = 0 To pdf.PageCount - 1
				Dim pageNumber As Integer = index + 1
	
				' Extract text from the specific page
				Dim text As String = pdf.ExtractTextFromPage(index)
	
				' Extract images from the specific page
				Dim images As IEnumerable(Of Image) = pdf.ExtractImagesFromPage(index)
	
				' Code to process the extracted text and images
				'...
			Next index
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

在這個程式碼範例中:

  1. FromFile方法用於載入輸入的 PDF 文檔,該文檔已加密,需要密碼。
  2. ExtractAllText方法從 PDF 擷取所有文字內容。
  3. ExtractAllImages方法取得所有嵌入的映像。
  4. 循環遍歷文件的每一頁,使用ExtractTextFromPageExtractImagesFromPage從該特定頁面提取文字和圖像。

結論

IronPDF 讓開發人員能夠輕鬆地從 PDF 文件中提取文字和圖像。 使用ExtractAllTextExtractAllImages ,可以立即擷取 PDF 檔案的全部內容。 或者,這些方法也可以用於從特定頁面提取內容。 前面的程式碼示範如何使用這兩種方法從一系列頁面中讀取文字和圖像。

此外,IronPDF 還提供渲染圖表添加條碼使用密碼增強安全性添加浮水印以及以程式處理 PDF 表單等功能。

IronPDF 在開發階段可免費使用,商業用途需付費。 IronPDF 提供免費試用版,可用於生產環境,無需付費。

只需兩份IronPDF Lite 授權的價格,即可購買Iron Software 的全套文件庫

立即下載 IronPDF,即可開始從 PDF 檔案中擷取資料!

常見問題解答

如何用 C# 從 PDF 擷取文字?

您可以使用 IronPDF 的 ExtractAllText 方法從 PDF 文件中提取所有文字。此方法可輕鬆存取 PDF 的文字內容,簡化了處理過程。

使用 C# 從 PDF 擷取影像的流程為何?

使用 IronPDF,您可以利用 ExtractAllImages 方法從 PDF 中提取圖片。此方法可有效地從 PDF 檔案中擷取所有內嵌的圖片。

如何在 C# 專案中安裝 PDF 操作函式庫?

若要在 C# 專案中安裝 IronPDF,您可以使用套件管理員控制台的 Install-Package IronPdf 指令,或透過 Visual Studio 中的 NuGet Package Manager UI 來安裝套件。

是否可以在 C# 中處理加密的 PDF?

是的,IronPDF 允許您使用 FromFile 方法開啟和處理加密的 PDF 檔案,您可以提供檔案名稱和密碼來存取內容。

我可以用 C# 從 PDF 的特定頁面中擷取資料嗎?

IronPdf 可讓您遍歷 PDF 文件的每一頁,並使用 ExtractTextFromPageExtractImagesFromPage 等方法從特定頁面中擷取資料。

C# PDF 函式庫提供哪些額外功能?

除了資料擷取之外,IronPDF 還提供多種功能,例如渲染圖表、新增 BarCode、利用密碼增強文件安全性、水印,以及以程式化方式處理 PDF 表單。

如何在 C# 中將 HTML 轉換為 PDF?

您可以使用 IronPDF 的 RenderHtmlAsPdf 方法將 HTML 字串轉換成 PDF,這對於從網頁內容建立 PDF 文件特別有用。

C# PDF 函式庫有試用版嗎?

IronPDF 在開發過程中可以免費使用,讓您可以測試其功能。若要用於生產,則需要商業授權,但也提供免費試用版。

如何開始使用 C# 函式庫從 PDF 擷取資料?

若要開始使用 IronPDF 進行資料擷取,請下載資料庫、在 Visual Studio 中建立或開啟 C# 專案、安裝 IronPDF,並依照程式碼範例有效率地從 PDF 擷取文字和影像。

.NET 10 兼容性:IronPDF 的數據提取功能可以在 .NET 10 中使用嗎?

是的 - IronPDF 完全支援 .NET 10,包括其資料擷取功能,例如擷取文字和影像。您可以在 .NET 10 專案上使用 IronPDF,無需特殊設定。它支援 .NET10、.NET9、.NET 8 及早期版本,加上 .NET Standard 及 .NET Framework。(IronPdf.com)

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。