使用 IRONPDF

C# 從 PDF 中提取文字（代碼範例教程）

里根普恩

2022年6月27日

已更新 2023年12月3日

您的企業在每年的 PDF 安全和合規訂閱上花費過多。考慮 IronSecureDoc 由 Iron Software 提供，提供用於管理數位簽名、編輯、加密和保護等SaaS服務的解決方案，且僅需一次性付款。立即體驗IronSecureDoc

PDF(可攜式文件格式)文件在無數行業中扮演著至關重要的角色，使企業能夠安全地共享、存儲和管理文件。對於開發人員來說，處理 PDF 通常涉及創建、閱讀、轉換和提取內容以滿足客戶需求。從 PDF 提取文字對於資料分析、文件索引、內容遷移或啟用可及性功能等任務至關重要。現代函式庫，如IronPDF使這些任務比以往更容易，提供強大的工具以最小的努力操作 PDF 檔案。

本指南重點介紹其中一個最常見的需求：在 C# 中從 PDF 中提取文本。我們將指導您在 Visual Studio 中設置專案，安裝 IronPDF，並通過簡潔的程式碼範例來使用它進行文本提取。在此過程中，我們將重點介紹IronPDF的強大功能，包括使用.NET創建、操作和轉換PDF文件的能力。無論您是在構建文檔密集型應用程序還是僅需要高效的PDF處理，本教程都能幫助您入門。

如何在C#中從PDF提取文本

下載提取 PDF 中文本 C# 庫
在 Visual Studio 中建立新專案
將資料庫安裝到您的專案中
從 PDF 文件中提取文字
從 PDF 文件檢視文字輸出

1. IronPDF 功能

IronPDF 是一款功能強大的 PDF 轉換器，可以執行幾乎所有瀏覽器能夠執行的操作。使用 .NET 函式庫，開發人員可以輕鬆地創建、閱讀和操作 PDF 文件。 IronPDF 使用 Chrome 引擎將 HTML 轉換為 PDF 文檔。IronPDF 支援 HTML、ASPX、Razor HTML 與 MVC View 及其他網頁組件。 Microsoft .NET 應用程式受到 IronPDF 的支援。(ASP.NET 網頁應用程式和傳統的 Windows 應用程式). IronPDF 也可以用來創建一個視覺上吸引人的 PDF 文件。

我們可以使用IronPDF從HTML5、JavaScript、CSS和圖片製作PDF文件。此外，這些文件可以具有頁眉和頁腳。感謝 IronPDF，我們可以輕鬆閱讀 PDF 文件。 IronPDF 也擁有一個全面的 PDF 轉換引擎和一個強大的 HTML 到 PDF 轉換器，能處理 PDF 文件。

PDF 創建： 從 HTML、JavaScript、CSS、圖片或 URL 生成 PDF。添加頁首、頁尾、書籤、水印和其他自訂元素以增強設計。
HTML-to-PDF 轉檔： 將 HTML、Razor/MVC 檢視和媒體類型的 CSS 檔案直接轉換成 PDF 格式。
互動式 PDF 功能：構建、填寫和提交互動式PDF 表單.
文字和圖像提取： 從現有的 PDF 文件中提取文字或圖像，以進行數據處理或重用。
文件操作：合併，拆分，並重新排列新 PDF 文件或現有 PDF 文件中的頁面。
影像與頁面處理： 將 PDF 頁面點陣化為影像並進行轉換將圖像轉換為PDF格式.
使用自定義登入憑證： IronPDF 能夠從 URL 創建文件。它還支援自訂網路登入憑證、使用者代理、代理伺服器、Cookie、HTTP 標頭和表單變數以進行在 HTML 登入表單後登入.
搜尋與無障礙性： 在 PDF 文件中搜尋文字並確保符合無障礙標準。
轉換多功能性： 將 PDF 轉換為其他格式，如 HTML，並使用 CSS 文件生成 PDF。
獨立功能： 無需依賴 Adobe Acrobat 或其他第三方工具即可獨立運行。

2. 在 Visual Studio 中建立新專案

開啟 Visual Studio 軟體並進入檔案選單。選擇「新專案」，然後選擇「主控台應用程式」。在本文中，我們將使用主控台應用程式來生成 PDF 文件。

C# 從 PDF 中提取文字（代碼示例教程），圖 1：在 Visual Studio 中創建一個新項目

在 Visual Studio 中創建一個新專案

在相應的文字框中輸入專案名稱並選擇文件路徑。然後，按一下 Create 按鈕並選擇所需的 .NET Framework，如下圖所示。

C# 從 PDF 中提取文本（代碼示例教程），圖 2：在 Visual Studio 中配置新項目

在 Visual Studio 中配置新專案

Visual Studio 專案將生成所選應用程式的結構，如果您選擇了主控台、Windows 和 Web 應用程式，它將開啟 program.cs 文件，您可以在其中輸入代碼並建置/執行應用程式。

C# 從 PDF 提取文本（程式碼範例教學），圖 3：選擇 .NET Core

選擇 .NET Core

接下來，我們可以添加庫來測試代碼。

3. 安裝 IronPDF 庫

IronPDF 庫可以透過四種方式下載和安裝。

這些是：

使用 Visual Studio。
使用 Visual Studio 命令行。
從 NuGet 網站直接下載。
直接從 IronPDF 網站下載。

3.1 使用 Visual Studio

Visual Studio 軟體提供 NuGet Package Manager 選項，讓使用者可以將套件直接安裝到解決方案中。以下截圖顯示如何打開 NuGet Package Manager。

C# 從 PDF 提取文字 (代碼範例教程)，圖 4：Visual Studio 的 program.cs 檔案

Visual Studio program.cs 檔案

它提供搜尋框以顯示來自 NuGet 網站的套件清單。在套件管理器中，我們需要搜尋關鍵字「IronPdf」，如下面的截圖所示。

C# 從 PDF 提取文字（代碼示例教程），圖 5：NuGet 套件管理器

NuGet 套件管理員

在上圖中，我們可以看到相關搜索項目的列表。我們需要選擇所需選項將套件安裝到解決方案中。

3.2 使用 Visual Studio 命令列

在 Visual Studio 中，請依次前往工具 > NuGet 套件管理員 > 套件管理員主控台

在套件管理器主控台標籤頁中輸入以下行：

Install-Package IronPdf

現在套件將下載/安裝到當前專案並準備好使用。

C# 從 PDF 提取文本（代碼示例教程），圖 6：NuGet 包管理器中的 IronPDF 庫

NuGet 套件管理器中的 IronPdf 庫

3.3 從 NuGet 網站直接下載

第三種方式是下載IronPDF NuGet 套件直接從他們的網站。

導航至 NuGet 上的 IronPDF 套件。
從右側菜單中選擇下載套件選項。
雙擊下載的包。將自動安裝。
接下來，重新載入解決方案並開始在專案中使用它。

3.4 從 IronPDF 網站直接下載

參觀IronPDF 官方網站直接從他們的網站下載最新的套件。下載後，按照以下步驟將套件添加到專案中。

在解決方案窗口中右鍵點擊專案。
然後，選擇選項參考，並瀏覽已下載參考的位置。
接下來，點擊確定以添加參考。

4. 使用 IronPDF 提取文字

IronPDF 程式允許我們從 PDF 檔案中提取文字，並將 PDF 頁面轉換為 PDF 物件。以下是如何使用IronPDF讀取現有PDF的示例。

第一種方法是從 PDF 提取文本，樣本代碼片段如下。

using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();

using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();

Imports IronPdf

Private pdfDocument = PdfDocument.FromFile("result.pdf")
Private AllText As String = pdfDocument.ExtractAllText()

這從文件靜態方法用於從現有檔案加載PDF文件並將其轉換為PDFDocument如上方程式碼所示的物件。我們可以使用此物件讀取 PDF 頁面上的可訪問文字和圖像。該對象有一個名為的方法提取所有文字從整個 PDF 文件中提取所有文本，然後將提取出的文本存儲在字串中，這樣我們就可以使用該字串進行處理。

以下是第二種方法的程式碼範例，我們可以用它逐頁從 PDF 文件中提取文本。

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}

Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
	For index = 0 To pdf.PageCount - 1
		Dim Text As String = pdf.ExtractTextFromPage(index)
	Next index
End Using

在上述程式碼中，我們看到它首先會載入整個 PDF 文件並將其轉換成一個 PDF 物件。然後，我們使用內建的方法獲取整個 PDF 文件的頁數PageCount，這將檢索已載入 PDF 文件的總頁數。使用 "for loop" 和提取頁面文字函式允許我們將頁碼作為參數傳遞，以從已載入的文件中提取文字。然後，它將把確切的文字存入字串變數中。同樣地，它將在「for」或「for each」迴圈的幫助下逐頁從 PDF 中提取文本。

5. 結論

IronPDF 是一個多功能且強大的 PDF 庫，旨在讓在 .NET 應用程式中處理 PDF 文件變得無縫。其強大的功能使開發人員能夠創建、操作和提取 PDF 中的內容，而不依賴於像 Adobe Reader 這樣的第三方依賴項。 IronPDF的一個突出功能是能夠從PDF文件中提取文本。此功能在自動化任務中非常寶貴，例如數據分析、文件索引、內容遷移及啟用無障礙功能。通過允許開發人員以程式化方式檢索和處理文本，IronPDF 簡化了工作流程，並為處理 PDF 內容開闢了新的可能性。

IronPDF 提供簡單的整合和跨平台支援，是開發人員尋求高效處理 PDF 文件的絕佳選擇。此外，IronPDF 提供一個免費試用，讓您能夠在承諾之前無風險探索其全部功能範圍。欲知定價詳情和了解更多授權選項，請造訪我們的定價頁面.

里根普恩

立即與工程團隊聊天

軟體工程師

Regan 畢業於雷丁大學，擁有電子工程學士學位。在加入 Iron Software 之前，他的工作角色讓他專注於單一任務；而他在 Iron Software 工作中最喜歡的是他所能承擔的工作範圍，無論是增加銷售價值、技術支持、產品開發或市場營銷。他喜歡了解開發人員如何使用 Iron Software 庫，並利用這些知識不斷改進文檔和開發產品。

< 上一頁
如何使用C#在ASP.NET中生成PDF

下一個 >
如何在 C# 中從 PDF 中提取數據