使用 IRONPDF

C# 從 PDF 中提取文字(代碼範例教程)

PDF(可攜式文檔格式)文件在無數行業中扮演著至關重要的角色,使企業能夠安全地共享、存儲和管理文檔。 對於開發人員來說,處理 PDF 通常涉及創建、閱讀、轉換和提取內容以滿足客戶需求。 從 PDF 提取文字對於資料分析、文件索引、內容遷移或啟用可及性功能等任務至關重要。 像IronPDF這樣的現代庫讓這些任務比以往任何時候都更簡單,提供強大的工具以最少的精力操控 PDF 文件。

本指南重點介紹其中一個最常見的需求:在 C# 中從 PDF 中提取文本。 我們將指導您在 Visual Studio 中設置專案,安裝 IronPDF,並通過簡潔的程式碼範例來使用它進行文本提取。 在此過程中,我們將重點介紹IronPDF的強大功能,包括使用.NET創建、操作和轉換PDF文件的能力。 無論您是在構建文檔密集型應用程序還是僅需要高效的PDF處理,本教程都能幫助您入門。

1. IronPDF 功能

IronPDF 是一款功能強大的 PDF 轉換器,可以執行幾乎所有瀏覽器能夠執行的操作。 使用 .NET 函式庫,開發人員可以輕鬆地創建、閱讀和操作 PDF 文件。 IronPDF 使用 Chrome 引擎將 HTML 轉換為 PDF 文檔。IronPDF 支援 HTML、ASPX、Razor HTML 與 MVC View 及其他網頁組件。 Microsoft .NET 應用程式受 IronPDF 支援(包括 ASP.NET Web 應用程式和傳統 Windows 應用程式)。 IronPDF 也可以用來創建一個視覺上吸引人的 PDF 文件。

我們可以使用IronPDF從HTML5、JavaScript、CSS和圖片製作PDF文件。 此外,這些文件可以具有頁眉和頁腳。 感謝 IronPDF,我們可以輕鬆閱讀 PDF 文件。 IronPDF 也擁有一個全面的 PDF 轉換引擎和一個強大的 HTML 到 PDF 轉換器,能處理 PDF 文件。

  • PDF 創建:從 HTML、JavaScript、CSS、圖片或 URL 生成 PDF。 添加頁首、頁尾、書籤、水印和其他自訂元素以增強設計。
  • HTML轉PDF轉換:直接將HTML、Razor/MVC視圖和媒體類型CSS文件轉換為PDF格式。
  • 互動式 PDF 功能:構建、填寫和提交互動式PDF 表單
  • 文字和圖像提取:從現有的 PDF 文件中提取文字或圖像以進行數據處理或重用。
  • 文件操作: 合併、分割,並重新安排新建或現有 PDF 文件中的頁面。
  • 圖像和頁面處理:將 PDF 頁面光柵化為圖像並將圖像轉換為 PDF 格式
  • 使用自訂登入憑證:IronPDF 能夠從 URL 建立文件。 它還支持自訂網路登入憑證、使用者代理、代理伺服器、Cookie、HTTP 標頭和表單變數,用於在 HTML 登入表單後登入
  • 搜尋和無障礙: 在 PDF 文件中搜尋文字並確保其符合無障礙標準。
  • 轉換多樣性:將 PDF 轉換為其他格式,如 HTML,並使用 CSS 文件生成 PDF。
  • 獨立功能:操作獨立,不需要 Adobe Acrobat 或其他第三方工具。

2. 在 Visual Studio 中建立新專案

開啟 Visual Studio 軟體並進入檔案選單。 選擇「新專案」,然後選擇「主控台應用程式」。 在本文中,我們將使用主控台應用程式來生成 PDF 文件。

C# 從 PDF 提取文本(代碼示例教程),圖 1:在 Visual Studio 中創建新項目 在 Visual Studio 中創建新項目

在相應的文字框中輸入專案名稱並選擇文件路徑。 然後,點擊建立按鈕並選擇所需的 .NET Framework,如下圖所示。

C# 從 PDF 中提取文字(程式碼範例教學),圖 2:在 Visual Studio 中配置新專案 在 Visual Studio 中配置新專案

Visual Studio 專案現在將為選定的應用程式生成結構,如果您選擇了控制台、Windows 和 Web 應用程式,它將打開 program.cs 文件,在這裡您可以輸入代碼並構建/運行應用程式。

C# 從 PDF 中提取文本(代碼示例教程),圖 3: 選擇 .NET Core 選擇 .NET Core

接下來,我們可以添加庫來測試代碼。

3. 安裝 IronPDF 庫

IronPDF 庫可以透過四種方式下載和安裝。

這些是:

  • 使用 Visual Studio。
  • 使用 Visual Studio 命令行。
  • 從 NuGet 網站直接下載。
  • 直接從 IronPDF 網站下載。

3.1 使用 Visual Studio

Visual Studio 軟體提供 NuGet Package Manager 選項,讓使用者可以將套件直接安裝到解決方案中。 以下截圖顯示如何打開 NuGet Package Manager。

C# 從 PDF 提取文本(代碼示例教程),圖 4:Visual Studio 中的 program.cs 文件 Visual Studio 中的 program.cs 文件

它提供搜尋框以顯示來自 NuGet 網站的套件清單。在套件管理器中,我們需要搜尋關鍵字「IronPdf」,如下面的截圖所示。

C# 從 PDF 中提取文本(代碼範例教程),圖 5:NuGet 封裝管理器 NuGet 封裝管理器

在上圖中,我們可以看到相關搜索項目的列表。 我們需要選擇所需選項將套件安裝到解決方案中。

3.2 使用 Visual Studio 命令列

在 Visual Studio 中,請依次前往 工具 > NuGet 套件管理員 > 套件管理員主控台

在套件管理器主控台標籤頁中輸入以下行:

Install-Package IronPdf

現在套件將下載/安裝到當前專案並準備好使用。

C# 從 PDF 提取文本(代碼示例教程),圖 6:NuGet 套件管理器中的 IronPdf 庫 NuGet 套件管理器中的 IronPdf 庫

3.3 從 NuGet 網站直接下載

NuGet 使用NuGet安裝

PM >  Install-Package IronPdf

NuGet上查看https://www.nuget.org/packages/IronPdf以獲取快速安裝。已超過1000萬次下載,正用C#改變PDF開發。 您也可以下載DLLWindows 安裝程式

第三種方法是直接從他們的網站下載IronPDF NuGet 套件

  • 導航至 NuGet 上的 IronPDF 套件。
  • 從右側菜單中選擇下載套件選項。
  • 雙擊下載的包。 將自動安裝。
  • 接下來,重新載入解決方案並開始在專案中使用它。

3.4 從 IronPDF 網站直接下載

DLL 下載DLL
考慮直接安裝IronPDF DLL。可以從/zh-hant/packages/IronPdf.zip手動下載並安裝到您的專案或GAC中。或者,通過NuGet安裝。

訪問IronPDF 官方網站,直接從他們的網站下載最新的包。下載後,按照以下步驟將包添加到項目中。

  • 在解決方案窗口中右鍵點擊專案。
  • 然後,選擇選項參考,並瀏覽已下載參考的位置。
  • 接下來,點擊確定以添加參考。

4. 使用 IronPDF 提取文字

IronPDF 程式允許我們從 PDF 檔案中提取文字,並將 PDF 頁面轉換為 PDF 物件。 以下是如何使用IronPDF讀取現有PDF的示例。

第一種方法是從 PDF 提取文本,樣本代碼片段如下。

using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Imports IronPdf

Private pdfDocument = PdfDocument.FromFile("result.pdf")
Private AllText As String = pdfDocument.ExtractAllText()
$vbLabelText   $csharpLabel

FromFile 靜態方法用於從現有文件載入 PDF 文件,並將其轉換為 PDFDocument 物件,如上面的代碼所示。 我們可以使用此物件讀取 PDF 頁面上的可訪問文字和圖像。 該物件有一個稱為ExtractAllText的方法,其從整個 PDF 文件中提取所有文本,然後將提取的文本存入字串。我們可以使用該字串進行處理。

以下是第二種方法的程式碼範例,我們可以用它逐頁從 PDF 文件中提取文本。

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
	For index = 0 To pdf.PageCount - 1
		Dim Text As String = pdf.ExtractTextFromPage(index)
	Next index
End Using
$vbLabelText   $csharpLabel

在上述程式碼中,我們看到它首先會載入整個 PDF 文件並將其轉換成一個 PDF 物件。 然後,我們使用一個內建的方法 PageCount 獲得整個 PDF 文檔的頁數,這將檢索加載的 PDF 文檔中的總頁數。 使用「for 迴圈」和ExtractTextFromPage 函數允許我們將頁碼作為參數傳遞,以從加載的文檔中提取文本。 然後,它將把確切的文字存入字串變數中。 同樣地,它將在「for」或「for each」迴圈的幫助下逐頁從 PDF 中提取文本。

5. 結論

IronPDF 是一個多功能且強大的 PDF 庫,旨在讓在 .NET 應用程式中處理 PDF 文件變得無縫。 其強大的功能使開發人員能夠創建、操作和提取 PDF 中的內容,而不依賴於像 Adobe Reader 這樣的第三方依賴項。 IronPDF的一個突出功能是能夠從PDF文件中提取文本。 此功能在自動化任務中非常寶貴,例如數據分析、文件索引、內容遷移及啟用無障礙功能。 通過允許開發人員以程式化方式檢索和處理文本,IronPDF 簡化了工作流程,並為處理 PDF 內容開闢了新的可能性。

IronPDF 提供簡單的整合和跨平台支援,是開發人員尋求高效處理 PDF 文件的絕佳選擇。 此外,IronPDF 提供免費試用,讓您在承諾之前可以無風險地探索其全部功能。 欲了解定價詳情和更多授權選項,請造訪我們的定價頁面

現在開始使用IronPDF。
green arrow pointer

Kye Stuart
技術作家

Kye Stuart 在 Iron Software 結合了對編程的熱情和寫作技能。他們在 Yoobee 學院完成了軟體部署的教育,如今正將複雜的技術概念轉化為清晰的教育內容。Kye 重視終身學習,並勇於迎接新的技術挑戰。

工作之餘,他們喜愛電腦遊戲、在 Twitch 上直播,以及戶外活動,如園藝和帶他們的狗 Jaiya 散步。Kye 的直接方法讓他們成為 Iron Software 使命中的關鍵,助力全球開發者理解技術。

< 上一頁
如何使用C#在ASP.NET中生成PDF
下一個 >
如何在 C# 中從 PDF 中提取數據