跳過到頁腳內容
使用IRONPDF
C# 從 PDF 提取文本

C#提取PDF文本(代碼示例教程)

role="alert"> 您的企業在PDF安全性和合規性年度訂閱上花費太多。考慮使用Iron Software的IronSecureDoc,這提供了一次性付款的解決方案,用於管理SaaS服務,如數字簽名、編輯、加密和保護。立即體驗IronSecureDoc

PDF(可攜式文件格式)文件在無數行業中發揮著重要作用,使企業能夠安全地共享、存儲和管理文件。 對於開發人員來說,使用PDF通常涉及創建、閱讀、轉換和提取內容以支持客戶需求。 從PDF中提取文本是執行數據分析、文件索引、內容遷移或啟用無障礙功能等任務的必要條件。 現代庫如IronPDF使這些任務比以往任何時候都更加簡單,提供強大的工具來操作PDF文件,所需的努力最小。

本指南著重於最常見的要求之一:從C#中的PDF中提取文本。 我們將帶您完成在Visual Studio中設置項目、安裝IronPDF並使用簡潔的代碼範例來執行文本提取的過程。 在此過程中,我們將強調IronPDF的強大功能,包括其使用.NET創建、操作和轉換PDF文件的能力。 無論您是構建文件大量的應用程序還是僅僅需要高效的PDF處理,本教程都將幫助您入門。

class="hsg-featured-snippet">

如何在C#中從PDF中提取文本

  1. 下載從PDF C#庫中提取文本
  2. 在Visual Studio中創建新項目
  3. 將庫安裝到您的項目中
  4. 從PDF文件中執行文本提取
  5. 從PDF文檔中查看您的文本輸出

1. IronPDF功能

IronPDF是一個強大的PDF轉換器,可以執行瀏覽器幾乎所有的操作。 對於開發人員來說,使用.NET圖書館創建、閱讀和操作PDF文檔變得簡單易行。 IronPDF使用Chrome引擎將HTML轉換為PDF文檔。IronPDF支持HTML、ASPX、Razor HTML和MVC View等其他網頁組件。 IronPDF支持Microsoft .NET應用程序(包括ASP.NET Web應用程序和傳統的Windows應用程序)。 IronPDF還可以用於創建視覺上吸引人的PDF文檔。

我們可以使用IronPDF從HTML5、JavaScript、CSS和圖像創建PDF文檔。 此外,文件可以有頁眉和頁腳。 多虧了IronPDF,我們可以輕鬆地閱讀PDF文檔。 IronPDF還具有全面的PDF轉換引擎和強大的HTML到PDF轉換器,能夠處理PDF文檔。

  • PDF創建:從HTML、JavaScript、CSS、圖像或URL生成PDF。 添加頁眉、頁腳、書簽、水印和其他自定義元素以增強設計。
  • HTML到PDF轉換:直接將HTML、Razor/MVC視圖和媒體類型的CSS文件轉換為PDF格式。
  • 互動式PDF功能:構建、填寫和提交互動式PDF表單
  • 文本和圖像提取:從現有PDF文檔中提取文本或圖像以進行數據處理或重用。
  • 文檔操作:合併、拆分和重新安排新或現有PDF文件中的頁面。
  • 圖像和頁面處理:將PDF頁面光柵化為圖像並將圖像轉換為PDF格式
  • 工作與自定義登錄憑據:IronPDF可以從URL創建文檔。 它還支持自定義網絡登錄憑據、用戶代理、代理、cookie、HTTP頭和
    後HTML登錄表單的登錄
  • 搜索和無障礙性:在PDF文檔中搜索文本並確保它們符合無障礙性標準。
  • 轉換多樣性:將PDF轉換為其他格式,如HTML,並使用CSS文件生成PDF。
  • 獨立功能:無需Adobe Acrobat或其他第三方工具即可獨立運行。

2. 在Visual Studio中創建新項目

打開Visual Studio軟件並移到文件菜單。 選擇“新建項目”,然後選擇“控制台應用程序”。 在本文中,我們將使用控制台應用程序來生成PDF文檔。

C#從PDF中提取文本(代碼示例教程),圖1:在Visual Studio中創建新項目在Visual Studio中創建新項目

在相應的文本框中輸入項目名稱並選擇文件路徑。 然後,單擊創建按鈕並選擇所需的.NET框架,如下面的屏幕截圖所示。

C#從PDF中提取文本(代碼示例教程),圖2:在Visual Studio中配置新項目在Visual Studio中配置新項目

現在,Visual Studio項目將生成所選應用程序的結構,如果您選擇了控制台、Windows和網絡應用程序,它將打開program.cs文件,您可以在其中輸入代碼並構建/運行應用程序。

C#從PDF中提取文本(代碼示例教程),圖3:選擇.NET核心選擇.NET核心

接下來,我們可以添加庫來測試代碼。

3. 安裝 IronPDF 函式庫

可以用四種方式下載並安裝IronPDF庫。

這些是:

  • 使用Visual Studio。
  • 使用Visual Studio命令行。
  • 從NuGet網站直接下載。
  • 從IronPDF網站直接下載。

3.1 使用Visual Studio

Visual Studio軟件提供NuGet包管理器選項以直接將包安裝到解決方案中。 下面的屏幕截圖顯示如何打開NuGet包管理器。

C#從PDF中提取文本(代碼示例教程),圖4:Visual Studio program.cs 文件Visual Studio program.cs 文件

它提供了搜索框,以從NuGet網站顯示包列表。 在包管理器中,我們需要搜索關鍵字“IronPdf”,如下面的屏幕截圖所示。

C#從PDF中提取文本(代碼示例教程),圖5:NuGet包管理器NuGet包管理器

在上面的圖片中,我們可以看到相關搜索項目的列表。 我們需要選擇所需的選項來將包安裝到解決方案中。

3.2 使用Visual Studio命令行

在Visual Studio中,轉到工具 > NuGet包管理器 > 包管理器控制台

在包管理器控制台選項卡中輸入以下行:

Install-Package IronPdf

現在軟件包將下載/安裝到當前項目中,並可供使用。

C#從PDF中提取文本(代碼示例教程),圖6:NuGet包管理器中的IronPdf庫NuGet包管理器中的IronPdf庫

3.3 從NuGet網站直接下載

第三種方法是直接從他們的網站下載IronPDF NuGet包

  • 瀏覽到NuGet上的IronPDF包。
  • 從右側菜單中選擇下載包選項。
  • 雙擊下載的包。 它將自動安裝。
  • 接下來,重新加載解決方案並開始在項目中使用它。

3.4 從IronPDF網站直接下載

訪問IronPDF官方網站,直接從他們的網站下載最新的包。下載後,按照以下步驟將包添加到項目中。

  • 右鍵單擊方案窗口中的項目。
  • 然後,選擇選項參考並瀏覽下載引用的位置。
  • 接下來,單擊確定添加引用。

4. 使用IronPDF提取文本

IronPDF程序允許我們從PDF文件中進行文本提取,並將PDF頁面轉換為PDF對象。 以下是一個如何使用IronPDF閱讀現有PDF的示例。

第一種方法是從PDF中提取文本,下面是示例代碼片段。

using IronPdf;

// Load an existing PDF document from a file
var pdfDocument = PdfDocument.FromFile("result.pdf");

// Extract all text from the entire PDF document
string allText = pdfDocument.ExtractAllText();
using IronPdf;

// Load an existing PDF document from a file
var pdfDocument = PdfDocument.FromFile("result.pdf");

// Extract all text from the entire PDF document
string allText = pdfDocument.ExtractAllText();
Imports IronPdf

' Load an existing PDF document from a file
Private pdfDocument = PdfDocument.FromFile("result.pdf")

' Extract all text from the entire PDF document
Private allText As String = pdfDocument.ExtractAllText()
$vbLabelText   $csharpLabel

FromFile靜態方法用於從現有文件加載PDF文檔,並將其轉換為PDFDocument對象,如上面的代碼所示。 我們可以使用此對象讀取PDF頁面上可訪問的文本和圖像。 該對象有一個名為ExtractAllText的方法,可從整個PDF文檔中提取所有文本,然後將提取的文本保存在可以用於處理的字符串中。

以下是可以使用的第二種方法的代碼示例,可逐頁從PDF文件中提取文本。

using IronPdf;

// Load an existing PDF document from a file
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");

// Loop through each page of the PDF document
for (var index = 0; index < pdf.PageCount; index++)
{
    // Extract text from the current page
    string text = pdf.ExtractTextFromPage(index);
}
using IronPdf;

// Load an existing PDF document from a file
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");

// Loop through each page of the PDF document
for (var index = 0; index < pdf.PageCount; index++)
{
    // Extract text from the current page
    string text = pdf.ExtractTextFromPage(index);
}
Imports IronPdf

' Load an existing PDF document from a file
Private PdfDocument As using

' Loop through each page of the PDF document
For index = 0 To pdf.PageCount - 1
	' Extract text from the current page
	Dim text As String = pdf.ExtractTextFromPage(index)
Next index
$vbLabelText   $csharpLabel

在上面的代碼中,我們看到它將首先加載整個PDF文檔並將其轉換為PDF對象。 然後,我們通過使用一個稱為PageCount的內置屬性來獲得整個PDF文檔的頁數,它檢索加載的PDF文檔中可用的總頁數。 使用“for循環”和ExtractTextFromPage函數,允許我們傳遞頁碼作為參數,從加載的文檔中提取文本。 然後,它將準確的文本保存到字符串變量中。 同樣,它將在“for”或“for each”循環的幫助下逐頁提取PDF頁面上的文本。

5. 總結

IronPDF是一個多功能且強大的PDF庫,專為在.NET應用程序中無縫處理PDF而設計。 其強大功能使開發人員能夠創建、操作和從PDF中提取內容,而不依賴於如Adobe Reader等第三方依賴項。 IronPDF的一大特點是能夠從PDF文檔中提取文本。 此功能對於自動化數據分析、文檔索引、內容遷移和啟用無障礙功能等任務而言是非常有價值的。 通過允許開發人員以編程方式檢索和處理文本,IronPDF簡化了工作流程並為處理PDF內容打開了新的可能性。

通過簡單的集成和跨平台支持,IronPDF是尋求高效處理PDF文檔的開發人員的絕佳選擇。 此外,IronPDF提供免費試用,讓您在承諾之前無風險地探索其全功能範圍。 有關詳細信息和了解更多許可選項,請訪問定價頁面

常見問題解答

如何使用 C# 從 PDF 文件中提取文字?

您可以使用 IronPDF 在 C# 中從 PDF 文件中提取文字。首先,使用PdfDocument.FromFile方法載入 PDF 文件,然後應用ExtractAllText方法從文件中檢索文字。

在 Visual Studio 專案中設定 IronPDF 需要哪些步驟?

若要在 Visual Studio 專案中安裝 IronPDF,您可以透過 NuGet 套件管理器進行安裝。或者,您也可以使用 Visual Studio 命令列,或直接從 NuGet 或 IronPDF 網站下載。

IronPDF有哪些使其成為功能全面的PDF庫的特色?

IronPDF 提供廣泛的功能,包括 PDF 建立、HTML 到 PDF 轉換、文字和影像擷取、文件操作以及對互動式 PDF 表單的支援。

IronPDF 能否用於在 C# 中將 HTML 轉換為 PDF?

是的,IronPDF 可以使用其整合的 Chrome 引擎,將 HTML(包括 Razor/MVC 視圖和媒體類型 CSS 檔案)直接轉換為 PDF 格式。

IronPDF 是否相容於所有類型的 .NET 應用程式?

是的,IronPDF 與 ASP.NET Web 應用程式和傳統 Windows 應用程式都相容,為 .NET 開發人員提供了極大的靈活性。

IronPDF 如何提高 PDF 文件的可存取性?

IronPDF 透過允許使用者在 PDF 文件中搜尋文字並確保其符合無障礙標準來增強可訪問性。

IronPDF 是否需要任何第三方依賴項?

IronPDF 可獨立運行,無需 Adobe Acrobat 等第三方工具,可在 .NET 應用程式中無縫操作 PDF。

使用 IronPDF 從 PDF 擷取文字有哪些優勢?

IronPDF 透過實現程式化文字擷取來簡化工作流程,這對於資料分析、文件索引和內容遷移非常有用。

IronPDF有試用版嗎?

是的,IronPDF 提供免費試用版,讓開發人員在做出購買決定之前可以探索其功能和功能。

在 .NET 應用程式中使用 IronPDF 進行 PDF 管理的重要性是什麼?

IronPDF 功能強大,能夠建立 PDF、提取文字以及將 HTML 轉換為 PDF,無需 Adobe Acrobat 等外部軟體,因此對於 .NET 應用程式中的 PDF 管理至關重要。

本文中的 C# PDF 文字擷取程式碼與 .NET 10 相容嗎?

是的。本教學中的 PdfDocument.FromFile 和 ExtractText 範例在 .NET 10 中的運作方式與在早期 .NET 版本相同。建立 .NET 10 專案後,從 NuGet 安裝最新的 IronPDF 包,即可在現代 .NET 10 應用程式中執行相同的程式碼來讀取 PDF 並擷取文字。

Kye Stuart
技術作家

Kye Stuart 在 Iron Software 將編碼熱情與寫作技能相結合。接受過 Yoobee 學院的软件部署教育,他現在將複雜的技術概念轉化為清晰的教育內容。Kye 重視終身學習,並接受新技術挑戰。

在工作之外,他喜歡 PC 遊戲,並在 Twitch 上進行直播,以及喜好戶外活動如園藝和遛狗 (Jaiya)。Kye 的直截了當風格,使他成為 Iron Software 全球解密技術使命的關鍵人物。