C#將PDF轉換為文字(代碼示例)
本文概述了 .NET 開發人員將 PDF 文件轉換為 TXT 格式以便更有效率存取的過程。
如何使用 C# 將 PDF 轉換為文字文件
- 下載將 PDF 轉換為文字的 C# 庫
- 在 Visual Studio 中創建一個新項目
- 將庫安裝到您的項目中
- 使用 PdfDocument.FromFile 函數打開 PDF 文件
- 查看提取的輸出文字
教程涵蓋的主題
- IronPDF
- 以程式設計方式建立 PDF 檔案的步驟
步驟 1:建立一個 C# 項目
步驟 2:安裝 IronPDF 庫
方法一:NuGet 套件管理器
方法二:NuGet 套件管理器控制台
方法三:使用 DLL 文件
步驟 3:新增 IronPDF 命名空間
步驟 4:將 PDF 轉換為文字
- 輸出
- 結論
IronPDF。
IronPDF 是一個用於產生 PDF 的 .NET 函式庫。 這是一個原生的 .NET 函式庫,不依賴外部 DLL 或其他工具。 IronPDF 是一個以 C# 和 .NET 編寫的跨平台庫,提供了處理 PDF 文件所需的所有功能。 它包含文件渲染、表單編輯、文字提取、文件加密以及其他功能。 所有這些操作都可以透過直覺的 API 執行,該 API 已在 Windows Forms、WPF、ASP.NET MVC 等各種平台上進行了廣泛的測試。
目前版本的 IronPDF 可輕鬆存取以下功能:
文件內部內容(檢視、導覽、註解)的唯讀存取權限:
存取元資料和文件屬性(標題、關鍵字、作者、主題):
IronPDF 還包含一些額外的輔助類,可以幫助將 HTML 文件轉換為格式完整的 PDF 文件並提取文字。 IronPDF 提供非常簡單的 API,可以將 PDF 檔案轉換為文字檔案。
讓我們先來看看如何使用 IronPDF 庫將 PDF 文件轉換為文字檔。
將 PDF 文件轉換為文字檔案的步驟
第一步是在 Visual Studio 中建立一個 C# 專案。 您可以根據需要選擇任何 C# 應用程式範本。 為簡單起見,本教學將使用控制台應用程式範本。 您可以使用現有的 C# 專案將 PDF 檔案轉換為 TXT 檔案。
步驟 1:建立一個 C# 項目
在 Visual Studio 中建立一個 C# 項目,或開啟一個現有項目。 為了獲得流暢的操作體驗,建議使用最新版本的 Visual Studio。 請依照下列步驟在 Visual Studio 中建立一個 C# 專案。
1.開啟 Visual Studio。
- 選擇 C# 控制台應用程式範本或開啟現有專案。
- 給專案取一個合適的名字。
- 選擇 .NET Framework 版本 6.0。這是 .NET 的最新、最穩定的框架,但您可以根據需要選擇任何其他 .NET Framework 版本。
步驟 2:安裝 IronPDF 庫
IronPDF 還具有簡單的安裝過程,這不僅加快了開發速度,也減少了混亂。 IronPDF庫提供了多種安裝方式:
- 使用 NuGet 套件管理器
- 使用 NuGet 套件管理器控制台
- 透過 DLL 文件
方法一:NuGet 套件管理器
若要使用 NuGet 套件管理器,請依照下列步驟開啟套件管理器標籤。
開啟 C# 項目,然後按一下"工具" > "NuGet 套件管理器" > "管理解決方案的 NuGet 套件" 。
C# 將 PDF 轉換為文字(程式碼範例),圖 0:導覽至 NuGet 套件管理器 導覽至 NuGet 套件管理器
- 現在前往"瀏覽"標籤並蒐索IronPDF 。
- 從搜尋結果中選擇 IronPDF,然後按一下"安裝" 。 這將安裝 IronPDF 庫,使該項目能夠與 IronPDF 庫一起使用。
! C# 將 PDF 轉換為文字(程式碼範例),圖 1:從 NuGet 套件管理員搜尋結果中找到的 IronPDF 套件 從 NuGet 套件管理器的搜尋結果中找到 IronPDF 套件
方法二:NuGet 套件管理器控制台
使用軟體套件管理器控制台安裝 IronPDF 庫是最簡單的方法。 請依照以下簡單步驟操作:
- 開啟軟體套件管理器控制台。
- 在控制台中輸入以下代碼並按下回車鍵。 這將立即安裝 IronPDF 庫。
Install-Package IronPdf
! C# 將 PDF 轉換為文字(程式碼範例),圖 2:NuGet 套件管理器控制台 UI 中顯示的安裝進度 NuGet 套件管理器控制台 UI 中顯示的安裝進度
方法三:使用 DLL 文件
您可以從 Iron Software 網站下載IronPDF DLL 檔案。下載完成後,將其作為參考文件新增至您的專案。
請造訪IronPDF 安裝指南以取得更詳細的安裝說明。
IronPDF庫的安裝現已完成。 以下步驟將引導您將 PDF 檔案轉換為文字檔案。
步驟 3:新增 IronPDF 命名空間
要使用 IronPDF,需要在每個代碼檔案中新增 IronPDF 命名空間。在每個相關程式碼檔案的頂部新增以下程式碼行。這將使您能夠在程式中使用 IronPDF 的各項功能。
using IronPdf;
using IronPdf;
Imports IronPdf
步驟 4:將 PDF 文件轉換為文字文件
現在我們需要將 PDF 文件轉換為 TXT 文件或僅提取文字。 所以,請將以下範例程式碼寫入您的程式碼檔案中:
using IronPdf;
using System;
class Program
{
static void Main()
{
// Extracting image and text content from PDF Document
// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
// Display the extracted text in the console
Console.WriteLine(allText);
}
}
using IronPdf;
using System;
class Program
{
static void Main()
{
// Extracting image and text content from PDF Document
// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
// Display the extracted text in the console
Console.WriteLine(allText);
}
}
Imports IronPdf
Imports System
Friend Class Program
Shared Sub Main()
' Extracting image and text content from PDF Document
' Open a 128-bit encrypted PDF
Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
' Get all text to put in a search index
Dim allText As String = pdf.ExtractAllText()
' Display the extracted text in the console
Console.WriteLine(allText)
End Using
End Sub
End Class
首先,使用FromFile function從PdfDocument class開啟 PDF 文件。 在參數中,傳遞檔案名稱和密碼(如果有)。 之後,使用ExtractAllText function從 PDF 文件中提取所有文本,並將其儲存在名為 allText 的變數中。 然後,在控制台中顯示輸出文字。
輸出
C# 將 PDF 轉換為文字(程式碼範例),圖 3:從 PDF 文件中提取的文字 從 PDF 文件中提取的文字
這是 IronPDF 提取的輸出文字。 這與 PDF 文件中顯示的文字相同,表明 IronPDF 的準確性非常高。
結論
本文展示如何使用 IronPDF .NET PDF 庫輕鬆地從 PDF 文件中提取文字。 僅用幾行程式碼就實現了這一點,而且準確率很高。 此外,IronPDF 還具有許多實用功能,例如 HTML 轉 PDF、PDF 格式化工具以及許多其他對 PDF 編輯至關重要的核心 PDF 功能。 IronPDF 也消除了對 Adobe Acrobat 的依賴。
IronPDF 可免費用於開發用途,並提供免費試用版供生產測試使用。 IronPDF 提供多種定價方案,您可以根據自己的需求選擇合適的方案。 IronPDF 的價格比競爭對手的價格低得多。 由於價格從個人用戶到大型企業不等,因此它是一款性價比很高的產品,性能也令人印象深刻。
! C# 將 PDF 轉換為文字(程式碼範例),圖 4:Iron Software 套件的定價方案 Iron Software 套件的定價方案
此外,Iron Software 還提供五款 Iron Software 軟體包,價格僅為兩款軟體包的價格。 請造訪Iron Software 許可詳情頁面以了解更多資訊。
常見問題解答
如何在 C# 應用程序中將 PDF 文檔轉換為文字?
您可以使用 IronPDF 在 C# 應用程序中將 PDF 文檔轉換為文字,方法是使用 PdfDocument.FromFile 來加載 PDF,然後調用 ExtractAllText 方法以檢索文本內容。
在 Visual Studio C# 項目中設置 IronPDF 的過程是什麼?
要在 Visual Studio C# 項目中設置 IronPDF,您需要創建一個新項目,通過 NuGet 包管理器、包管理器控制台或手動添加 DLL 來安裝 IronPDF,然後在您的代碼文件中包含 IronPDF 命名空間。
IronPDF 可以處理加密的 PDF 文件嗎?
是的,IronPDF 可以打開並處理加密的 PDF 文件,允許您從中提取文本內容。
將 PDF 轉換為 TXT 格式有哪些好處?
使用 IronPDF 將 PDF 轉換為 TXT 格式可以更好地訪問和輕鬆處理文本數據,這對需要文本處理或搜索的應用程序有益。
IronPDF 如何確保從 PDF 中提取文本的準確性?
IronPDF 通過保持文本在 PDF 中顯示的完整性來確保高準確性,提供可靠的輸出以進一步處理。
是否提供用于測試 IronPDF 庫的免費試用版?
是的,IronPDF 提供免費試用版用于開發和測試,使您可以在購買之前評估其功能和能力。
IronPDF 為什麼是跨平台開發的合適選擇?
IronPDF 是用 C# 和 .NET 編寫的,這使其成為跨平台開發的合適選擇,不需要額外的外部工具。
IronPDF 能否用於文本提取以外的用途?
是的,IronPDF 提供多種功能,超越了文本提取,包括 PDF 生成、文檔加密、表單處理及 HTML 到 PDF 轉換。
IronPDF 如何支持 .NET 10 進行 PDF 至文字的轉換?
IronPDF 與 .NET 10 完全相容,不需特殊配置即可使用。當您在 .NET 10 中使用 IronPDF 進行 PDF 至文字的轉換時,您將受益於效能提升,如減少堆積分配和運行時改進,從而加快提取速度和更低的記憶體使用。
使用 .NET 10 時,支持哪些平台和專案類型?
IronPDF for .NET 10 支持各種平台,包括 Windows (10+、伺服器)、macOS、Linux 和容器化環境。它適用於專案類型如控制台、桌面(WPF、MAUI)、網頁(MVC、Blazor),並支持 C#、F# 和 VB.NET 語言。



