跳過到頁腳內容
使用IRONPDF
C# 從 PDF 擷取文字

C#將PDF轉換為文本(代碼示例)

本文概述了 .NET 開發人員將 PDF 文件轉換為 TXT 格式以便更有效率存取的過程。

教程涵蓋的主題

  • IronPdf
  • 以程式設計方式建立 PDF 檔案的步驟 步驟 1:建立一個 C# 項目 步驟 2:安裝 IronPDF 庫 方法一:NuGet 套件管理器 方法二:NuGet 套件管理器控制台 方法三:使用 DLL 文件 步驟 3:新增 IronPDF 命名空間 步驟 4:將 PDF 轉換為文本
    • 輸出
  • 結論

IronPDF。

IronPDF 是一個用於產生 PDF 的 .NET 函式庫。 這是一個原生的 .NET 函式庫,不依賴外部 DLL 或其他工具。 IronPDF 是一個以 C# 和 .NET 編寫的跨平台庫,提供了處理 PDF 文件所需的所有功能。 它包含文件渲染、表單編輯、文字提取、文件加密以及其他功能。 所有這些操作都可以透過直覺的 API 執行,該 API 已在 Windows Forms、WPF、ASP.NET MVC 等各種平台上進行了廣泛的測試。

目前版本的 IronPDF 可輕鬆存取以下功能:

文件內部內容(檢視、導覽、註解)的唯讀存取權限

存取元資料和文件屬性(標題、關鍵字、作者、主題):

IronPDF 還包含一些額外的輔助類,可以幫助將 HTML 文件轉換為格式完整的 PDF 文件並提取文字。 IronPDF 提供非常簡單的 API,可以將 PDF 檔案轉換為文字檔案。

讓我們先來看看如何使用 IronPDF 庫將 PDF 文件轉換為文字檔。

將 PDF 文件轉換為文字檔案的步驟

第一步是在 Visual Studio 中建立一個 C# 專案。 您可以根據需要選擇任何 C# 應用程式範本。 為簡單起見,本教學將使用控制台應用程式範本。 您可以使用現有的 C# 專案將 PDF 檔案轉換為 TXT 檔案。

步驟 1:建立一個 C# 項目

在 Visual Studio 中建立一個 C# 項目,或開啟一個現有項目。 為了獲得流暢的操作體驗,建議使用最新版本的 Visual Studio。 請依照下列步驟在 Visual Studio 中建立一個 C# 專案。

1.開啟 Visual Studio。

  1. 選擇 C# 控制台應用程式範本或開啟現有專案。
  2. 給專案取一個合適的名字。
  3. 選擇 .NET Framework 版本 6.0。這是 .NET 的最新、最穩定的框架,但您可以根據需要選擇任何其他 .NET Framework 版本。

步驟 2:安裝 IronPDF 庫

IronPDF 還具有簡單的安裝過程,這不僅加快了開發速度,也減少了混亂。 IronPDF庫提供了多種安裝方式:

  • 使用 NuGet 套件管理器
  • 使用 NuGet 套件管理器控制台
  • 透過 DLL 文件

方法一:NuGet 套件管理器

若要使用 NuGet 套件管理器,請依照下列步驟開啟套件管理器標籤。

開啟 C# 項目,然後按一下"工具" > "NuGet 套件管理器" > "管理解決方案的 NuGet 套件"

C# 將 PDF 轉換為文字(程式碼範例),圖 0:導覽至 NuGet 套件管理器 導覽至 NuGet 套件管理器

  • 現在前往"瀏覽"標籤並蒐索IronPDF
  • 從搜尋結果中選擇 IronPDF,然後按一下"安裝" 。 這將安裝 IronPDF 庫,使該項目能夠與 IronPDF 庫一起使用。

! C# 將 PDF 轉換為文字(程式碼範例),圖 1:從 NuGet 套件管理員搜尋結果中找到的 IronPdf 套件 從 NuGet 套件管理器的搜尋結果中找到 IronPdf 套件

方法二:NuGet 套件管理器控制台

使用軟體套件管理器控制台安裝 IronPDF 庫是最簡單的方法。 請依照以下簡單步驟操作:

  • 開啟軟體套件管理器控制台。
  • 在控制台中輸入以下代碼並按下回車鍵。 這將立即安裝 IronPDF 庫。
Install-Package IronPdf

! C# 將 PDF 轉換為文字(程式碼範例),圖 2:NuGet 套件管理器控制台 UI 中顯示的安裝進度 NuGet 套件管理器控制台 UI 中顯示的安裝進度

方法三:使用 DLL 文件

您可以從 Iron Software 網站下載IronPDF DLL 檔案。下載完成後,將其作為參考文件新增至您的專案。

請造訪IronPDF 安裝指南以取得更詳細的安裝說明。

IronPDF庫的安裝現已完成。 以下步驟將引導您將 PDF 檔案轉換為文字檔案。

步驟 3:新增 IronPDF 命名空間

要使用 IronPDF,需要在每個代碼檔案中新增 IronPDF 命名空間。在每個相關程式碼檔案的頂部新增以下程式碼行。這將使您能夠在程式中使用 IronPDF 的各項功能。

using IronPdf;
using IronPdf;
Imports IronPdf
$vbLabelText   $csharpLabel

步驟 4:將 PDF 文件轉換為文字文件

現在我們需要將 PDF 文件轉換為 TXT 文件或僅提取文字。 所以,請將以下範例程式碼寫入您的程式碼檔案中:

using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
Imports IronPdf
Imports System

Friend Class Program
	Shared Sub Main()
		' Extracting image and text content from PDF Document

		' Open a 128-bit encrypted PDF
		Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
	
			' Get all text to put in a search index
			Dim allText As String = pdf.ExtractAllText()
	
			' Display the extracted text in the console
			Console.WriteLine(allText)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

首先,使用PdfDocument class中的FromFile function開啟 PDF 文件。 在參數中,傳遞檔案名稱和密碼(如果有)。 之後,使用ExtractAllText function從 PDF 檔案中提取所有文字並將其儲存在名為allText變數中。 然後,在控制台中顯示輸出文字。

輸出

C# 將 PDF 轉換為文字(程式碼範例),圖 3:從 PDF 文件中提取的文字 從 PDF 文件中提取的文本

這是 IronPDF 提取的輸出文字。 這與 PDF 文件中顯示的文本相同,表明 IronPDF 的準確性非常高。

結論

本文展示如何使用 IronPDF .NET PDF 庫輕鬆地從 PDF 文件中提取文字。 僅用幾行程式碼就實現了這一點,而且準確率很高。 此外,IronPDF 還具有許多實用功能,例如 HTML 轉 PDF、PDF 格式化工具以及許多其他對 PDF 編輯至關重要的核心 PDF 功能。 IronPDF 也消除了對 Adobe Acrobat 的依賴。

IronPDF 可免費用於開發用途,並提供免費試用版供生產測試使用。 IronPDF 提供多種定價方案,您可以根據自己的需求選擇合適的方案。 IronPDF 的價格比競爭對手的價格低得多。 由於價格從個人用戶到大型企業不等,因此它是一款性價比很高的產品,性能也令人印象深刻。

! C# 將 PDF 轉換為文字(程式碼範例),圖 4:Iron Software 套件的定價方案 Iron Software 套件的定價方案

此外,Iron Software 還提供五款 Iron Software 軟體包,價格僅為兩款軟體包的價格。 請造訪Iron Software 許可詳情頁面以了解更多資訊。

常見問題解答

如何在 C# 應用程式中將 PDF 文件轉換為文字?

您可以使用 IronPDF 在 C# 應用程式中將 PDF 文件轉換為文字,方法是使用 PdfDocument.FromFile 方法載入 PDF,然後調用 ExtractAllText 方法擷取文字內容。

在 Visual Studio C# 專案中設定 IronPDF 的流程為何?

要在 Visual Studio C# 專案中設定 IronPDF,您需要建立一個新專案,透過 NuGet 套件管理員、套件管理員控制台或手動新增 DLL 安裝 IronPDF,然後在程式碼檔案中包含 IronPDF 命名空間。

IronPDF 可以處理加密的 PDF 檔案嗎?

是的,IronPDF 可以開啟和處理加密的 PDF 檔案,讓您可以從中擷取文字內容。

將 PDF 轉換成 TXT 格式有哪些好處?

使用 IronPDF 將 PDF 轉換為 TXT 格式,可以讓您更容易存取和操作文字資料,這對需要處理文字或搜尋的應用程式非常有利。

IronPDF 如何確保從 PDF 中提取文字的準確性?

IronPDF 可確保文字擷取的高準確性,維持文字在 PDF 中顯示的完整性,為進一步處理提供可靠的輸出。

是否提供免費試用版以測試 IronPDF 函式庫?

是的,IronPDF 提供用於開發和測試的免費試用版,讓您可以在購買前評估其特色和功能。

是什麼讓 IronPDF 成為跨平台開發的合適選擇?

IronPDF 以 C# 和 .NET 寫成,因此適合跨平台開發,不需要額外的外部工具。

IronPDF 可否用於文字擷取以外的用途?

是的,IronPDF 提供文本提取以外的各種功能,包括 PDF 生成、文件加密、表單處理以及 HTML 到 PDF 的轉換。

IronPDF 在 PDF 到文本的轉換方面對 .NET 10 的支援程度如何?

IronPDF 與 .NET 10 完全相容,開箱即支援 .NET 10,無需任何特殊設定。當您在 .NET 10 中使用 IronPDF 將 PDF 轉換為文字時,您將受惠於效能的提升,例如減少堆分配以及強化運行時間,以達到更快速的萃取與更精簡的記憶體使用。

IronPDF for .NET 10 支持哪些平台和项目类型?

IronPDF for .NET 10 支援多種平台,包括 Windows (10+、Server)、macOS、Linux 和容器環境。它適用於 Console、Desktop (WPF、MAUI)、Web (MVC、Blazor) 等專案類型,並支援 C#、F# 和 VB.NET 等語言。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。