跳過到頁腳內容
使用IRONPDF
C# 從 PDF 提取文本

C#將PDF轉換為文本(代碼示例)

本文概述了 .NET 開發人員將 PDF 文件轉換為 TXT 格式的過程,以便更高效的訪問。

class="hsg-featured-snippet">

如何使用 C# 將 PDF 轉換為文本文件

  1. 下載將 PDF 轉換為文本的 C# 庫
  2. 在 Visual Studio 中創建一個新項目
  3. 將庫安裝到您的項目中
  4. 使用 PdfDocument.FromFile 函數打開 PDF 文檔
  5. 查看提取的輸出文本

教程中涵蓋的主題

  • IronPDF
  • 編程生成 PDF 文件的步驟
  • 步驟 1:創建一個 C# 項目
  • 步驟 2:安裝 IronPDF 庫
    • 方法 1:NuGet 包管理器
    • 方法 2:NuGet 包管理器控制台
    • 方法 3:使用 DLL 文件
  • 步驟 3:添加 IronPDF 命名空間
  • 步驟 4:將 PDF 轉換為文本
    • 輸出
  • 結論

IronPDF

IronPDF 是一個 .NET 庫,用於生成 PDF。 它是一個本地的 .NET 庫,不依賴外部 DLL 或其他工具。 IronPDF 是一個用 C# 和 .NET 編寫的跨平台庫,提供了處理 PDF 文檔所需的所有功能。 它包含文檔渲染、表單編輯、文本提取、文件加密以及其他功能。 所有這些操作都可以通過一個直觀的 API 執行,該 API 已在 Windows Forms、WPF、ASP.NET MVC 等各種平台上進行了廣泛測試。

IronPDF 的當前版本提供了對這些功能的簡單訪問:

只讀訪問文檔內部(查看、導航、註釋):

訪問元數據和文檔屬性(標題、關鍵字、作者、主題):

IronPDF 還包含一些其他輔助類,有助於將 HTML 文件轉換為完整格式的 PDF 文件並提取文本。 IronPDF 提供了非常簡單的 API,將 PDF 轉換為文本文件。

讓我們開始學習如何使用 IronPDF 庫將 PDF 文檔轉換為文本文件。

將 PDF 文檔轉換為文本文件的步驟

第一步是在 Visual Studio 中創建 C# 項目。 您可以根據需要選擇任何 C# 應用程序模板。 為簡便起見,本教程將使用控制台應用程序模板。 您可以使用已有的 C# 項目進行 PDF 到 TXT 檔案的轉換。

步驟 1:創建 C# 項目

在 Visual Studio 中創建 C# 項目或打開現有項目。 建議使用 Visual Studio 的最新版本以確保流暢運行。 請按照以下步驟在 Visual Studio 中創建 C# 項目。

  1. 打開 Visual Studio。
  2. 選擇 C# 控制台應用程序模板或打開現有項目。
  3. 為項目命名。
  4. 選擇 .NET Framework 版本 6.0。這是 .NET 的最新且最穩定的框架,但您可以根據需要選擇其他 .NET 框架。

步驟 2:安裝 IronPDF 庫

IronPDF 也提供了簡單的安裝過程,這不僅加快了開發速度,還減少了混淆。 IronPDF 庫提供了多種安裝方式:

  • 使用 NuGet 包管理器
  • 使用 NuGet 包管理器 Console
  • 使用 DLL 文件

方法 1:NuGet 包管理器

要使用 NuGet 包管理器,請按照給定的步驟打開包管理器選項卡。

打開 C# 項目,點擊 工具 > NuGet 包管理器 > 管理方案的 NuGet 包

C# 將 PDF 轉換為文本(代碼示例),圖 0:導航到 NuGet 包管理器 導航到 NuGet 包管理器

  • 現在轉到“瀏覽”選項卡並搜索 IronPDF
  • 從搜索結果中選擇 IronPDF,然後點擊安裝。 這將安裝 IronPDF 庫,允許項目與 IronPDF 庫一起使用。

C# 將 PDF 轉換為文本(代碼示例),圖 1:從 NuGet 包管理器的搜索結果中找到 IronPdf 包 從 NuGet 包管理器的搜索結果中找到 IronPdf 包

方法 2:NuGet 包管理器控制台

使用包管理器控制台安裝 IronPDF 庫是最簡單的方法。 請按照這些簡單步驟操作:

  • 打開包管理器控制台。
  • 在控制台中輸入以下行並按回車。 這將立即安裝 IronPDF 庫。
Install-Package IronPdf

C# 將 PDF 轉換為文本(代碼示例),圖 2:NuGet 包管理器控制台 UI 中顯示的安裝進度 NuGet 包管理器控制台 UI 中顯示的安裝進度

方法 3:使用 DLL 文件

您可以從 Iron Software 網站下載 IronPDF DLL 文件。下載完成後,在您的項目中將其作為引用使用。

訪問IronPDF 安裝指南以獲取更詳細的安裝指南。

現在 IronPDF 庫的安裝已完成。 接下來的步驟將指導您將 PDF 文件轉換為文本文件。

步驟 3:添加 IronPDF 命名空間

要使用 IronPDF,必須在每個代碼文件中添加 IronPDF 命名空間。在每個相關代碼文件的頂部寫下以下代碼行。這將允許您在程序中使用 IronPDF 的功能。

using IronPdf;
using IronPdf;
Imports IronPdf
$vbLabelText   $csharpLabel

步驟 4:將 PDF 文檔轉換為文本文件

現在我們必須將 PDF 文件轉換為 TXT 文件或者僅僅提取文本。 因此,在您的代碼文件中編寫以下示例代碼:

using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
Imports IronPdf
Imports System

Friend Class Program
	Shared Sub Main()
		' Extracting image and text content from PDF Document

		' Open a 128-bit encrypted PDF
		Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
	
			' Get all text to put in a search index
			Dim allText As String = pdf.ExtractAllText()
	
			' Display the extracted text in the console
			Console.WriteLine(allText)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

First, open the PDF document using the FromFile function from the PdfDocument class. 在參數中傳遞文件名和密碼(如果有)。 之後,使用ExtractAllText 函數從 PDF 文件中提取所有文本並將其存儲在名為allText的變量中。 然後,在控制台中顯示輸出文本。

輸出

C# 將 PDF 轉換為文本(代碼示例),圖 3:從 PDF 文檔中提取的文本 從 PDF 文檔中提取的文本

這是由 IronPDF 提取的輸出文本。 這與 PDF 文件中看到的文本相同,顯示了 IronPDF 的準確性非常高。

結論

本文展示了如何使用 IronPDF .NET PDF 庫輕鬆地從 PDF 文件中提取文本。 這只需編寫幾行代碼並具備高精確度。 此外,IronPDF 還有許多有用的功能,如 HTML 到 PDF 的轉換、PDF 格式化工具,以及許多其他關鍵的 PDF 功能,對於 PDF 編輯是必不可少的。 IronPDF 還消除了對 Adobe Acrobat 的依賴。

IronPDF 可以免費用於開發用途,還提供生產測試的免費試用版。 IronPDF 提供了各種價格計劃,您可以根據需要選擇。 IronPDF 的價格相較於其他競爭對手顯著較低。 從個人到大型公司的定價變化,使其成為一個具有出色性能的極具吸引力的購買選擇。

C# 將 PDF 轉換為文本(代碼示例),圖 4:Iron Software 套件的定價計劃 Iron Software 套件的定價計劃

此外,Iron Software 提供了僅需兩個價格的 Iron Software 五套包。 如需更多信息,請訪問Iron Software 授權詳細信息

常見問題解答

如何在C#應用程式中將PDF文件轉換為文字?

您可以使用 IronPDF 在 C# 應用程式中將 PDF 文件轉換為文本,方法是使用PdfDocument.FromFile方法載入 PDF,然後呼叫ExtractAllText方法來檢索文字內容。

如何在 Visual Studio C# 專案中設定 IronPDF?

要在 Visual Studio C# 專案中設定 IronPDF,您需要建立一個新項目,透過 NuGet 套件管理器、套件管理器控制台或手動新增 DLL 安裝 IronPDF,然後在程式碼檔案中包含 IronPDF 命名空間。

IronPDF 可以處理加密的 PDF 檔案嗎?

是的,IronPDF 可以開啟和處理加密的 PDF 文件,讓您可以從中提取文字內容。

將PDF轉換為TXT格式有什麼好處?

使用 IronPDF 將 PDF 轉換為 TXT 格式可以更好地存取並更輕鬆地操作文字數據,這對於需要文字處理或搜尋的應用程式來說是有益的。

IronPDF 如何確保從 PDF 檔案中提取文字的準確性?

IronPDF 透過保持 PDF 中文字的完整性,確保文字擷取的高精度,為進一步處理提供可靠的輸出。

IronPDF庫是否提供免費試用版?

是的,IronPDF 提供免費試用版,可用於開發和測試目的,讓您在購買前評估其功能和功能。

IronPDF為何是跨平台開發的理想選擇?

IronPDF 使用 C# 和 .NET 編寫,因此無需額外的外部工具即可進行跨平台開發,是合適的選擇。

IronPDF 除了用於文字擷取之外,還能用於其他用途嗎?

是的,IronPDF 除了文字擷取之外,還提供多種功能,包括 PDF 產生、文件加密、表單處理和 HTML 轉 PDF。

IronPDF 對 .NET 10 的 PDF 轉文字支援程度如何?

IronPDF 與 .NET 10 完全相容,無需任何特殊配置即可開箱即用。在 .NET 10 中使用 IronPDF 將 PDF 轉換為文字時,您可以受益於效能提升,例如減少堆疊記憶體分配和運行時增強功能,從而加快提取速度並降低記憶體佔用。

使用 IronPDF 和 .NET 10 時支援哪些平台和專案類型?

IronPDF for .NET 10 支援多種平台,包括 Windows(10+、Server)、macOS、Linux 和容器環境。它適用於控制台、桌面(WPF、MAUI)、Web(MVC、Blazor)等專案類型,並支援 C#、F# 和 VB.NET 等程式語言。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。