跳至頁尾內容
使用 IRONPDF
C# 從 PDF 提取文本

C# 將 PDF 轉換為文字(程式碼範例)

本文概述了 .NET 開發人員將 PDF 文件轉換為 TXT 格式以便更有效率存取的過程。

教程涵蓋的主題

  • IronPdf
  • 以程式設計方式建立 PDF 檔案的步驟 步驟 1:建立一個 C# 項目 步驟 2:安裝 IronPDF 庫 方法一:NuGet 套件管理器 方法二:NuGet 套件管理器控制台 方法三:使用 DLL 文件 步驟 3:新增 IronPDF 命名空間 步驟 4:將 PDF 轉換為文本
    • 輸出
  • 結論

IronPDF。

IronPDF 是一個用於產生 PDF 的 .NET 函式庫。 這是一個原生的 .NET 函式庫,不依賴外部 DLL 或其他工具。 IronPDF 是一個以 C# 和 .NET 編寫的跨平台庫,提供了處理 PDF 文件所需的所有功能。 它包含文件渲染、表單編輯、文字提取、文件加密以及其他功能。 所有這些操作都可以透過直覺的 API 執行,該 API 已在 Windows Forms、WPF、ASP.NET MVC 等各種平台上進行了廣泛的測試。

目前版本的 IronPDF 可輕鬆存取以下功能:

文件內部內容(檢視、導覽、註解)的唯讀存取權限

存取元資料和文件屬性(標題、關鍵字、作者、主題):

IronPDF 還包含一些額外的輔助類,可以幫助將 HTML 文件轉換為格式完整的 PDF 文件並提取文字。 IronPDF 提供非常簡單的 API,可以將 PDF 檔案轉換為文字檔案。

讓我們先來看看如何使用 IronPDF 庫將 PDF 文件轉換為文字檔。

將 PDF 文件轉換為文字檔案的步驟

第一步是在 Visual Studio 中建立一個 C# 專案。 您可以根據需要選擇任何 C# 應用程式範本。 為簡單起見,本教學將使用控制台應用程式範本。 您可以使用現有的 C# 專案將 PDF 檔案轉換為 TXT 檔案。

步驟 1:建立一個 C# 項目

在 Visual Studio 中建立一個 C# 項目,或開啟一個現有項目。 為了獲得流暢的操作體驗,建議使用最新版本的 Visual Studio。 請依照下列步驟在 Visual Studio 中建立一個 C# 專案。

1.開啟 Visual Studio。

  1. 選擇 C# 控制台應用程式範本或開啟現有專案。
  2. 給專案取一個合適的名字。
  3. 選擇 .NET Framework 版本 6.0。這是 .NET 的最新、最穩定的框架,但您可以根據需要選擇任何其他 .NET Framework 版本。

步驟 2:安裝 IronPDF 庫

IronPDF 還具有簡單的安裝過程,這不僅加快了開發速度,也減少了混亂。 IronPDF庫提供了多種安裝方式:

  • 使用 NuGet 套件管理器
  • 使用 NuGet 套件管理器控制台
  • 透過 DLL 文件

方法一:NuGet 套件管理器

若要使用 NuGet 套件管理器,請依照下列步驟開啟套件管理器標籤。

開啟 C# 項目,然後按一下"工具" > "NuGet 套件管理器" > "管理解決方案的 NuGet 套件"

C# 將 PDF 轉換為文字(程式碼範例),圖 0:導覽至 NuGet 套件管理器 導覽至 NuGet 套件管理器

  • 現在前往"瀏覽"標籤並蒐索IronPDF
  • 從搜尋結果中選擇 IronPDF,然後按一下"安裝" 。 這將安裝 IronPDF 庫,使該項目能夠與 IronPDF 庫一起使用。

! C# 將 PDF 轉換為文字(程式碼範例),圖 1:從 NuGet 套件管理員搜尋結果中找到的 IronPdf 套件 從 NuGet 套件管理器的搜尋結果中找到 IronPdf 套件

方法二:NuGet 套件管理器控制台

使用軟體套件管理器控制台安裝 IronPDF 庫是最簡單的方法。 請依照以下簡單步驟操作:

  • 開啟軟體套件管理器控制台。
  • 在控制台中輸入以下代碼並按下回車鍵。 這將立即安裝 IronPDF 庫。
Install-Package IronPdf

! C# 將 PDF 轉換為文字(程式碼範例),圖 2:NuGet 套件管理器控制台 UI 中顯示的安裝進度 NuGet 套件管理器控制台 UI 中顯示的安裝進度

方法三:使用 DLL 文件

您可以從 Iron Software 網站下載IronPDF DLL 檔案。下載完成後,將其作為參考文件新增至您的專案。

請造訪IronPDF 安裝指南以取得更詳細的安裝說明。

IronPDF庫的安裝現已完成。 以下步驟將引導您將 PDF 檔案轉換為文字檔案。

步驟 3:新增 IronPDF 命名空間

要使用 IronPDF,需要在每個代碼檔案中新增 IronPDF 命名空間。在每個相關程式碼檔案的頂部新增以下程式碼行。這將使您能夠在程式中使用 IronPDF 的各項功能。

using IronPdf;
using IronPdf;
$vbLabelText   $csharpLabel

步驟 4:將 PDF 文件轉換為文字文件

現在我們需要將 PDF 文件轉換為 TXT 文件或僅提取文字。 所以,請將以下範例程式碼寫入您的程式碼檔案中:

using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
$vbLabelText   $csharpLabel

首先,使用PdfDocument class中的FromFile function開啟 PDF 文件。 在參數中,傳遞檔案名稱和密碼(如果有)。 之後,使用ExtractAllText function從 PDF 檔案中提取所有文字並將其儲存在名為allText變數中。 然後,在控制台中顯示輸出文字。

輸出

C# 將 PDF 轉換為文字(程式碼範例),圖 3:從 PDF 文件中提取的文字 從 PDF 文件中提取的文本

這是 IronPDF 提取的輸出文字。 這與 PDF 文件中顯示的文本相同,表明 IronPDF 的準確性非常高。

結論

本文展示如何使用 IronPDF .NET PDF 庫輕鬆地從 PDF 文件中提取文字。 僅用幾行程式碼就實現了這一點,而且準確率很高。 此外,IronPDF 還具有許多實用功能,例如 HTML 轉 PDF、PDF 格式化工具以及許多其他對 PDF 編輯至關重要的核心 PDF 功能。 IronPDF 也消除了對 Adobe Acrobat 的依賴。

IronPDF 可免費用於開發用途,並提供免費試用版供生產測試使用。 IronPDF 提供多種定價方案,您可以根據自己的需求選擇合適的方案。 IronPDF 的價格比競爭對手的價格低得多。 由於價格從個人用戶到大型企業不等,因此它是一款性價比很高的產品,性能也令人印象深刻。

! C# 將 PDF 轉換為文字(程式碼範例),圖 4:Iron Software 套件的定價方案 Iron Software 套件的定價方案

此外,Iron Software 還提供五款 Iron Software 軟體包,價格僅為兩款軟體包的價格。 請造訪Iron Software 許可詳情頁面以了解更多資訊。

常見問題解答

如何在C#應用程式中將PDF文件轉換為文字?

您可以使用 IronPDF 在 C# 應用程式中將 PDF 文件轉換為文本,方法是使用PdfDocument.FromFile方法載入 PDF,然後呼叫ExtractAllText方法來檢索文字內容。

如何在 Visual Studio C# 專案中設定 IronPDF?

要在 Visual Studio C# 專案中設定 IronPDF,您需要建立一個新項目,透過 NuGet 套件管理器、套件管理器控制台或手動新增 DLL 安裝 IronPDF,然後在程式碼檔案中包含 IronPDF 命名空間。

IronPDF 可以處理加密的 PDF 檔案嗎?

是的,IronPDF 可以開啟和處理加密的 PDF 文件,讓您可以從中提取文字內容。

將PDF轉換為TXT格式有什麼好處?

使用 IronPDF 將 PDF 轉換為 TXT 格式可以更好地存取並更輕鬆地操作文字數據,這對於需要文字處理或搜尋的應用程式來說是有益的。

IronPDF 如何確保從 PDF 檔案中提取文字的準確性?

IronPDF 透過保持 PDF 中文字的完整性,確保文字擷取的高精度,為進一步處理提供可靠的輸出。

IronPDF庫是否提供免費試用版?

是的,IronPDF 提供免費試用版,可用於開發和測試目的,讓您在購買前評估其功能和功能。

IronPDF為何是跨平台開發的理想選擇?

IronPDF 使用 C# 和 .NET 編寫,因此無需額外的外部工具即可進行跨平台開發,是合適的選擇。

IronPDF 除了用於文字擷取之外,還能用於其他用途嗎?

是的,IronPDF 除了文字擷取之外,還提供多種功能,包括 PDF 產生、文件加密、表單處理和 HTML 轉 PDF。

IronPDF 對 .NET 10 的 PDF 轉文字支援程度如何?

IronPDF 與 .NET 10 完全相容,無需任何特殊配置即可開箱即用。在 .NET 10 中使用 IronPDF 將 PDF 轉換為文字時,您可以受益於效能提升,例如減少堆疊記憶體分配和運行時增強功能,從而加快提取速度並降低記憶體佔用。

使用 IronPDF 和 .NET 10 時支援哪些平台和專案類型?

IronPDF for .NET 10 支援多種平台,包括 Windows(10+、Server)、macOS、Linux 和容器環境。它適用於控制台、桌面(WPF、MAUI)、Web(MVC、Blazor)等專案類型,並支援 C#、F# 和 VB.NET 等程式語言。

柯蒂斯·週
技術撰稿人

Curtis Chau擁有卡爾頓大學電腦科學學士學位,專長於前端開發,精通Node.js、TypeScript、JavaScript和React。他熱衷於打造直覺美觀的使用者介面,喜歡使用現代框架,並擅長撰寫結構清晰、視覺效果出色的使用者手冊。

除了開發工作之外,柯蒂斯對物聯網 (IoT) 也抱有濃厚的興趣,致力於探索硬體和軟體整合的創新方法。閒暇時,他喜歡玩遊戲和製作 Discord 機器人,將他對科技的熱愛與創造力結合。