跳過到頁腳內容
使用IRONPDF
C# 從 PDF 中提取文本

C#將PDF轉換為文本(代碼示例)

本文概述了.NET開發人員將 PDF 檔案轉換為 TXT 格式以便更有效率存取的過程。

教程涵蓋的主題

  • IronPDF
  • 以程式設計方式建立 PDF 檔案的步驟 步驟 1:建立一個 C# 項目 步驟 2:安裝IronPDF庫 方法一: NuGet套件管理器 方法二: NuGet套件管理器控制台 方法三:使用 DLL 文件 步驟 3:新增IronPDF命名空間 步驟 4:將 PDF 轉換為文本
    • 輸出
  • 結論

IronPDF

IronPDF是一個用於產生 PDF 的.NET函式庫。 這是一個原生的.NET函式庫,不依賴外部 DLL 或其他工具。 IronPDF是一個用 C# 和.NET編寫的跨平台庫,提供了處理 PDF 文件所需的所有功能。 它包含文件渲染、表單編輯、文字提取、文件加密以及其他功能。 所有這些操作都可以透過直覺的 API 執行,該 API 已在 Windows Forms、WPF、 ASP.NET MVC 等各種平台上進行了廣泛的測試。

目前版本的IronPDF可輕鬆存取以下功能:

文件內部內容(檢視、導覽、註解)的唯讀存取權限

存取元資料和文件屬性(標題、關鍵字、作者、主題):

IronPDF還包含一些額外的輔助類,可以幫助將 HTML 文件轉換為格式完整的 PDF 文件並提取文字。 IronPDF提供非常簡單的 API,可以將 PDF 檔案轉換為文字檔案。

我們先來看看如何使用IronPDF庫將 PDF 文件轉換為文字檔。

將 PDF 文件轉換為文字檔案的步驟

第一步是在 Visual Studio 中建立一個 C# 專案。 您可以根據需要選擇任何 C# 應用程式範本。 為簡單起見,本教學將使用控制台應用程式範本。 您可以使用現有的 C# 專案將 PDF 檔案轉換為 TXT 檔案。

步驟 1:建立一個 C# 項目

在 Visual Studio 中建立一個 C# 項目,或開啟一個現有項目。 為了獲得流暢的操作體驗,建議使用最新版本的 Visual Studio。 請依照下列步驟在 Visual Studio 中建立一個 C# 專案。

  1. 開啟 Visual Studio。
  2. 選擇 C# 控制台應用程式範本或開啟現有專案。
  3. 給專案取一個合適的名字。
  4. 選擇.NET Framework版本 6.0。這是.NET的最新、最穩定的框架,但您可以根據需要選擇任何其他.NET Framework。

步驟 2:安裝IronPDF庫

IronPDF還具有簡單的安裝過程,這不僅加快了開發速度,也減少了混亂。 IronPDF庫提供了多種安裝方式:

  • 使用NuGet套件管理器
  • 使用NuGet套件管理器控制台
  • 透過 DLL 文件

方法一: NuGet套件管理器

若要使用NuGet套件管理器,請依照下列步驟開啟套件管理器標籤。

開啟 C# 項目,然後按一下"工具" > "NuGet套件管理器" > "管理解決方案的NuGet套件"

C# 將 PDF 轉換為文字(程式碼範例),圖 0:導覽至NuGet套件管理器 導航至NuGet套件管理器

  • 現在前往"瀏覽"標籤並蒐索IronPDF
  • 從搜尋結果中選擇IronPDF ,然後按一下"安裝" 。 這將安裝IronPDF庫,使該專案能夠與IronPDF庫一起使用。

C# 將 PDF 轉換為文字(程式碼範例),圖 1:從NuGet套件管理器搜尋結果中找到的 IronPDF套件 從NuGet包管理器的搜尋結果中IronPDF包

方法二: NuGet套件管理器控制台

使用軟體套件管理器控制台安裝IronPDF庫是最簡單的方法。 請依照以下簡單步驟操作:

  • 開啟軟體套件管理器控制台。
  • 在控制台中輸入以下代碼並按下回車鍵。 這將立即安裝IronPDF庫。
Install-Package IronPdf

C# 將 PDF 轉換為文字(程式碼範例),圖 2: NuGet套件管理器控制台 UI 中顯示的安裝進度 NuGet套件管理器控制台 UI 中顯示的安裝進度

方法三:使用 DLL 文件

您可以從Iron Software網站下載IronPDF DLL 檔案。下載完成後,將其作為參考文件新增至您的專案。

請造訪IronPDF安裝指南以取得更詳細的安裝說明。

IronPDF庫的安裝現已完成。 以下步驟將引導您將 PDF 檔案轉換為文字檔案。

步驟 3:新增IronPDF命名空間

要使用IronPDF,需要在每個程式碼檔案中新增IronPDF命名空間。在每個相關程式碼檔案的頂部新增以下程式碼行。這將使您能夠在程式中使用IronPDF的各項功能。

using IronPdf;
using IronPdf;
$vbLabelText   $csharpLabel

步驟 4:將 PDF 文件轉換為文字文件

現在我們需要將 PDF 文件轉換為 TXT 文件或僅提取文字。 所以,請將以下範例程式碼寫入您的程式碼檔案中:

using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
$vbLabelText   $csharpLabel

首先,使用FromFile functionPdfDocument class開啟 PDF 文件。 在參數中,傳遞檔案名稱和密碼(如果有)。 之後,使用ExtractAllText function從 PDF 文件中提取所有文本,並將其儲存在名為 allText 的變數中。 然後,在控制台中顯示輸出文字。

輸出

C# 將 PDF 轉換為文字(程式碼範例),圖 3:從 PDF 文件中擷取的文字 從 PDF 文件中提取的文本

這是IronPDF提取的輸出文字。 這與 PDF 文件中顯示的文本相同,表明IronPDF的準確性非常高。

結論

本文展示如何使用IronPDF .NET PDF 程式庫輕鬆地從 PDF 文件中提取文字。 僅用幾行程式碼就實現了這一點,而且準確率很高。 此外, IronPDF還具有許多實用功能,例如 HTML 轉 PDF、PDF 格式化工具以及許多其他對 PDF 編輯至關重要的核心 PDF 功能。 IronPDF也消除了對 Adob​​e Acrobat 的依賴。

IronPDF可免費用於開發用途,並提供免費試用版供生產測試使用。 IronPDF提供多種定價方案,您可以根據自己的需求選擇合適的方案。 IronPDF的價格比其競爭對手的價格低得多。 由於價格從個人用戶到大型企業不等,因此它是一款性價比很高的產品,性能也令人印象深刻。

C# 將 PDF 轉換為文字(程式碼範例),圖 4:Iron Software 套件的定價方案 Iron Software 套件的定價方案

此外, Iron Software還提供五款Iron Software軟體包,價格僅為兩款軟體包的價格。 請造訪Iron Software許可詳情頁面以了解更多資訊。

常見問題解答

如何在 C# 應用程序中將 PDF 文檔轉換為文字?

您可以使用 IronPDF 在 C# 應用程序中將 PDF 文檔轉換為文字,方法是使用 PdfDocument.FromFile 來加載 PDF,然後調用 ExtractAllText 方法以檢索文本內容。

在 Visual Studio C# 項目中設置 IronPDF 的過程是什麼?

要在 Visual Studio C# 項目中設置 IronPDF,您需要創建一個新項目,通過 NuGet 包管理器、包管理器控制台或手動添加 DLL 來安裝 IronPDF,然後在您的代碼文件中包含 IronPDF 命名空間。

IronPDF 可以處理加密的 PDF 文件嗎?

是的,IronPDF 可以打開並處理加密的 PDF 文件,允許您從中提取文本內容。

將 PDF 轉換為 TXT 格式有哪些好處?

使用 IronPDF 將 PDF 轉換為 TXT 格式可以更好地訪問和輕鬆處理文本數據,這對需要文本處理或搜索的應用程序有益。

IronPDF 如何確保從 PDF 中提取文本的準確性?

IronPDF 通過保持文本在 PDF 中顯示的完整性來確保高準確性,提供可靠的輸出以進一步處理。

是否提供用于測試 IronPDF 庫的免費試用版?

是的,IronPDF 提供免費試用版用于開發和測試,使您可以在購買之前評估其功能和能力。

IronPDF 為什麼是跨平台開發的合適選擇?

IronPDF 是用 C# 和 .NET 編寫的,這使其成為跨平台開發的合適選擇,不需要額外的外部工具。

IronPDF 能否用於文本提取以外的用途?

是的,IronPDF 提供多種功能,超越了文本提取,包括 PDF 生成、文檔加密、表單處理及 HTML 到 PDF 轉換。

IronPDF 如何支持 .NET 10 進行 PDF 至文字的轉換?

IronPDF 與 .NET 10 完全相容,不需特殊配置即可使用。當您在 .NET 10 中使用 IronPDF 進行 PDF 至文字的轉換時,您將受益於效能提升,如減少堆積分配和運行時改進,從而加快提取速度和更低的記憶體使用。

使用 .NET 10 時,支持哪些平台和專案類型?

IronPDF for .NET 10 支持各種平台,包括 Windows (10+、伺服器)、macOS、Linux 和容器化環境。它適用於專案類型如控制台、桌面(WPF、MAUI)、網頁(MVC、Blazor),並支持 C#、F# 和 VB.NET 語言。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me