使用 IRONPDF

C# 轉換 PDF 為文字(代碼範例)

已更新 2024年2月8日
分享:

本文概述了.NET開發人員將PDF文件轉換為TXT格式以提高訪問效率的過程。

教程中涵蓋的主題

  • IronPDF
  • 以程式方式建立 PDF 文件的步驟
  • 步驟 1:建立一個 C# 專案
  • 步驟 2:安裝 IronPDF 函式庫

    • 方法一:NuGet 套件管理員

    • 方法 2:NuGet 套件管理器主控台
  • 方法三:使用 DLL 檔案
  • 步驟 3:添加 IronPDF 命名空間
  • 步驟 4:將 PDF 轉換為文字
  • 輸出
  • 結論

IronPDF

IronPDF 是一個用於 PDF 生成的 .NET 庫。 它是一個原生 .NET 函式庫,不依賴於外部 DLL 或其他工具。 IronPDF 是一個使用 C# 和 .NET 編寫的跨平台庫,提供處理 PDF 文件所需的所有功能。 它包含文件渲染、表單編輯、文本提取、文件加密以及其他功能。 所有這些操作都可以通過直觀的 API 來執行,該 API 已在各種平台上進行了廣泛測試,例如 Windows Forms、WPF、ASP.NET MVC 等。

IronPDF 的當前版本提供對這些功能的簡單訪問:

*PDF 生成

*PDF 加密

*PDF 表單欄位使用模板和驗證邏輯

*文字提取來自PDFs(光學字符識別)

將 PDF 文件轉換為文本文件的步驟

第一步是在 Visual Studio 中創建一個 C# 專案。 您可以根據您的需求選擇任何 C# 應用程式模板。 為簡化起見,本教程將使用控制台應用程式範本。 您可以使用現有的 C# 專案來將 PDF 轉換為 TXT 文件。

步驟 1:建立 C# 專案

在 Visual Studio 中建立一個 C# 專案或打開現有的專案。 建議使用最新版本的 Visual Studio 以確保運行順暢。 請遵循以下步驟在 Visual Studio 中創建一個 C# 項目。

  1. 打開 Visual Studio。

  2. 選擇 C# 主控台應用程式模板或打開現有專案。

  3. 為專案取一個合適的名稱。

  4. 選擇 .NET Framework 版本 6.0。這是 .NET 的最新和最穩定的框架,但您可以根據需求選擇其他的 .NET Framework。

步驟 2:安裝 IronPDF 函式庫

IronPDF 還具有簡便的安裝過程,能加快開發時間並減少混淆。 IronPDF 庫提供多種安裝方式:

  • 使用 NuGet 套件管理器
  • 使用 NuGet 套件管理器控制台
  • 通過 DLL 文件

方法一:NuGet 套件管理員

要使用 NuGet 套件管理器,請按照給定步驟打開套件管理器選項卡。

打開 C# 專案並點擊 工具 > NuGet 套件管理員 > 管理方案的 NuGet 套件

C# 將 PDF 轉換為文本(代碼示例),圖 0:導航至 NuGet 套件管理器

導航至 NuGet 套件管理器

  • 現在前往瀏覽標籤頁搜尋IronPDF
  • 從搜尋結果中選擇IronPDF並點擊 Install。 這將安裝 IronPDF 庫,允許專案與 IronPDF 庫一起使用。

    C# 將 PDF 轉換為文本 (代碼範例), 圖1:NuGet 包管理器搜尋結果中的 IronPDF 套件

    NuGet 套件管理器的 IronPdf 套件搜尋結果

方法 2:NuGet 套件管理器主控台

使用套件管理器控制台安裝IronPDF庫是最簡單的方法。 按照以下簡單步驟操作:

  • 開啟套件管理員主控台。
  • 在控制台中輸入以下行並按 Enter 鍵。 這將立即安裝IronPDF庫。
Install-Package IronPdf

C# 轉換 PDF 為文本(代碼示例),圖 2:在 NuGet 套件管理員控制台 UI 中顯示的安裝進度

NuGet 套件管理器控制台 UI 中顯示的安裝進度

方法三:使用 DLL 檔案

您可以下載該IronPDF DLL 檔案從 Iron Software 網站下載。一旦下載完成,在您的項目中用作參考。

訪問IronPDF 安裝指南如需更詳細的安裝指南。

IronPDF 資料庫的安裝現已完成。 以下步驟將指導您將 PDF 文件轉換為文本文件。

步驟 3:添加 IronPDF 命名空間

要使用 IronPDF,有必要在每個程式碼檔案中加入 IronPDF 命名空間。在每個相關程式碼檔案的頂部寫下以下程式碼行。這將使您能夠在程序中使用 IronPDF 的功能。

using IronPdf;
using IronPdf;
Imports IronPdf
VB   C#

步驟 4:將 PDF 文件轉換為文本文件

現在我們必須將 PDF 文件轉換為 TXT 文件或僅提取文字。 將以下範例代碼寫入您的代碼文件:

using IronPdf;
using System.Drawing;

// Extracting image and text content from PDF Document

// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
using IronPdf;
using System.Drawing;

// Extracting image and text content from PDF Document

// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
Imports IronPdf
Imports System.Drawing

' Extracting image and text content from PDF Document

' Open a 128-bit encrypted PDF
Private PdfDocument As using
' Get all text to put in a search index
Private allText As String = pdf.ExtractAllText()
Console.WriteLine(allText)
VB   C#

首先,使用 IronPDF 打開 PDF 文件FromFile 函數來自PdfDocument 類別. 在參數中,傳遞檔案名稱和密碼(如果有). 之後,使用ExtractAllText 函數將所有文本從 PDF 文件中提取並存儲在名為 allText 的變數中。 接著,在控制台中顯示輸出文本。

輸出

C# 將 PDF 轉換為文字(代碼示例),圖 3:從 PDF 文件中提取的文字

從 PDF 文件中提取的文字

這是由IronPDF提取的輸出文本。 這與 PDF 文件上看到的文本相同,顯示了 IronPDF 的準確性非常精確。

結論

本文展示如何使用IronPDF .NET PDF庫輕鬆從PDF文件中提取文本。 這是通過僅編寫幾行程式碼並具有高準確率來完成的。 此外,IronPDF 還具有許多實用功能,例如 HTML 轉換為 PDF、PDF 排版工具,以及許多對於 PDF 編輯至關重要的核心 PDF 功能。 IronPDF 也消除了對 Adobe Acrobat 的依賴。

IronPDF 在開發用途中免費,並且還提供一個免費試用用于生产测试。 IronPDF 提供多種定價方案,您可以根據需求選擇。 IronPDF 的價格相較於競爭對手相對顯著地更低。 從個人到大型企業的價格變化,讓該產品成為引人注目的購買選擇,其性能令人印象深刻。

C# 將 PDF 轉換為文字 (程式碼範例),圖 4: Iron Software 套件的定價方案

Iron Software 套件的價格方案

此外,Iron Software 提供五款 Iron Software 套件組合,以僅兩款的價格購買。 請訪問Iron Software 授權細節更多資訊。

< 上一頁
將位元組陣列儲存為 PDF C# (程式碼範例)
下一個 >
如何將多頁掃描成一個 PDF 檔案

準備開始了嗎? 版本: 2024.12 剛剛發布

免費 NuGet 下載 總下載次數: 11,622,374 查看許可證 >