使用 IRONPDF

C# 轉換 PDF 為文字(代碼範例)

已更新 2024年2月8日
分享:

本文概述了.NET開發人員將PDF文件轉換為TXT格式以提高訪問效率的過程。

教程涵蓋的主題

  • IronPDF
  • 編程方式創建PDF文件的步驟
  • 步驟1:創建一個C#項目
  • 步驟2:安裝IronPDF庫

    • 方法1:NuGet包管理器

    • 方法2:NuGet包管理器控制台
  • 方法3:使用DLL文件
  • 步驟3:添加IronPDF命名空間
  • 步驟4:將PDF轉換為文本
  • 輸出
  • 結論

IronPDF

IronPDF 是一個用於生成 PDF 的 .NET 庫。它是一個原生的 .NET 庫,無需依賴外部的 DLL 或其他工具。IronPDF 是由 C# 和 .NET 編寫而成的跨平台庫,提供所有處理 PDF 文檔所需的功能。它包含文檔渲染、表單編輯、文本提取、文件加密等多種特性。所有這些操作都可以通過一個直觀的 API 來完成,該 API 已經在各種平台上進行了廣泛的測試,如 Windows Forms、WPF、ASP.NET MVC 等。

目前版本的 IronPDF 能夠簡便地訪問以下功能: PDF 生成

唯讀訪問 到文件內部 (視圖, 導覽, 註釋)訪問 元数据和文档属性 (標題, 關鍵字, 作者, 主題)IronPDF 也包含一些額外的輔助類別,以協助 將 HTML 文件轉換為完整格式的 PDF 檔案 使用文字提取功能。IronPDF 提供非常簡單的 API 將 PDF 轉換為文字檔。

讓我們開始說明如何使用 IronPDF 庫將 PDF 文件轉換為文字檔。

將 PDF 文件轉換為文本文件的步驟

第一步是在 Visual Studio 中創建一個 C# 專案。您可以根據需要選擇任何 C# 應用程式範本。為了簡單起見,本教程將使用控制台應用範本。您也可以使用已存在的 C# 專案來轉換 PDF 為 TXT 文件。

步驟 1:建立 C# 專案

在 Visual Studio 中建立 C# 專案或打開現有專案。建議使用 Visual Studio 的最新版本以確保順利運作。請按照以下步驟在 Visual Studio 中建立 C# 專案。

  1. 打開 Visual Studio。

  2. 選擇 C# 主控台應用程式範本或打開現有專案。

  3. 為專案命名。

  4. 選擇 .NET Framework 版本 6.0。這是 .NET 的最新且最穩定的框架,但您也可以根據需求選擇其他 .NET Framework 版本。

步驟 2:安裝 IronPDF 庫

IronPDF 還具有簡單的安裝過程,這不僅加快了開發速度,還減少了混亂。IronPDF 庫提供多種安裝方式:

  • 使用 NuGet 套件管理器
  • 使用 NuGet 套件管理器控制台
  • 通過 DLL 檔案

方法 1:NuGet 套件管理器

使用 NuGet 套件管理器,請按照以下步驟開啟套件管理器標籤。

開啟 C# 專案,然後點擊 工具 > NuGet 套件管理器 > 為解決方案管理 NuGet 套件

C# 將 PDF 轉換為文本(代碼示例),圖 0:導航至 NuGet 套件管理器

前往 NuGet 套件管理器

  • 現在前往「瀏覽」標籤並搜尋 IronPDF
  • 從搜尋結果中選擇 IronPDF,然後點擊 安裝。這將安裝 IronPDF 庫,允許專案使用 IronPDF 庫。

C# 將 PDF 轉換為文本 (代碼範例), 圖1:NuGet 包管理器搜尋結果中的 IronPDF 套件

NuGet Package Manager 搜尋結果中的 IronPdf 套件

方法二:NuGet 套件管理主控台

使用套件管理主控台安裝 IronPDF 庫是最簡單的方式。請按照以下簡單步驟進行:

  • 打開套件管理主控台。
  • 在主控台中輸入以下行並按下 Enter 鍵。這將立即安裝 IronPDF 庫。
Install-Package IronPdf

C# 轉換 PDF 為文本(代碼示例),圖 2:在 NuGet 套件管理員控制台 UI 中顯示的安裝進度

在 NuGet 套件管理器主控台 UI 中顯示的安裝進度

方法 3:使用 DLL 文件

您可以下載 DLL 檔案 從 Iron Software 網站下載。一旦下載完成,請在您的專案中用作參考。

造訪 安裝頁面 更詳細的安裝指南。

IronPDF 庫的安裝現已完成。以下步驟將指導您將 PDF 文件轉換為文本文件。

步驟 3: 添加 IronPDF 命名空間

要使用 IronPDF,需要在每個程式碼檔案中添加 IronPDF 命名空間。在每個相關的程式碼檔案頂部寫下以下程式碼行。這將使您能夠在程式中使用 IronPDF 的功能。

using IronPdf;
using IronPdf;
Imports IronPdf
VB   C#
using IronPdf;
using IronPdf;
Imports IronPdf
VB   C#

步驟4:將 PDF 文件轉換為文本文件

現在我們需要將 PDF 文件轉換為 TXT 文件或僅提取文本。因此,請將以下示例代碼寫入您的代碼文件中:

using IronPdf;
using System.Drawing;

// Extracting image and text content from PDF Document

// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
using IronPdf;
using System.Drawing;

// Extracting image and text content from PDF Document

// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
Imports IronPdf
Imports System.Drawing

' Extracting image and text content from PDF Document

' Open a 128-bit encrypted PDF
Private PdfDocument As using
' Get all text to put in a search index
Private allText As String = pdf.ExtractAllText()
Console.WriteLine(allText)
VB   C#

首先,使用 IronPDF 打開 PDF 文件 從文件 功能來自 PdfDocument 在參數中,傳遞檔案名稱與密碼 (如果有)之後,使用 提取所有文字 從 PDF 檔案中提取所有文字並將其存儲在名為 allText 的變數中。接著,在控制台顯示輸出文字

輸出

C# 將 PDF 轉換為文字(代碼示例),圖 3:從 PDF 文件中提取的文字

從 PDF 文件提取的文本

這是由 IronPDF 提取的輸出文本。它與 PDF 文件中看到的文本相同,顯示了 IronPDF 的精確度非常高。

結論

這篇文章展示了如何使用IronPDF .NET PDF庫輕鬆地從PDF文件中提取文字。這僅需撰寫幾行代碼且具有高精確度。此外,IronPDF還有許多實用功能,如HTML轉PDF轉換、PDF格式化工具以及許多重要的核心PDF功能,對於PDF編輯至關重要。IronPDF還消除了對Adobe Acrobat的依賴。

IronPDF對於開發用途是免費的,還提供了一個 免費試用 用於生產測試。IronPDF 提供各種定價方案,可根據您的需求選購。IronPDF 的價格相對於競爭對手顯著降低。從個人到大型企業的定價多樣化,IronPDF 以其出色的性能成為一個具有吸引力的購買選擇。

C# 將 PDF 轉換為文字 (程式碼範例),圖 4: Iron Software 套件的定價方案

Iron Software 套件的定價計畫

此外,Iron Software 提供五個 Iron Software 套件,以兩個的價格銷售。請造訪 授權頁面 以獲取更多詳情。

< 上一頁
將位元組陣列儲存為 PDF C# (程式碼範例)
下一個 >
如何將多頁掃描成一個 PDF 檔案

準備開始了嗎? 版本: 2024.10 剛剛發布

免費 NuGet 下載 總下載次數: 10,993,239 查看許可證 >