使用 IRONPDF

C# 從 PDF 中提取文字(代碼範例教程)

已更新 2023年12月3日
分享:

可攜式文件格式(Portable Document Format,PDF)文件在各行各業中都有使用。在開發文件時,開發人員使用PDF格式來協助他們的客戶。由於現代的庫,創建PDF從未如此簡單。我們必須評估構建、閱讀和轉換等元素,以確定在項目中使用哪個商業庫是最佳選擇。

1. IronPDF 功能

IronPDF 是一個強大的 PDF 轉換器,幾乎可以執行瀏覽器能夠完成的任何操作。使用這個供開發人員使用的 .NET 函式庫,創建、讀取和操作 PDF 文件都非常簡單。IronPDF 使用 Chrome 引擎將 HTML 轉換為 PDF 文件。IronPDF 支援 HTML、ASPX、Razor HTML 和 MVC View 等網頁元件。IronPDF 支援 Microsoft .NET 應用程式 (ASP.NET 網頁應用程式和傳統的 Windows 應用程式). IronPDF 也可以用來創建一個視覺上吸引人的 PDF 文件。

我們可以使用 IronPDF 從 HTML5、JavaScript、CSS 和圖像製作 PDF 文檔。此外,文件可以有頁眉和頁腳。多虧了 IronPDF,我們可以輕鬆地閱讀 PDF 文件。IronPDF 還具有全面的 PDF 轉換引擎和強大的 HTML-to-PDF 轉換器,可以處理 PDF 文件。

  • 可以用來創建 PDF 文件的來源包括 HTML、HTML5、ASPX,和 Razor/MVC 視圖我們不僅可以將HTML文件轉換為PDF,還可以 將圖像文件轉換為PDF
  • IronPDF 允許您建立互動式 PDF 文件,填寫並提交互動表單, 合併和分割 PDF 文件,從 PDF 文件中提取文本和圖像,搜尋 PDF 文件中的文本,將 PDF 頁面光柵化為圖像,將 PDF 轉換為 HTML,並打印 PDF 文件。
  • IronPDF 能夠從 URL 創建文檔。它還支持自定義網路登錄憑證、用戶代理、代理伺服器、Cookie、HTTP 標頭和表單變數 在 HTML 登入表單後登入.
  • IronPDF 是一個程序,讓您可以查看和 填寫 PDF 文件.
  • 可以使用 IronPDF 從文件中提取圖片。
  • IronPDF 允許我們自定義文件 標頭, 頁尾, 文字, 圖片, 書籤, 浮水印,以及更多。
  • 我們可以使用IronPDF合併和拆分新文件或現有文件中的頁面。
  • 不使用Acrobat檢視器,我們可以將文件轉換為PDF對象。
  • 可以將CSS文件轉換為PDF文件。
  • 媒體類型的CSS文件可以轉換為文檔。

2. 在 Visual Studio 中創建一個新項目

打開 Visual Studio 軟體,進入文件菜單。選擇「新建項目」,然後選擇「控制台應用程序」。在本文中,我們將使用控制台應用程序來生成 PDF 文件。

C# 從 PDF 中提取文字(代碼示例教程),圖 1:在 Visual Studio 中創建一個新項目

在 Visual Studio 中建立新專案

輸入專案名稱並在相應的文字框中選擇檔案路徑。然後,點擊Create按鈕並選擇所需的 .NET Framework,如下圖所示。

C# 從 PDF 中提取文本(代碼示例教程),圖 2:在 Visual Studio 中配置新項目

在 Visual Studio 中配置新專案

Visual Studio 專案現在將為所選應用程式生成結構,如果你選擇了控制台、Windows 和 Web 應用程式,則會打開 program.cs 文件,你可以在其中輸入程式碼並構建/運行應用程式。

C# 從 PDF 提取文本(程式碼範例教學),圖 3:選擇 .NET Core

選擇 .NET Core

接下來,我們可以添加庫來測試代碼。

3. 安裝 IronPDF 庫

IronPDF 庫可以通過四種方式下載和安裝。

這些方式是:

  • 使用 Visual Studio。
  • 使用 Visual Studio 命令行。
  • 直接從 NuGet 網站下載。
  • 直接從 IronPDF 網站下載。

3.1 使用 Visual Studio

Visual Studio 軟體提供 NuGet 套件管理器選項,可將套件直接安裝到方案中。以下截圖顯示了如何打開 NuGet 套件管理器。

C# 從 PDF 提取文字 (代碼範例教程),圖 4:Visual Studio 的 program.cs 檔案

Visual Studio program.cs 檔案

它提供了搜索框以顯示來自 NuGet 網站的套件列表。在套件管理器中,我們需要搜索關鍵字 "IronPdf",如下圖所示。

C# 從 PDF 提取文字(代碼示例教程),圖 5:NuGet 套件管理器

NuGet 套件管理器

在上面的圖像中,我們可以看到相關搜索項目的列表。我們需要選擇所需的選項來將套件安裝到解決方案中。

3.2 使用 Visual Studio 命令列

在 Visual Studio 中,前往工具 > NuGet 套件管理器 > 套件管理器主控台

在套件管理器主控台標籤中輸入以下行:

Install-Package IronPdf

現在該軟件包將下載/安裝到當前項目並準備使用。

C# 從 PDF 提取文本(代碼示例教程),圖 6:NuGet 包管理器中的 IronPDF 庫

NuGet 套件管理器中的 IronPdf 庫

3.3 直接從 NuGet 網站下載

第三種方式是下載 NuGet 套件 直接從網站下載。

  • 導航到連結。
  • 從右側選單中選擇下載套件選項。
  • 雙擊下載的套件。它將自動安裝。
  • 接著,重新載入解決方案並開始在項目中使用它。

3.4 從 IronPDF 網站直接下載

訪問 我們的 IronPDF 網站 從網站直接下載最新套件。下載完成後,按照以下步驟將套件添加到專案中。

  • 右鍵單擊方案窗口中的專案。
  • 然後,選擇選項引用並瀏覽到已下載的引用位置。
  • 接下來,點擊確定以添加引用。

4. 使用 IronPDF 提取文本

IronPDF 程式讓我們可以從 PDF 文件中提取文本,並將 PDF 頁面轉換為 PDF 物件。以下是如何使用 IronPDF 讀取現有 PDF 的範例。

第一種方法是從 PDF 中提取文本,以下是範例程式碼片段。

var pdfDocument = IronPdf.PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
var pdfDocument = IronPdf.PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Dim pdfDocument = IronPdf.PdfDocument.FromFile("result.pdf")
Dim AllText As String = pdfDocument.ExtractAllText()
VB   C#

從文件 靜態方法用於從現有檔案加載PDF文件並將其轉換為 PDFDocument 在上面代碼所示的物件。我們可以使用這個物件讀取 PDF 頁面上可訪問的文字和圖像。該物件有一個名為 提取所有文字 它從整個 PDF 文件中提取所有文本,然後將提取的文本保存在字串中,我們可以使用該字串進行處理。

以下是我們可以使用的第二種方法的代碼示例,用於逐頁提取 PDF 文件中的文本。

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
	For index = 0 To pdf.PageCount - 1
		Dim PageNumber As Integer = index + 1
		Dim Text As String = pdf.ExtractTextFromPage(index)
	Next index
End Using
VB   C#

在上面的程式碼中,我們看到它將首先加載整個 PDF 文件並將其轉換為 PDF 對象。然後,我們使用內建方法來獲取整個 PDF 文件的頁數。 PageCount,這將會檢索已加載 PDF 文件上的總頁數。使用 "for 迴圈" 和 提取頁面文字 function 允許我們將頁碼作為參數傳遞,以便從加載的文檔中提取文本。 然後,它將確切的文本保存在字符串變量中。 同樣,它將在 "for" 或 "for each" 迴圈的幫助下逐頁提取 PDF 文檔中的文本。

5. 結論

IronPDF 是最常用的 PDF 庫之一。它不依賴於任何其他第三方庫。它是獨立的,不需要在您的機器上安裝 Adobe Reader。它在多個平台上運行。IronPDF 的初始價格為 $749。可以選擇支付一年的產品支持和更新費用,並且 IronPDF 也提供免版稅的重新分發覆蓋,需額外支付費用。更多詳情請訪問我們的 定價頁面.

< 上一頁
如何使用C#在ASP.NET中生成PDF
下一個 >
如何在 C# 中從 PDF 中提取數據

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 NuGet 下載 總下載次數: 10,746,704 查看許可證 >