使用 IRONPDF

C# 從 PDF 中提取文字(代碼範例教程)

已更新 2023年12月3日
分享:

可攜式文檔格式文件被用於各種業務中。 在開發文件時,開發人員使用PDF格式來協助他們的客戶。 由於現今的程式庫,製作 PDF 從未如此簡單。 我們必須評估構建、閱讀和轉換等元素,以確定在項目中使用哪個商業庫是最佳選擇。

1. IronPDF 功能

IronPDF 是一款功能強大的 PDF 轉換器,可以執行幾乎所有瀏覽器能夠執行的操作。 使用 .NET 函式庫,開發人員可以輕鬆地創建、閱讀和操作 PDF 文件。 IronPDF 使用 Chrome 引擎將 HTML 轉換為 PDF 文檔。IronPDF 支援 HTML、ASPX、Razor HTML 與 MVC View 及其他網頁組件。 Microsoft .NET 應用程式受到 IronPDF 的支援。(ASP.NET 網頁應用程式和傳統的 Windows 應用程式). IronPDF 也可以用來創建一個視覺上吸引人的 PDF 文件。

我們可以使用IronPDF從HTML5、JavaScript、CSS和圖片製作PDF文件。 此外,這些文件可以具有頁眉和頁腳。 感謝 IronPDF,我們可以輕鬆閱讀 PDF 文件。 IronPDF 也擁有一個全面的 PDF 轉換引擎和一個強大的 HTML 到 PDF 轉換器,能處理 PDF 文件。

  • 可以用來創建 PDF 檔案的來源包括 HTML、HTML5、ASPX,以及使用 IronPDF 的 Razor/MVC 視圖. 我們不僅可以將 HTML 文件轉換為 PDF,我們還可以將圖像文件轉換為 PDF 格式.
  • IronPDF 允許您建立互動式 PDF 文件,填寫並提交互動式表單,高效地合併和拆分 PDF 文件,從 PDF 文件中提取文本和圖像,搜索 PDF 文件中的文本,將 PDF 頁面光柵化為圖像,將 PDF 轉換為 HTML,並打印 PDF 文件。
  • IronPDF 能夠從 URL 建立文件。 它還支援自訂網路登入憑證、使用者代理、代理伺服器、Cookie、HTTP 標頭和表單變數以進行導航受登錄保護的 HTML 表單.
  • IronPDF 是一款允許您查看和使用表單數據填寫 PDF 檔案.
  • 可以使用IronPDF從文件中提取圖像。
  • IronPDF 允許我們自訂文件,通过Headers、頁尾和自訂元素, 頁尾, 文字, 圖片, 書籤,自訂浮水印,以及更多。
  • 我們可以使用IronPDF在新文件或現有文件中合併和拆分頁面。
  • 在沒有 Acrobat 檢視器的情況下,我們可以將文件轉換為 PDF 物件。
  • CSS 檔案可以轉換成 PDF 文件。
  • 媒體類型的 CSS 文件可以轉換成文件。

2. 在 Visual Studio 中建立新專案

開啟 Visual Studio 軟體並進入檔案選單。 選擇「新專案」,然後選擇「主控台應用程式」。 在本文中,我們將使用主控台應用程式來生成 PDF 文件。

C# 從 PDF 中提取文字(代碼示例教程),圖 1:在 Visual Studio 中創建一個新項目

在 Visual Studio 中創建一個新專案

在相應的文字框中輸入專案名稱並選擇文件路徑。 然後,按一下 Create 按鈕並選擇所需的 .NET Framework,如下圖所示。

C# 從 PDF 中提取文本(代碼示例教程),圖 2:在 Visual Studio 中配置新項目

在 Visual Studio 中配置新專案

Visual Studio 專案將生成所選應用程式的結構,如果您選擇了主控台、Windows 和 Web 應用程式,它將開啟 program.cs 文件,您可以在其中輸入代碼並建置/執行應用程式。

C# 從 PDF 提取文本(程式碼範例教學),圖 3:選擇 .NET Core

選擇 .NET Core

接下來,我們可以添加庫來測試代碼。

3. 安裝 IronPDF 庫

IronPDF 庫可以透過四種方式下載和安裝。

這些是:

  • 使用 Visual Studio。
  • 使用 Visual Studio 命令行。
  • 從 NuGet 網站直接下載。
  • 直接從 IronPDF 網站下載。

3.1 使用 Visual Studio

Visual Studio 軟體提供 NuGet Package Manager 選項,讓使用者可以將套件直接安裝到解決方案中。 以下截圖顯示如何打開 NuGet Package Manager。

C# 從 PDF 提取文字 (代碼範例教程),圖 4:Visual Studio 的 program.cs 檔案

Visual Studio program.cs 檔案

它提供搜尋框以顯示來自 NuGet 網站的套件清單。在套件管理器中,我們需要搜尋關鍵字「IronPdf」,如下面的截圖所示。

C# 從 PDF 提取文字(代碼示例教程),圖 5:NuGet 套件管理器

NuGet 套件管理員

在上圖中,我們可以看到相關搜索項目的列表。 我們需要選擇所需選項將套件安裝到解決方案中。

3.2 使用 Visual Studio 命令列

在 Visual Studio 中,請依次前往 工具 > NuGet 套件管理員 > 套件管理員主控台

在套件管理器主控台標籤頁中輸入以下行:

Install-Package IronPdf

現在套件將下載/安裝到當前專案並準備好使用。

C# 從 PDF 提取文本(代碼示例教程),圖 6:NuGet 包管理器中的 IronPDF 庫

NuGet 套件管理器中的 IronPdf 庫

3.3 從 NuGet 網站直接下載

第三種方式是下載IronPDF NuGet 套件直接從他們的網站。

  • 導航至 NuGet 上的 IronPDF 套件。
  • 從右側菜單中選擇下載套件選項。
  • 雙擊下載的包。 將自動安裝。
  • 接下來,重新載入解決方案並開始在專案中使用它。

3.4 從 IronPDF 網站直接下載

參觀IronPDF 官方網站直接從他們的網站下載最新的套件。下載後,按照以下步驟將套件添加到專案中。

  • 在解決方案窗口中右鍵點擊專案。
  • 然後,選擇選項參考,並瀏覽已下載參考的位置。
  • 接下來,點擊確定以添加參考。

4. 使用 IronPDF 提取文字

IronPDF 程式允許我們從 PDF 檔案中提取文字,並將 PDF 頁面轉換為 PDF 物件。 以下是如何使用IronPDF讀取現有PDF的示例。

第一種方法是從 PDF 提取文本,樣本代碼片段如下。

using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Imports IronPdf

Private pdfDocument = PdfDocument.FromFile("result.pdf")
Private AllText As String = pdfDocument.ExtractAllText()
VB   C#

從文件靜態方法用於從現有檔案加載PDF文件並將其轉換為PDFDocument如上方程式碼所示的物件。 我們可以使用此物件讀取 PDF 頁面上的可訪問文字和圖像。 該對象有一個名為的方法提取所有文字從整個 PDF 文件中提取所有文本,然後將提取出的文本存儲在字串中,這樣我們就可以使用該字串進行處理。

以下是第二種方法的程式碼範例,我們可以用它逐頁從 PDF 文件中提取文本。

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
	For index = 0 To pdf.PageCount - 1
		Dim Text As String = pdf.ExtractTextFromPage(index)
	Next index
End Using
VB   C#

在上述程式碼中,我們看到它首先會載入整個 PDF 文件並將其轉換成一個 PDF 物件。 然後,我們使用內建的方法獲取整個 PDF 文件的頁數PageCount,這將檢索已載入 PDF 文件的總頁數。 使用 "for loop" 和提取頁面文字函式允許我們將頁碼作為參數傳遞,以從已載入的文件中提取文字。 然後,它將把確切的文字存入字串變數中。 同樣地,它將在「for」或「for each」迴圈的幫助下逐頁從 PDF 中提取文本。

5. 結論

IronPDF 是最常用的 PDF 庫之一。 它不依賴於任何其他第三方庫。 它是獨立的,不需要在您的電腦上安裝 Adobe Reader。它能在多個平台上運行。 IronPDF 的入門價格從 $749 起。 可以選擇支付一年的產品支持和更新費用,IronPDF還提供免版稅的重新分發服務,需支付額外費用。更多詳情請造訪IronPDF 價格頁面.

< 上一頁
如何使用C#在ASP.NET中生成PDF
下一個 >
如何在 C# 中從 PDF 中提取數據

準備開始了嗎? 版本: 2024.12 剛剛發布

免費 NuGet 下載 總下載次數: 11,622,374 查看許可證 >