使用 IRONPDF

如何在 C# 中逐行讀取 PDF

發佈 2024年4月29日
分享:

您可能會認為 PDF 是靜態文件,但它們變得越來越動態。藉助 PDF,您可以製作既互動又可共享的文件。您可以通過閱讀 Adobe 網站上的 Acrobat SDK 中的「Portable Document Format Reference」來了解 PDF 結構。程式化製作 PDF 文件的兩個最常見原因是:

  1. 用於需要圖形和格式設定的電子通訊和其他數位出版物,這些是無法使用印刷準備好的 PDF 完成的。

  2. 在電子書或數位雜誌中創建互動性。

程式化地讀取 PDF 文件是一項困難的任務,因為從 PDF 文件中提取文字並不簡單。PDF 的結構很複雜,尤其是當它還包含圖片時。所以,如果開發人員需要逐行從 PDF 文件中獲取文字而不使用 Adobe Acrobat,該怎麼辦?答案是 IronPDF C# PDF 庫。本教程將介紹如何使用 IronPDF C# 庫在 C# 中程式化地讀取 PDF 文件。

如何在 C# 中逐行讀取 PDF

本文內容如下:

  1. IronPDF: 一個 C# PDF 函式庫

  2. 讀取 PDF 文件的步驟

  3. 在 Visual Studio 中創建一個 C# 專案

  4. 使用 NuGet 套件管理器安裝 IronPDF 庫

  5. 編寫代碼來讀取PDF文件

  6. 結論:讀取PDF的最佳庫

IronPDF: C# PDF 函式庫

IronPDF 是一個 .NET PDF 函式庫,為開發者提供一個簡單而強大的方式來生成和讀取 PDF 檔。它從一開始就設計為兼容 .NET Core、ASP.NET Core 和 .NET Standard。

IronPDF 提供開發者豐富的 API 用於創建、操作和生成 PDF 檔。開發者可以通過其直觀的 API 程式化地創建新 PDF 檔或打開現有的檔。此函式庫支援各種檔,如圖像、影片、文字文件和在 PDF 檔中生成的向量圖形。

讓我們來看看如何使用 IronPDF 一行一行地讀取 PDF。

在 Visual Studio 中創建 C# 專案

我將使用 Visual Studio 2022 來創建 C# 專案。任何版本都應該適用,但是建議使用最新版本以獲得更好的體驗。IronPDF 與 Microsoft 最新版本的框架 .NET 6 配合良好。如果需要擴展支持和穩定性,建議使用此框架。

接下來,按照以下步驟在 Microsoft Visual Studio 中創建 C# 專案:

  1. 打開 Visual Studio 2022。

  2. 點擊底部的「Create a new project」按鈕。

  3. 為本教程選擇「Console Application」模板。您可以根據需求使用任何模板。

  4. 為專案給予適當的名稱。

  5. 選擇 .NET 6 框架,因為它是最新的並且有擴展支持。

  6. 點擊「Create」按鈕。

按照上述步驟,您將能夠輕鬆地在 Visual Studio 中創建 C# 專案。現在是時候安裝 IronPDF 庫了。您可以使用現有的專案來與 IronPDF 庫一起使用。您必須打開一個作業並安裝該庫。在下一節中,我們將學習如何安裝 IronPDF 庫。

安裝 IronPDF 庫

IronPDF 支援多種方式來安裝 IronPDF 庫。IronPDF 是一個允許您在多種情境下使用的庫。您可以通過 NuGet 套件安裝程式來安裝該程序,然後通過套件管理器主控台來使用它。只需運行以下命令,IronPDF 庫將會安裝到您的專案中:

Install-Package IronPDF

另外,您可以通過下載並解壓 ZIP 文件到硬碟上的任意文件夾中來獲取 IronPDF C# 庫——它無需安裝。首先,打開您要安裝 IronPDF 的 Visual Studio 專案。在 IDE 中,點擊 Solution Explorer 中的專案參考,然後點擊添加參考。搜索並選擇我們之前下載的 "IronPDF" ZIP 文件。點擊 "OK" 按鈕,IronPDF 將被添加為專案中的參考。

現在,我們的專案已經準備好使用 IronPDF。讓我們開始編寫逐行讀取 PDF 文檔的程式碼。

撰寫程式碼來讀取 PDF 文件

現在,我將向您展示如何僅用兩行程式碼讀取 PDF 文件。IronPDF 的功能非常出色且效率極高。我們來看一個程式碼範例:

using IronPdf;
using System.Drawing;
//Select the Desired PDF File
using PdfDocument PDF = PdfDocument.FromFile("test.pdf");
//Using ExtractAllText() method, extract every single text from an pdf
string line = PDF.ExtractAllText();
//Get all Images
IEnumerable<Image> AllImages = PDF.ExtractAllImages();
//View text in an Label or textbox
Console.WriteLine(line);
using IronPdf;
using System.Drawing;
//Select the Desired PDF File
using PdfDocument PDF = PdfDocument.FromFile("test.pdf");
//Using ExtractAllText() method, extract every single text from an pdf
string line = PDF.ExtractAllText();
//Get all Images
IEnumerable<Image> AllImages = PDF.ExtractAllImages();
//View text in an Label or textbox
Console.WriteLine(line);
Imports IronPdf
Imports System.Drawing
'Select the Desired PDF File
Private PdfDocument As using
'Using ExtractAllText() method, extract every single text from an pdf
Private line As String = PDF.ExtractAllText()
'Get all Images
Private AllImages As IEnumerable(Of Image) = PDF.ExtractAllImages()
'View text in an Label or textbox
Console.WriteLine(line)
VB   C#

上述代碼幫助我們閱讀 PDF 檔案。在 "FromFile" 的參數中,我們給出輸入 PDF 檔案的路徑。然後,ExtractAllText 函數會從測試 PDF 的所有頁面中提取文本。我們可以將文本保存在文本文檔中或顯示在控制台中。你可以在此處查看更多教程 IronPDF 網站. 我們可以將以下功能寫成一個函數,這樣可以在程式中的任何地方使用,如下所示:

private void Extract()
{
    // Select the Desired PDF File
    using PdfDocument PDF = PdfDocument.FromFile("any.pdf");
    //Using ExtractAllText() method, extract every single text from an pdf
    string line = PDF.ExtractAllText();
    //View text in the console
    Console.WriteLine(line);
}
private void Extract()
{
    // Select the Desired PDF File
    using PdfDocument PDF = PdfDocument.FromFile("any.pdf");
    //Using ExtractAllText() method, extract every single text from an pdf
    string line = PDF.ExtractAllText();
    //View text in the console
    Console.WriteLine(line);
}
Private Sub Extract()
	' Select the Desired PDF File
	Using PDF As PdfDocument = PdfDocument.FromFile("any.pdf")
		'Using ExtractAllText() method, extract every single text from an pdf
		Dim line As String = PDF.ExtractAllText()
		'View text in the console
		Console.WriteLine(line)
	End Using
End Sub
VB   C#

讓我們看看 IronPDF 生成的輸出。

輸出文本

如何在 C# 中逐行读取 PDF:图 1

IronPDF完美地提取文本,沒有錯誤。結果是一流的。

結論:最好的 PDF 閱讀庫

許多開發人員在他們的軟體或其他程式中使用不同的 PDF 閱讀庫。市場上有多種庫可用於操作和閱讀 PDF 文件。然而,IronPDF 是所有涉及 PDF 操作的最佳庫。

許多行業和領域使用 PDF 生成程式來生成和列印 PDF 文件。市場上的許多庫,例如 PDF Sharp 庫和許多其他 .NET 庫,允許您快速使用您的內容創建 PDF 文件。但是,用於程式化生成 PDF 的最佳庫是 IronPDF。IronPDF 提供許多功能,包括加密、密碼保護和將 MS Office 格式轉換為 PDF。使用 IronPDF,您可以輕鬆地使用這些強大的工具創建 PDF 文件。

IronPDF 是一個免費庫,但商業用途需付費。提供 30 天的試用期,可用於生產環境中進行測試。IronPDF 的價格非常實惠,您還可以現在以兩套軟體的價格購買到 5 套不同的軟體。您可以在 IronPDF 授權頁面找到所有定價計劃的信息。

< 上一頁
如何使用C#將PDF轉換為位圖
下一個 >
如何在 C# 中建立報告應用程式

準備開始了嗎? 版本: 2024.10 剛剛發布

免費 NuGet 下載 總下載次數: 10,993,239 查看許可證 >