產品比較

PDFsharp 提取 PDF 中文本與 IronPDF(範例)

在今天的教程中,我們將探索如何使用兩個強大的 PDF 庫,IronPDFPDFSharp,從 PDF 文件中提取文本。 我們將學習如何使用這些工具進行文本提取,而不需要擁有 Adobe 庫的授權,並比較它們彼此之間的差異。

現今市面上有許多專注於 PDF 的程式庫可供選擇,透過花時間比較它們並了解它們的功能如何運作,您將能夠選擇出適合您專案需求的程式庫。 文字提取只是您可能需要在 PDF 上執行的許多任務之一,文字提取在需要有效地從 PDF 檔案中讀取或解析數據的情況下特別有用。

PDFsharp

PDFsharp 是一個開源 .NET 程式庫,用於以編程方式創建和修改 PDF 文件。 雖然其主要強項在於 PDF 的生成和操作,但當與合適的外部庫配合使用時,它也提供基本的工具來閱讀現有的 PDF 文件和提取內容。

PDFsharp 除了可以隨時創建新的 PDF 文件外,還可以用於修改現有的 PDF 文件、合併和拆分文檔、添加註釋等。

IronPDF

IronPDF 是一個專業級的 .NET 函式庫,旨在簡化使用 C# 處理 PDF 文件的過程。 這是一個功能豐富的工具,專為開發涉及 PDF 生成、操作PDF 加密、轉換 PDF 檔案、合併 PDF 頁面HTML 到 PDF 轉換、內容提取等應用程式的開發人員而設計。

憑藉其強大的功能,IronPDF 在小型專案和企業級應用中均能作為創建和管理 PDF 的多功能解決方案而脫穎而出。

IronPDF 設計用以兼容現代 .NET 框架,包括 .NET Core、.NET 5、.NET 6 和 .NET 7,以及如 .NET Framework 之類的舊版本。 它可以在 Windows、macOS 和 Linux 等作業系統上無縫運行,並且與 Docker、Azure 和 AWS 環境完全相容。 這確保開發人員可以在任何平台或雲服務上部署他們的 PDF 工作流程。

在今天的範例中,我們將嘗試在 Visual Studio 中從這個 PDF 文件提取文本

使用 PDFsharp 從 PDF 文件中提取文本

PDFSharp 在其目前的版本中不具有從 PDF 文件提取文字的原生支持。 它主要設計用於創建和操作PDF,例如繪製圖形、添加內容和合併文件,但它缺乏內建的文本提取機制,無法自行處理特殊字符、高級編碼等。 它可能會產生片段或不完整的文本輸出,或者空字符串而不是實際的 PDF 內容。 例如:

PDFsharp 從 PDF 中提取文本與 IronPDF(示例):圖 3

如果您需要進階的文字擷取,並且希望對不同字體、編碼和佈局有更好的支援,您可能需要使用更專業的庫,例如:

  1. iTextSharp(或 iText 7):這是一個流行的 PDF 庫,對文本提取和解析有很強的支持。

  2. Pdfium:另一種在提取文字方面表現出色的選擇,特別是從具有複雜格式的PDF中。

使用IronPDF從PDF檔案中提取文字

現在,讓我們看看如何使用 IronPDF 處理文字擷取。 IronPDF 的文字提取功能為開發者提供了一種簡潔但強大的方法,可以有效地從 PDF 文件中提取文字,無需額外的代碼即可將數據字符串正確格式化為可讀文本。

using IronPdf;
public class Program
{
    static void Main(string[] args)
    {
    // Provide the file path
        string pdfPath = @"invoice.pdf";
        // Load the PDF document using IronPDF
        var pdf = PdfDocument.FromFile(pdfPath);
        // Extract all text from the PDF
        var text = pdf.ExtractAllText();
        // Output the extracted text
        Console.WriteLine(extractedText);
    }
}
using IronPdf;
public class Program
{
    static void Main(string[] args)
    {
    // Provide the file path
        string pdfPath = @"invoice.pdf";
        // Load the PDF document using IronPDF
        var pdf = PdfDocument.FromFile(pdfPath);
        // Extract all text from the PDF
        var text = pdf.ExtractAllText();
        // Output the extracted text
        Console.WriteLine(extractedText);
    }
}
Imports IronPdf
Public Class Program
	Shared Sub Main(ByVal args() As String)
	' Provide the file path
		Dim pdfPath As String = "invoice.pdf"
		' Load the PDF document using IronPDF
		Dim pdf = PdfDocument.FromFile(pdfPath)
		' Extract all text from the PDF
		Dim text = pdf.ExtractAllText()
		' Output the extracted text
		Console.WriteLine(extractedText)
	End Sub
End Class
$vbLabelText   $csharpLabel

PDFsharp 從 PDF 提取文字 vs IronPDF(範例):圖 4

IronPDF 提供一個簡單且高效的 API,用於從給定的 PDF 路徑中提取文本。 它確保提取的文本結構良好且準確,為需要在應用程序中處理 PDF 內容的開發人員提供了一個可靠的選擇。

比較

PDFSharp 是一個免費的開源庫,非常適合基本的 PDF 創建和操作,但其功能有限,難以處理複雜的 PDF。 雖然理論上可以用來從 PDF 文件中提取文本,但這需要進階的文本解析,可能會導致碎片化的輸出。

IronPDF 提供更強大的解決方案,配備先進功能,如精確文本提取、HTML 轉換為 PDF 和支持現代 PDF 標準。 它針對效能和易用性進行了優化,具有直覺的 API。 雖然它供開發免費使用,但也提供商業許可的付費許可層級。

結論

PDFsharp 和 IronPDF 都是用於在 C# 中從 PDF 提取文本的寶貴工具,但它們適用於不同的用例:

  • PDFSharp 是一個很好的選擇,適合需要免費、開源庫來進行基本 PDF 創建和文本提取的開發者。 但是,其文本提取能力有限,可能無法滿足更複雜應用程序的需求。
  • IronPDF,另一方面,擅長文本提取、HTML 轉換為 PDF 和高級 PDF 編輯任務。 由於其易用性、跨平台兼容性以及多樣的功能,使其成為開發人員處理專業級 PDF 工作流的首選。

    要深入了解 IronPDF 如何優於其他庫,請訪問官方的 IronPDF 文檔

Chipego
奇佩戈·卡林达
軟體工程師
Chipego 擁有天生的傾聽技能,這幫助他理解客戶問題,並提供智能解決方案。他在獲得信息技術理學學士學位後,于 2023 年加入 Iron Software 團隊。IronPDF 和 IronOCR 是 Chipego 專注的兩個產品,但隨著他每天找到新的方法來支持客戶,他對所有產品的了解也在不斷增長。他喜歡在 Iron Software 的協作生活,公司內的團隊成員從各自不同的經歷中共同努力,創造出有效的創新解決方案。當 Chipego 離開辦公桌時,他常常享受讀好書或踢足球的樂趣。
< 上一頁
PDFsharp 將 PDF 文件進行數位簽名 vs IronPDF(代碼範例)
下一個 >
QuestPDF 添加頁碼到 PDF 替代方案 VS IronPDF (範例)