在生產環境中測試,無水印。
在任何需要的地方都能運行。
獲得 30 天的全功能產品。
在幾分鐘內上手運行。
試用產品期間完全訪問我們的支援工程團隊
在今天的教程中,我們將探討如何使用兩個強大的 PDF 庫從 PDF 文件中提取文本,IronPDF和PDFSharp. 我們將學習如何使用這些工具進行文本提取,而不需要擁有 Adobe 庫的授權,並比較它們彼此之間的差異。
現今市面上有許多專注於 PDF 的程式庫可供選擇,透過花時間比較它們並了解它們的功能如何運作,您將能夠選擇出適合您專案需求的程式庫。 文字提取只是您可能需要在 PDF 上執行的許多任務之一,文字提取在需要有效地從 PDF 檔案中讀取或解析數據的情況下特別有用。
PDFsharp 是一個開源 .NET 程式庫,用於以編程方式創建和修改 PDF 文件。 雖然其主要強項在於 PDF 的生成和操作,但當與合適的外部庫配合使用時,它也提供基本的工具來閱讀現有的 PDF 文件和提取內容。
PDFsharp 除了可以隨時創建新的 PDF 文件外,還可以用於修改現有的 PDF 文件、合併和拆分文檔、添加註釋等。
IronPDF 是一個專業級的 .NET 函式庫,旨在簡化使用 C# 處理 PDF 文件的過程。 這是一個功能豐富的工具,專為開發涉及PDF生成的應用程式的開發者設計。操作, PDF 加密,轉換 PDF 文件,合併 PDF 頁面, HTML 轉換為 PDF、內容提取等。
憑藉其強大的功能,IronPDF 在小型專案和企業級應用中均能作為創建和管理 PDF 的多功能解決方案而脫穎而出。
IronPDF 設計用以兼容現代 .NET 框架,包括 .NET Core、.NET 5、.NET 6 和 .NET 7,以及如 .NET Framework 之類的舊版本。 它可以在 Windows、macOS 和 Linux 等作業系統上無縫運行,並且與 Docker、Azure 和 AWS 環境完全相容。 這確保開發人員可以在任何平台或雲服務上部署他們的 PDF 工作流程。
在今天的例子中,我們將嘗試提取文字從這個 PDF 文件在 Visual Studio 中:
PDFSharp 在其目前的版本中不具有從 PDF 文件提取文字的原生支持。 它主要設計用於創建和操作PDF,例如繪製圖形、添加內容和合併文件,但它缺乏內建的文本提取機制,無法自行處理特殊字符、高級編碼等。 它可能會產生片段或不完整的文本輸出,或者空字符串而不是實際的 PDF 內容。 例如:
如果您需要進階的文字擷取,並且希望對不同字體、編碼和佈局有更好的支援,您可能需要使用更專業的庫,例如:
iTextSharp(或 iText 7)這是一個流行的 PDF 函式庫,對文本提取和解析提供強大的支持。
現在,讓我們看看如何文字提取使用 IronPDF 處理。 IronPDF 的文字提取功能為開發者提供了一種簡潔但強大的方法,可以有效地從 PDF 文件中提取文字,無需額外的代碼即可將數據字符串正確格式化為可讀文本。
using IronPdf;
public class Program
{
static void Main(string[] args)
{
// Provide the file path
string pdfPath = @"invoice.pdf";
// Load the PDF document using IronPDF
var pdf = PdfDocument.FromFile(pdfPath);
// Extract all text from the PDF
var text = pdf.ExtractAllText();
// Output the extracted text
Console.WriteLine(extractedText);
}
}
using IronPdf;
public class Program
{
static void Main(string[] args)
{
// Provide the file path
string pdfPath = @"invoice.pdf";
// Load the PDF document using IronPDF
var pdf = PdfDocument.FromFile(pdfPath);
// Extract all text from the PDF
var text = pdf.ExtractAllText();
// Output the extracted text
Console.WriteLine(extractedText);
}
}
IronPDF 提供一個簡單且高效的 API,用於從給定的 PDF 路徑中提取文本。 它確保提取的文本結構良好且準確,為需要在應用程序中處理 PDF 內容的開發人員提供了一個可靠的選擇。
PDFSharp 是一個免費的開源庫,適合基本的 PDF 創建和操作,但其功能有限,在處理複雜的 PDF 時表現不佳。 雖然理論上可以用來從 PDF 文件中提取文本,但這需要進階的文本解析,可能會導致碎片化的輸出。
IronPDF 提供了更強大的解決方案,具有高級功能,例如準確的文本提取、HTML到PDF的轉換,以及對現代PDF標準的支持。 它針對效能和易用性進行了優化,具有直覺的 API。 雖然開發是免費的,但它還提供商業授權用於其付費許可級別。
PDFsharp 和 IronPDF 都是處理 PDF 文件的寶貴工具提取文本從 C# 中的 PDF 提取,但它們適用於不同的使用案例:
另一方面,IronPDF 在文字提取、HTML 到 PDF 轉換以及高級 PDF 編輯任務方面表現出色。 由於其易用性、跨平台兼容性以及多樣的功能,使其成為開發人員處理專業級 PDF 工作流的首選。
深入了解如何IronPDF勝過其他庫,請訪問官方IronPDF 文件.