在生产环境中测试,无水印。
随时随地满足您的需求。
获得30天的全功能产品。
几分钟内就能启动并运行。
在您的产品试用期间,全面访问我们的支持工程团队。
在今天的教程中,我们将探讨如何使用两个强大的PDF库,IronPDF和PDFSharp从PDF文档中提取文本。 我们将学习如何使用这些工具进行文本提取,而无需拥有 Adobe 库许可证,并了解它们之间的比较。
市场上有许多专注于PDF的库可供选择,通过花时间比较它们并了解其功能的工作原理,您将能够为项目的需求选择合适的库。 文本提取只是您可能需要在PDF上执行的众多任务中的一个例子。文本提取在您需要高效读取或解析PDF文件中的数据时非常有用。
PDFsharp 是一个开源的 .NET 库,专为以编程方式创建和修改 PDF 文档而设计。 虽然其主要优势在于PDF生成和操作,但在与合适的外部库结合使用时,它也提供了用于读取现有PDF文件和提取内容的基本工具。
PDFsharp不仅可以随时创建新的PDF文档,还可以用于修改现有的PDF文件、合并和拆分文档、添加注释等。
IronPDF 是一个专业级的 .NET 库,旨在简化在 C# 中处理 PDF 文档的过程。 这是一款功能丰富的工具,专为开发人员构建涉及PDF生成、操作、PDF加密、转换PDF文件、合并PDF页面、HTML到PDF转换、内容提取等应用程序而设计。
凭借其强大的功能,IronPDF 作为一个多用途的解决方案在小型项目和企业级应用中创建和管理 PDF 文件方面脱颖而出。
IronPDF被设计为兼容现代.NET框架,包括.NET Core、.NET 5、.NET 6和.NET 7,以及像.NET Framework这样的老版本。 它在 Windows、macOS 和 Linux 等操作系统上无缝运行,并与 Docker、Azure 和 AWS 环境完全兼容。 这确保了开发人员可以在任何平台或云服务上部署他们的PDF工作流程。
对于今天的示例,我们将在Visual Studio中尝试从此PDF文档中提取文本:
当前版本的PDFSharp不具备从PDF文档中提取文本的原生支持。 它主要用于创建和处理PDF,例如绘制图形、添加内容和合并文档,但它缺乏提取文本的内置机制,无法处理特殊字符、高级编码等。 它可能会生成碎片化或不完整的文本输出,或空字符串而不是实际的PDF内容。 例如
如果您需要具有更好字体、编码和布局支持的高级文本提取,您可能需要使用更专业的库,例如:
iTextSharp(或 iText 7):这是一个流行的 PDF 库,具有强大的文本提取和解析支持。
现在,让我们看看如何使用IronPDF处理文本提取。 IronPDF 的文本提取功能为开发人员提供了一种简洁而强大的方法,可以高效地从 PDF 文档中提取文本,而无需额外的代码将数据字符串正确格式化为可读文本。
using IronPdf;
public class Program
{
static void Main(string[] args)
{
// Provide the file path
string pdfPath = @"invoice.pdf";
// Load the PDF document using IronPDF
var pdf = PdfDocument.FromFile(pdfPath);
// Extract all text from the PDF
var text = pdf.ExtractAllText();
// Output the extracted text
Console.WriteLine(extractedText);
}
}
using IronPdf;
public class Program
{
static void Main(string[] args)
{
// Provide the file path
string pdfPath = @"invoice.pdf";
// Load the PDF document using IronPDF
var pdf = PdfDocument.FromFile(pdfPath);
// Extract all text from the PDF
var text = pdf.ExtractAllText();
// Output the extracted text
Console.WriteLine(extractedText);
}
}
Imports IronPdf
Public Class Program
Shared Sub Main(ByVal args() As String)
' Provide the file path
Dim pdfPath As String = "invoice.pdf"
' Load the PDF document using IronPDF
Dim pdf = PdfDocument.FromFile(pdfPath)
' Extract all text from the PDF
Dim text = pdf.ExtractAllText()
' Output the extracted text
Console.WriteLine(extractedText)
End Sub
End Class
IronPDF 提供了一个简单高效的 API,用于从给定的 PDF 路径中提取文本。 这确保提取的文本结构良好且准确,使其成为开发人员在其应用程序中需要处理PDF内容时的可靠选择。
PDFSharp 是一个免费的开源库,适合用于基本的PDF创建和操作,但功能有限,处理复杂的PDF时会有困难。 在理论上,它可能用于从PDF文件中提取文本,但这需要高级文本解析,并可能导致输出分段。
IronPDF 提供了一种更强大的解决方案,具备高级功能,如精确文本提取、HTML 转 PDF 转换,以及对现代 PDF 标准的支持。 它经过优化以提高性能,并通过直观的API易于使用。 虽然在开发过程中是免费的,但它也为其付费许可等级提供商业许可。
PDFsharp 和 IronPDF 都是用于在 C# 中处理从 PDF 中提取文本的有价值工具,但它们适用于不同的使用场景:
IronPDF在文本提取、HTML到PDF转换以及高级PDF编辑任务方面表现出色。 其易用性、跨平台兼容性和广泛的功能,使其成为处理专业级PDF工作流程的开发人员的首选。
要深入了解IronPDF如何优于其他库,请访问官方IronPDF 文档。