在生产环境中测试,无水印。
随时随地满足您的需求。
获得30天的全功能产品。
几分钟内就能启动并运行。
在您的产品试用期间,全面访问我们的支持工程团队。
在当今的开发世界中,使用 PDF 是需要处理文档、表单或报告的应用程序的常见要求。 无论您是在构建电子商务平台、文档管理系统,还是仅仅需要处理发票,从 PDF 中提取和搜索文本都至关重要。 本文将指导您如何在 .NET 项目中使用 C# string.Contains() 与 IronPDF 来搜索和提取 PDF 文件中的文本。
在执行搜索时,您可能需要根据特定的字符串子串要求执行字符串比较。 在这种情况下,C# 提供了诸如 string.Contains() 这样的一些选项,它是最简单的比较形式之一。
如果需要指定是否忽略大小写敏感性,可以使用 StringComparison 枚举。 这样,您就可以选择所需的字符串比较类型,如顺序比较或大小写不敏感比较。
如果您想处理字符串中的特定位置,如第一个字符位置或最后一个字符位置,您可以使用 Substring 将字符串的某些部分分离出来,以便进一步处理。
如果您正在寻找空字符串检查或其他边缘情况,请确保在逻辑中处理这些情况。
如果您处理的是大型文档,优化文本提取的起始位置,只提取相关部分而不是整个文档是非常有用的。 如果您想避免内存和处理时间超载,这一点会特别有用。
如果您不确定最佳的比较规则方法,请考虑具体方法的性能以及希望在不同场景下的搜索行为(例如,匹配多个术语、处理空格等)。
如果您的需求超出了简单的子串检查,需要更高级的模式匹配,请考虑使用正则表达式,它在处理 PDF 时具有极大的灵活性。
如果您还没有尝试过,请立即试用 IronPDF 的免费试用,以探索其功能,并了解它如何简化您的 PDF 处理任务。 无论您是在构建文档管理系统、处理发票,还是仅仅需要从 PDF 中提取数据,IronPDF 都是您的理想工具。
IronPDF for .NET 是一个功能强大的库,旨在帮助开发人员在 .NET 生态系统中处理 PDF。 它能让您轻松创建、阅读、编辑和处理 PDF 文件,而无需依赖外部工具或复杂的配置。
IronPdf 为在 C# 应用程序中处理 PDF 提供了广泛的功能。 一些主要特点包括
表单处理:在交互式PDF表单中提取或填充表单字段。
IronPdf 的设计简单易用,但也足够灵活,可以处理涉及 PDF 的复杂情况。 它可与 .NET Core 和 .NET Framework 无缝协作,因此非常适合任何基于 .NET 的项目。
要使用IronPDF,请通过Visual Studio中的NuGet包管理器安装它:
Install-Package IronPdf
Install-Package IronPdf
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package IronPdf
在深入研究搜索 PDF 之前,让我们先了解一下如何使用 IronPDF 从 PDF 中提取文本。
IronPDF 提供了从 PDF 文档中提取文本的简单 API。 这样您就可以轻松搜索 PDF 中的特定内容。
下面的示例演示了如何使用 IronPDF 从 PDF 中提取文本:
using IronPdf;
using System;
public class Program
{
public static void Main(string[] args)
{
PdfDocument pdf = PdfDocument.FromFile("invoice.pdf");
string str = pdf.ExtractAllText();
}
}
using IronPdf;
using System;
public class Program
{
public static void Main(string[] args)
{
PdfDocument pdf = PdfDocument.FromFile("invoice.pdf");
string str = pdf.ExtractAllText();
}
}
Imports IronPdf
Imports System
Public Class Program
Public Shared Sub Main(ByVal args() As String)
Dim pdf As PdfDocument = PdfDocument.FromFile("invoice.pdf")
Dim str As String = pdf.ExtractAllText()
End Sub
End Class
在此示例中,ExtractAllText() 方法从 PDF 文档中提取所有文本。 然后可以对这些文本进行处理,以搜索特定的关键词或短语。
一旦从PDF中提取文本,就可以使用C#内置的string.Contains()方法来搜索特定的单词或短语。
string.Contains() 方法返回一个布尔值,指示指定的字符串是否存在于字符串中。 这对于基本的文本搜索尤其有用。
以下是如何使用 string.Contains() 在提取的文本中搜索关键字:
bool isFound = text.Contains("search term", StringComparison.OrdinalIgnoreCase);
bool isFound = text.Contains("search term", StringComparison.OrdinalIgnoreCase);
Dim isFound As Boolean = text.Contains("search term", StringComparison.OrdinalIgnoreCase)
让我们通过一个实际例子来进一步说明这一点。 假设您想查找 PDF 发票文档中是否存在特定的发票号码。
以下是如何实现这一目标的完整示例:
using IronPdf;
public class Program
{
public static void Main(string[] args)
{
string searchTerm = "INV-12345";
PdfDocument pdf = PdfDocument.FromFile("exampleInvoice.pdf");
string text = pdf.ExtractAllText();
bool isFound = text.Contains(searchTerm, StringComparison.OrdinalIgnoreCase);
if (isFound)
{
Console.WriteLine($"Invoice number: {searchTerm} found in the document");
}
else
{
Console.WriteLine($"Invoice number {searchTerm} not found in the document");
}
}
}
using IronPdf;
public class Program
{
public static void Main(string[] args)
{
string searchTerm = "INV-12345";
PdfDocument pdf = PdfDocument.FromFile("exampleInvoice.pdf");
string text = pdf.ExtractAllText();
bool isFound = text.Contains(searchTerm, StringComparison.OrdinalIgnoreCase);
if (isFound)
{
Console.WriteLine($"Invoice number: {searchTerm} found in the document");
}
else
{
Console.WriteLine($"Invoice number {searchTerm} not found in the document");
}
}
}
Imports IronPdf
Public Class Program
Public Shared Sub Main(ByVal args() As String)
Dim searchTerm As String = "INV-12345"
Dim pdf As PdfDocument = PdfDocument.FromFile("exampleInvoice.pdf")
Dim text As String = pdf.ExtractAllText()
Dim isFound As Boolean = text.Contains(searchTerm, StringComparison.OrdinalIgnoreCase)
If isFound Then
Console.WriteLine($"Invoice number: {searchTerm} found in the document")
Else
Console.WriteLine($"Invoice number {searchTerm} not found in the document")
End If
End Sub
End Class
在此示例中:
虽然 string.Contains() 适用于简单的子字符串搜索,但您可能想执行更复杂的搜索,例如查找模式或一系列关键字。 为此,您可以使用正则表达式。
下面是一个使用正则表达式在 PDF 文本中搜索任何有效发票号码格式的示例:
using IronPdf;
using System.Text.RegularExpressions;
public class Program
{
public static void Main(string[] args)
{
// Define a regex pattern for a typical invoice number format (e.g., INV-12345)
string pattern = @"INV-\d{5}";
PdfDocument pdf = PdfDocument.FromFile("exampleInvoice.pdf");
string text = pdf.ExtractAllText();
// Perform the regex search
Match match = Regex.Match(text, pattern);
}
}
using IronPdf;
using System.Text.RegularExpressions;
public class Program
{
public static void Main(string[] args)
{
// Define a regex pattern for a typical invoice number format (e.g., INV-12345)
string pattern = @"INV-\d{5}";
PdfDocument pdf = PdfDocument.FromFile("exampleInvoice.pdf");
string text = pdf.ExtractAllText();
// Perform the regex search
Match match = Regex.Match(text, pattern);
}
}
Imports IronPdf
Imports System.Text.RegularExpressions
Public Class Program
Public Shared Sub Main(ByVal args() As String)
' Define a regex pattern for a typical invoice number format (e.g., INV-12345)
Dim pattern As String = "INV-\d{5}"
Dim pdf As PdfDocument = PdfDocument.FromFile("exampleInvoice.pdf")
Dim text As String = pdf.ExtractAllText()
' Perform the regex search
Dim match As Match = Regex.Match(text, pattern)
End Sub
End Class
该代码将搜索任何遵循 INV-XXXXX 模式的发票号码,其中 XXXXX 是一系列数字。
在处理 PDF 文件,尤其是大型或复杂文件时,有一些最佳实践需要牢记:
IronPDF 可与 .NET 项目轻松集成。 通过 NuGet 下载并安装 IronPDF 库后,只需将其导入到您的 C# 代码库中即可,如上面的示例所示。
IronPdf 的灵活性使您可以构建复杂的文档处理工作流程,例如:
IronPDF 使处理 PDF 变得简单高效,尤其是在您需要提取和搜索 PDF 中的文本时。 通过结合 C# 的 string.Contains() 方法与 IronPDF 的文本提取功能,您可以在 .NET 应用程序中快速搜索和处理 PDF 文件。
如果您还没有试用过 IronPDF,请立即免费试用,探索它的功能,看看它如何简化您的 PDF 处理任务。 无论您是在构建文档管理系统、处理发票,还是仅仅需要从 PDF 中提取数据,IronPDF 都是您的理想工具。
要开始使用IronPDF,请下载免费试用版,亲身体验其强大的PDF处理功能。 访问 IronPDF 的网站 以立即开始。