使用IRONPDF

如何在C#中读取PDF文件

程序化 PDF 处理在金融、医疗保健、法律和教育等行业至关重要,这些行业需要处理、分析和提取 PDF 文档中的关键信息,用于数据分析、文档管理和自动化等目的。 尽管这项任务很重要,但也很有挑战性。

IronPDF: 一种 C# PDF 库

IronPdf 使您能够轻松处理难以置信的艰巨任务。 它可以轻松编辑 PDF 文档中的文本,与在文本文档中处理文本文件的方式类似,同时允许您在任何操作系统中导出文件。 IronPDF 应用程序涵盖了查看、修改和提取 PDF 内容的完整过程。

使用 IronPDF 迈出正确的一步

使用任何装有 IronPDF 软件的计算机都可以快速、轻松地阅读和编写 PDF 文件格式的文本。 安装是一项简单的任务。 这是学习用 C# 阅读 PDF 文件的最佳途径。 您也可以免费下载 IronPDF 进行开发。 如果您探索 IronPdf,您会发现该库提供了广泛的功能,使 PDF 的使用变得非常简单。 在空闲时间探索课程!有几个C#示例使用HTML创建PDF,可以学习如何通过阅读PDF创建最佳输出。

使用 IronPDF 阅读 PDF 文件

第 1 步:安装 IronPDF 软件包

首先,您需要将IronPDF NuGet 包安装到您的 .NET 项目中。 您可以在 Visual Studio 中打开软件包管理器控制台,然后输入以下命令:

Install-Package IronPdf

第 2 步:导入 IronPDF 库

接下来,您需要在代码中导入 IronPdf 库,方法是在文件顶部添加以下语句:

using IronPdf;
using IronPdf;
Imports IronPdf
$vbLabelText   $csharpLabel

第 3 步:加载 PDF 文档

导入 IronPdf 库后,您可以通过以下代码将 PDF 文档加载到您的代码中:

PdfDocument pdf = PdfDocument.FromFile(@"C:\dotnet.pdf");
var outputPath = "Example.pdf";
pdf.SaveAs(outputPath);
PdfDocument pdf = PdfDocument.FromFile(@"C:\dotnet.pdf");
var outputPath = "Example.pdf";
pdf.SaveAs(outputPath);
Dim pdf As PdfDocument = PdfDocument.FromFile("C:\dotnet.pdf")
Dim outputPath = "Example.pdf"
pdf.SaveAs(outputPath)
$vbLabelText   $csharpLabel

步骤 4:从 PDF 中提取文本

IronPdf 提供了一系列从现有 PDF 文件中提取文本的方法。例如,您可以使用以下代码片段开始从 PDF 中提取文本并将其打印到控制台:

string text = pdf.ExtractText();
Console.Writeline(text);
string text = pdf.ExtractText();
Console.Writeline(text);
Dim text As String = pdf.ExtractText()
Console.Writeline(text)
$vbLabelText   $csharpLabel

使用上述代码,您可以从PDF文件中提取文本

如何在C#中读取PDF文件,图1:使用IronPDF从PDF中提取文本

使用 IronPDF 从 PDF 中提取文本

步骤 5:将 PDF 栅格化为图像

让我们使用IronPDF 将PDF文件光栅化为图像。 首先,导入所需的库:

using System.Linq;
using IronPdf;
using IronSoftware.Drawing;
using System.Linq;
using IronPdf;
using IronSoftware.Drawing;
Imports System.Linq
Imports IronPdf
Imports IronSoftware.Drawing
$vbLabelText   $csharpLabel

然后,代码使用RasterizeToImageFiles方法将PDF文档的所有页面提取到一个文件夹中作为图像文件。 提取的图像可以保存为 PNG 或 JPG 文件,还可以指定图像的尺寸和页面范围。

// Extract all pages to a folder as image files
pdf.RasterizeToImageFiles(@"C:\image\folder\*.png");

// Dimensions and page ranges may be specified
pdf.RasterizeToImageFiles(@"C:\image\folder\example_pdf_image_*.jpg", 100, 80);
// Extract all pages to a folder as image files
pdf.RasterizeToImageFiles(@"C:\image\folder\*.png");

// Dimensions and page ranges may be specified
pdf.RasterizeToImageFiles(@"C:\image\folder\example_pdf_image_*.jpg", 100, 80);
' Extract all pages to a folder as image files
pdf.RasterizeToImageFiles("C:\image\folder\*.png")

' Dimensions and page ranges may be specified
pdf.RasterizeToImageFiles("C:\image\folder\example_pdf_image_*.jpg", 100, 80)
$vbLabelText   $csharpLabel

最后,代码使用ToBitmap方法将PDF文档的所有页面提取为AnyBitmap对象,可以在代码中进一步处理和操作。

// Extract all pages as AnyBitmap objects
AnyBitmap [] pdfBitmaps = pdf.ToBitmap();
// Extract all pages as AnyBitmap objects
AnyBitmap [] pdfBitmaps = pdf.ToBitmap();
' Extract all pages as AnyBitmap objects
Dim pdfBitmaps() As AnyBitmap = pdf.ToBitmap()
$vbLabelText   $csharpLabel

上述代码演示了如何使用IronPDF提取PDF文件的内容,并将提取的数据保存为图像文件或AnyBitmap对象以便进一步处理。

第 7 步:处理 PDF 页面

让我们学习如何通过使用IronPDF读取PDF文件来操作PDF文档的页面

代码首先使用RemovePages方法从PDF文档中删除第二页和第三页:

pdf.RemovePages(1, 2);
pdf.RemovePages(1, 2);
pdf.RemovePages(1, 2)
$vbLabelText   $csharpLabel

RemovePages方法接受两个参数:要移除的起始页(在此例中为第2页,由于页码从0开始计数,因此表示为1)和要移除的页数(在此例中为2页)。

第 6 步:保存 PDF

最后,您可以使用SaveAs方法将PDF文件保存到您的本地系统。 保存 PDF 文件的代码如下:

pdf.SaveAs(OutputPath);
pdf.SaveAs(OutputPath);
pdf.SaveAs(OutputPath)
$vbLabelText   $csharpLabel

IronPDF兼容性

IronPDF 与包括 .NET 7 在内的所有最新 .NET Framework 高度兼容。它还支持 .NET Blazor 和 .NET MAUI,这是微软最新推出的网络开发工具。 该库与这些框架的兼容性使开发人员可以将 IronPDF 无缝集成到他们的应用程序中,并利用其强大的功能。

IronPDF 的主要功能之一是能够在 .NET Blazor 和 .NET MAUI 中读取 PDF 文件。 该功能使开发人员能够快速、轻松地从 PDF 文件中读取和提取数据,并将其用于 .NET 应用程序中。 这种能力在处理大量数据时尤其有用。 开发人员在其 .NET 项目中使用 IronPDF 时不需要任何其他库。

了解更多关于IronPDF 在 .NET Blazor 上工作的教程,并在 IronPDF 的网站上了解如何将 IronPDF 与 .NET MAUI 集成

结论

总之,以编程方式阅读 PDF 文件在各行各业都至关重要。 IronPDF 提供了一个全面的解决方案来处理这项任务,它具有从 PDF 文件中读取、修改和提取内容的广泛功能。IronPDF 易于安装和使用,只需几个简单的步骤。

该库提供了从PDF文档中提取文本将PDF栅格化为图像、操作页面和保存PDF文件的方法。 无论您是程序化 PDF 处理的新手还是经验丰富的开发人员,IronPDF 都是让您的技能更上一层楼的完美工具。

如果您正在寻找一个可靠且高效的解决方案来在 C# 中读取 PDF 文件,IronPDF 值得探索,特别是其许可证选项和定价信息,还有一个免费试用可用。 您可以在下图中查看 IronPDF 提供的更多计划。 您可以选择符合您需求的软件包。

如何在 C# 中读取 PDF 文件,图 2:IronPDF 许可价格

IronPDF 许可价格

Chipego
软件工程师
Chipego 拥有出色的倾听技巧,这帮助他理解客户问题并提供智能解决方案。他在 2023 年加入 Iron Software 团队,此前他获得了信息技术学士学位。IronPDF 和 IronOCR 是 Chipego 主要专注的两个产品,但他对所有产品的了解每天都在增长,因为他不断找到支持客户的新方法。他喜欢 Iron Software 的合作氛围,公司各地的团队成员贡献他们丰富的经验,以提供有效的创新解决方案。当 Chipego 离开办公桌时,你经常可以发现他在看书或踢足球。
< 前一页
如何在 C# 中将 Word (Docx) 转换为 PDF(教程)
下一步 >
您应该购买IronPDF吗?