如何在C#中读取PDF文件?
编程化的PDF处理在金融、医疗、法律、和教育等行业中至关重要,这些行业需要从PDF文档中处理、分析和提取关键信息,用于数据分析、文档管理和自动化等目的。 尽管其重要性,这项任务可能具有挑战性。
IronPDF:一个C# PDF库
IronPDF使您能够轻松处理极其复杂的任务。 它允许您像在文本文件中一样轻松编辑PDF文档中的文本,同时允许您在任何操作系统中导出文件。 IronPDF应用程序涵盖了查看、修改和提取PDF内容的完整流程。
使用IronPDF采取正确的步骤
使用安装了IronPDF软件的任何计算机,您都可以快速轻松地读取和写入PDF文件格式。 安装是一个简单的任务。 这是学习在C#中读取PDF文件的最佳方法。 您还可以免费下载IronPDF用于开发。 如果您探索IronPDF,您会注意到该库提供了广泛的功能,使得使用PDF非常简单。 在您的空闲时间探索类!有几个使用HTML创建PDF的C#示例可用,以帮助您了解如何通过阅读PDF创建最佳输出。
使用IronPDF读取PDF文件
步骤1:安装IronPDF包
首先,您需要在您的.NET项目中安装IronPDF NuGet包。 您可以通过在Visual Studio中打开包管理器控制台并输入以下命令来完成此操作:
Install-Package IronPdf
步骤2:导入IronPDF库
接下来,您需要将IronPDF库导入您的代码中,方法是将以下语句添加到文件顶部:
using IronPdf;using IronPdf;Imports IronPdf步骤3:加载PDF文档
一旦您导入了IronPDF库,您就可以通过以下代码将PDF文档加载到您的代码中:
// Load the PDF document from file path
PdfDocument pdf = PdfDocument.FromFile(@"C:\dotnet.pdf");
// Define the output path for the saved PDF
var outputPath = "Example.pdf";
// Save the PDF document to the specified output path
pdf.SaveAs(outputPath);// Load the PDF document from file path
PdfDocument pdf = PdfDocument.FromFile(@"C:\dotnet.pdf");
// Define the output path for the saved PDF
var outputPath = "Example.pdf";
// Save the PDF document to the specified output path
pdf.SaveAs(outputPath);' Load the PDF document from file path
Dim pdf As PdfDocument = PdfDocument.FromFile("C:\dotnet.pdf")
' Define the output path for the saved PDF
Dim outputPath = "Example.pdf"
' Save the PDF document to the specified output path
pdf.SaveAs(outputPath)步骤4:从PDF中提取文本
IronPDF提供了一系列方法从现有PDF文件中提取文本。例如,您可以通过以下代码片段开始从PDF中提取文本并将其打印到控制台上:
// Extract text from the loaded PDF document
string text = pdf.ExtractText();
// Print the extracted text to the console
Console.WriteLine(text);// Extract text from the loaded PDF document
string text = pdf.ExtractText();
// Print the extracted text to the console
Console.WriteLine(text);' Extract text from the loaded PDF document
Dim text As String = pdf.ExtractText()
' Print the extracted text to the console
Console.WriteLine(text)使用上述代码,您可以从PDF文件中提取文本。
使用IronPDF从PDF中提取文本
步骤5:将PDF栅格化为图像
让我们使用IronPDF将PDF文件栅格化为图像。 首先,导入所需的库:
using System.Linq;
using IronPdf;
using IronSoftware.Drawing;using System.Linq;
using IronPdf;
using IronSoftware.Drawing;Imports System.Linq
Imports IronPdf
Imports IronSoftware.Drawing然后代码使用RasterizeToImageFiles 方法将PDF文档的所有页面提取到一个文件夹中作为图像文件。 提取的图像可以保存为PNG或JPG文件,还可以指定图像的尺寸和页面范围。
// Extract all pages to a folder as image files with PNG format
pdf.RasterizeToImageFiles(@"C:\image\folder\*.png");
// Extract all pages to JPG images with specified dimensions
pdf.RasterizeToImageFiles(@"C:\image\folder\example_pdf_image_*.jpg", 100, 80);// Extract all pages to a folder as image files with PNG format
pdf.RasterizeToImageFiles(@"C:\image\folder\*.png");
// Extract all pages to JPG images with specified dimensions
pdf.RasterizeToImageFiles(@"C:\image\folder\example_pdf_image_*.jpg", 100, 80);' Extract all pages to a folder as image files with PNG format
pdf.RasterizeToImageFiles("C:\image\folder\*.png")
' Extract all pages to JPG images with specified dimensions
pdf.RasterizeToImageFiles("C:\image\folder\example_pdf_image_*.jpg", 100, 80)最后,代码使用ToBitmap 方法将所有PDF文档页面提取为AnyBitmap对象,这些对象可以在代码中进一步处理和操作。
// Extract all pages as AnyBitmap objects for further processing
AnyBitmap[] pdfBitmaps = pdf.ToBitmap();// Extract all pages as AnyBitmap objects for further processing
AnyBitmap[] pdfBitmaps = pdf.ToBitmap();' Extract all pages as AnyBitmap objects for further processing
Dim pdfBitmaps() As AnyBitmap = pdf.ToBitmap()上述代码演示了如何使用IronPDF提取PDF文件的内容,并将提取的数据保存为图像文件或AnyBitmap对象以供进一步处理。
步骤7:操作PDF页面
通过使用IronPDF学习操作PDF页面。
代码首先使用RemovePages 方法从PDF文档中移除第二和第三页:
// Remove pages two and three from the PDF document
pdf.RemovePages(1, 2);// Remove pages two and three from the PDF document
pdf.RemovePages(1, 2);' Remove pages two and three from the PDF document
pdf.RemovePages(1, 2)RemovePages 方法需要两个参数:要移除的起始页(在这种情况下,页2,表示为1,因为页码从0开始)和要移除的页数(在这种情况下,2页)。
步骤6:保存PDF
最后,您可以使用SaveAs 方法将PDF文件保存到您的本地系统。 保存PDF文件的代码如下:
// Save the PDF document to a specified output path
pdf.SaveAs(outputPath);// Save the PDF document to a specified output path
pdf.SaveAs(outputPath);' Save the PDF document to a specified output path
pdf.SaveAs(outputPath)然后,SaveAs 将带水印的文档保存为 "Watermarked.pdf"。
IronPDF与所有最新的.NET Framework高度兼容,包括.NET 7。它还支持.NET Blazor和.NET MAUI,这是微软为Web开发提供的最新产品。 该库与这些框架的兼容性使开发人员能够无缝地将IronPDF集成到他们的应用程序中,并利用其强大的功能。
IronPDF的主要功能之一是在.NET Blazor和.NET MAUI中读取PDF文件。 这一功能使开发人员能够快速轻松地读取和提取PDF文件中的数据,并在.NET应用程序中使用它们。 在处理大量数据时,这一功能尤其有用。 开发人员在其.NET项目中使用IronPDF时不需要其他任何库。
获取更多关于IronPDF在.NET Blazor中工作的教程的信息,并在IronPDF的网站上了解将IronPDF与.NET MAUI集成。
结论
总之,编程化地阅读PDF文件在各种行业中至关重要。 IronPDF通过提供广泛的功能以读取、修改和提取PDF文件的内容,提供了一个全面的解决方案。IronPDF易于安装和使用,只需几个简单的步骤。
该库提供了从PDF文档中提取文本、将PDF栅格化为图像、操作页面和保存PDF文件的方法。 无论您是编程化PDF处理的新手还是经验丰富的开发人员,IronPDF都是将您的技能提升到一个新水平的完美工具。
如果您正在寻找一种可靠且高效的解决方案来在C#中阅读PDF文件,IronPDF非常值得探索,尤其是它的许可选项和定价信息,以及提供的免费试用。 您可以在下图中看到IronPDF提供的更多计划。 您可以选择与您的需求匹配的包。
IronPDF许可价格
常见问题解答
如何在 C# 中读取 PDF 文件?
您可以通过首先在.NET项目中通过NuGet包管理器安装IronPDF来使用它。然后,导入库并使用它加载和读取PDF文档,提取文本并在控制台中显示。
哪些行业受益于编程化的PDF处理?
如金融、医疗、法律及教育等行业从编程化PDF处理中获益匪浅,因为这使得数据分析、文件管理更加高效,并可通过像IronPDF这样的工具实现任务自动化。
如何使用C#从PDF文档中提取数据?
使用IronPDF,您可以通过加载PDF并利用ExtractText等方法来编程地读取和处理内容从而从PDF文档中提取数据。
我可以在C#中将PDF文件转换为图像吗?
是的,使用IronPDF,您可以使用RasterizeToImageFiles方法将PDF文件转换为图像,允许您将页面保存为PNG或JPG格式的图像文件。
IronPDF与最新的.NET框架兼容吗?
IronPDF与所有最新的.NET框架兼容,包括.NET 7。它还支持.NET Blazor和.NET MAUI,可集成到各种应用程序类型中。
如何使用C#修改和保存PDF文件?
在使用IronPDF修改PDF文件后,您可以通过使用SaveAs方法并指定修改后文档的输出路径来保存更改。
在.NET项目中使用PDF库包含哪些步骤?
要在.NET项目中使用IronPDF,通过NuGet安装库,将其导入您的项目,然后使用其功能编程地加载、读取和操作PDF文档。
IronPDF在.NET中进行PDF处理时需要其他库吗?
不,IronPDF是一个独立的库,不需要其他附加库,因此可以轻松集成到您的.NET项目中实现全面的PDF处理。
IronPDF用于PDF处理的主要功能是什么?
IronPDF提供诸如文本提取、PDF图像化、页面操作以及与最新.NET框架的兼容性等功能,使其成为在C#中处理PDF文件的强大工具。
IronPDF 是否完全兼容 .NET 10?
是的,IronPDF 开箱即用,支持 .NET 10(以及之前的版本,例如 .NET 9、8、7、6)。您可以使用 IronPDF 在 .NET 10 中构建应用程序,无需任何特殊配置或变通方法。






