跳至页脚内容
使用IRONPDF

如何在C#中读取PDF文件?

编程化的PDF处理在金融、医疗、法律、和教育等行业中至关重要,这些行业需要从PDF文档中处理、分析和提取关键信息,用于数据分析、文档管理和自动化等目的。 尽管其重要性,这项任务可能具有挑战性。

IronPDF:一个C# PDF库

IronPDF使您能够轻松处理极其复杂的任务。 它允许您像在文本文件中一样轻松编辑PDF文档中的文本,同时允许您在任何操作系统中导出文件。 IronPDF应用程序涵盖了查看、修改和提取PDF内容的完整流程。

使用IronPDF采取正确的步骤

使用安装了IronPDF软件的任何计算机,您都可以快速轻松地读取和写入PDF文件格式。 安装是一个简单的任务。 这是学习在C#中读取PDF文件的最佳方法。 您还可以免费下载IronPDF用于开发。 如果您探索IronPDF,您会注意到该库提供了广泛的功能,使得使用PDF非常简单。 在您的空闲时间探索类!有几个使用HTML创建PDF的C#示例可用,以帮助您了解如何通过阅读PDF创建最佳输出。

使用IronPDF读取PDF文件

步骤1:安装IronPDF包

首先,您需要在您的.NET项目中安装IronPDF NuGet包。 您可以通过在Visual Studio中打开包管理器控制台并输入以下命令来完成此操作:

Install-Package IronPdf

步骤2:导入IronPDF库

接下来,您需要将IronPDF库导入您的代码中,方法是将以下语句添加到文件顶部:

using IronPdf;
using IronPdf;
Imports IronPdf
$vbLabelText   $csharpLabel

步骤3:加载PDF文档

一旦您导入了IronPDF库,您就可以通过以下代码将PDF文档加载到您的代码中:

// Load the PDF document from file path
PdfDocument pdf = PdfDocument.FromFile(@"C:\dotnet.pdf");

// Define the output path for the saved PDF
var outputPath = "Example.pdf";

// Save the PDF document to the specified output path
pdf.SaveAs(outputPath);
// Load the PDF document from file path
PdfDocument pdf = PdfDocument.FromFile(@"C:\dotnet.pdf");

// Define the output path for the saved PDF
var outputPath = "Example.pdf";

// Save the PDF document to the specified output path
pdf.SaveAs(outputPath);
' Load the PDF document from file path
Dim pdf As PdfDocument = PdfDocument.FromFile("C:\dotnet.pdf")

' Define the output path for the saved PDF
Dim outputPath = "Example.pdf"

' Save the PDF document to the specified output path
pdf.SaveAs(outputPath)
$vbLabelText   $csharpLabel

步骤4:从PDF中提取文本

IronPDF提供了一系列方法从现有PDF文件中提取文本。例如,您可以通过以下代码片段开始从PDF中提取文本并将其打印到控制台上:

// Extract text from the loaded PDF document
string text = pdf.ExtractText();

// Print the extracted text to the console
Console.WriteLine(text);
// Extract text from the loaded PDF document
string text = pdf.ExtractText();

// Print the extracted text to the console
Console.WriteLine(text);
' Extract text from the loaded PDF document
Dim text As String = pdf.ExtractText()

' Print the extracted text to the console
Console.WriteLine(text)
$vbLabelText   $csharpLabel

使用上述代码,您可以从PDF文件中提取文本

如何在C#中读取PDF文件,图1:使用IronPDF从PDF中提取文本 使用IronPDF从PDF中提取文本

步骤5:将PDF栅格化为图像

让我们使用IronPDF将PDF文件栅格化为图像。 首先,导入所需的库:

using System.Linq;
using IronPdf;
using IronSoftware.Drawing;
using System.Linq;
using IronPdf;
using IronSoftware.Drawing;
Imports System.Linq
Imports IronPdf
Imports IronSoftware.Drawing
$vbLabelText   $csharpLabel

然后代码使用RasterizeToImageFiles 方法将PDF文档的所有页面提取到一个文件夹中作为图像文件。 提取的图像可以保存为PNG或JPG文件,还可以指定图像的尺寸和页面范围。

// Extract all pages to a folder as image files with PNG format
pdf.RasterizeToImageFiles(@"C:\image\folder\*.png");

// Extract all pages to JPG images with specified dimensions
pdf.RasterizeToImageFiles(@"C:\image\folder\example_pdf_image_*.jpg", 100, 80);
// Extract all pages to a folder as image files with PNG format
pdf.RasterizeToImageFiles(@"C:\image\folder\*.png");

// Extract all pages to JPG images with specified dimensions
pdf.RasterizeToImageFiles(@"C:\image\folder\example_pdf_image_*.jpg", 100, 80);
' Extract all pages to a folder as image files with PNG format
pdf.RasterizeToImageFiles("C:\image\folder\*.png")

' Extract all pages to JPG images with specified dimensions
pdf.RasterizeToImageFiles("C:\image\folder\example_pdf_image_*.jpg", 100, 80)
$vbLabelText   $csharpLabel

最后,代码使用ToBitmap 方法将所有PDF文档页面提取为AnyBitmap对象,这些对象可以在代码中进一步处理和操作。

// Extract all pages as AnyBitmap objects for further processing
AnyBitmap[] pdfBitmaps = pdf.ToBitmap();
// Extract all pages as AnyBitmap objects for further processing
AnyBitmap[] pdfBitmaps = pdf.ToBitmap();
' Extract all pages as AnyBitmap objects for further processing
Dim pdfBitmaps() As AnyBitmap = pdf.ToBitmap()
$vbLabelText   $csharpLabel

上述代码演示了如何使用IronPDF提取PDF文件的内容,并将提取的数据保存为图像文件或AnyBitmap对象以供进一步处理。

步骤7:操作PDF页面

通过使用IronPDF学习操作PDF页面

代码首先使用RemovePages 方法从PDF文档中移除第二和第三页:

// Remove pages two and three from the PDF document
pdf.RemovePages(1, 2);
// Remove pages two and three from the PDF document
pdf.RemovePages(1, 2);
' Remove pages two and three from the PDF document
pdf.RemovePages(1, 2)
$vbLabelText   $csharpLabel

RemovePages 方法需要两个参数:要移除的起始页(在这种情况下,页2,表示为1,因为页码从0开始)和要移除的页数(在这种情况下,2页)。

步骤6:保存PDF

最后,您可以使用SaveAs 方法将PDF文件保存到您的本地系统。 保存PDF文件的代码如下:

// Save the PDF document to a specified output path
pdf.SaveAs(outputPath);
// Save the PDF document to a specified output path
pdf.SaveAs(outputPath);
' Save the PDF document to a specified output path
pdf.SaveAs(outputPath)
$vbLabelText   $csharpLabel

然后,SaveAs 将带水印的文档保存为 "Watermarked.pdf"。

IronPDF与所有最新的.NET Framework高度兼容,包括.NET 7。它还支持.NET Blazor和.NET MAUI,这是微软为Web开发提供的最新产品。 该库与这些框架的兼容性使开发人员能够无缝地将IronPDF集成到他们的应用程序中,并利用其强大的功能。

IronPDF的主要功能之一是在.NET Blazor和.NET MAUI中读取PDF文件。 这一功能使开发人员能够快速轻松地读取和提取PDF文件中的数据,并在.NET应用程序中使用它们。 在处理大量数据时,这一功能尤其有用。 开发人员在其.NET项目中使用IronPDF时不需要其他任何库。

获取更多关于IronPDF在.NET Blazor中工作的教程的信息,并在IronPDF的网站上了解将IronPDF与.NET MAUI集成

结论

总之,编程化地阅读PDF文件在各种行业中至关重要。 IronPDF通过提供广泛的功能以读取、修改和提取PDF文件的内容,提供了一个全面的解决方案。IronPDF易于安装和使用,只需几个简单的步骤。

该库提供了从PDF文档中提取文本将PDF栅格化为图像、操作页面和保存PDF文件的方法。 无论您是编程化PDF处理的新手还是经验丰富的开发人员,IronPDF都是将您的技能提升到一个新水平的完美工具。

如果您正在寻找一种可靠且高效的解决方案来在C#中阅读PDF文件,IronPDF非常值得探索,尤其是它的许可选项和定价信息,以及提供的免费试用。 您可以在下图中看到IronPDF提供的更多计划。 您可以选择与您的需求匹配的包。

如何在C#中读取PDF文件,图2:IronPDF许可价格 IronPDF许可价格

常见问题解答

如何在 C# 中读取 PDF 文件?

您可以通过首先在.NET项目中通过NuGet包管理器安装IronPDF来使用它。然后,导入库并使用它加载和读取PDF文档,提取文本并在控制台中显示。

哪些行业受益于编程化的PDF处理?

如金融、医疗、法律及教育等行业从编程化PDF处理中获益匪浅,因为这使得数据分析、文件管理更加高效,并可通过像IronPDF这样的工具实现任务自动化。

如何使用C#从PDF文档中提取数据?

使用IronPDF,您可以通过加载PDF并利用ExtractText等方法来编程地读取和处理内容从而从PDF文档中提取数据。

我可以在C#中将PDF文件转换为图像吗?

是的,使用IronPDF,您可以使用RasterizeToImageFiles方法将PDF文件转换为图像,允许您将页面保存为PNG或JPG格式的图像文件。

IronPDF与最新的.NET框架兼容吗?

IronPDF与所有最新的.NET框架兼容,包括.NET 7。它还支持.NET Blazor和.NET MAUI,可集成到各种应用程序类型中。

如何使用C#修改和保存PDF文件?

在使用IronPDF修改PDF文件后,您可以通过使用SaveAs方法并指定修改后文档的输出路径来保存更改。

在.NET项目中使用PDF库包含哪些步骤?

要在.NET项目中使用IronPDF,通过NuGet安装库,将其导入您的项目,然后使用其功能编程地加载、读取和操作PDF文档。

IronPDF在.NET中进行PDF处理时需要其他库吗?

不,IronPDF是一个独立的库,不需要其他附加库,因此可以轻松集成到您的.NET项目中实现全面的PDF处理。

IronPDF用于PDF处理的主要功能是什么?

IronPDF提供诸如文本提取、PDF图像化、页面操作以及与最新.NET框架的兼容性等功能,使其成为在C#中处理PDF文件的强大工具。

IronPDF 是否完全兼容 .NET 10?

是的,IronPDF 开箱即用,支持 .NET 10(以及之前的版本,例如 .NET 9、8、7、6)。您可以使用 IronPDF 在 .NET 10 中构建应用程序,无需任何特殊配置或变通方法。

Curtis Chau
技术作家

Curtis Chau 拥有卡尔顿大学的计算机科学学士学位,专注于前端开发,精通 Node.js、TypeScript、JavaScript 和 React。他热衷于打造直观且美观的用户界面,喜欢使用现代框架并创建结构良好、视觉吸引力强的手册。

除了开发之外,Curtis 对物联网 (IoT) 有浓厚的兴趣,探索将硬件和软件集成的新方法。在空闲时间,他喜欢玩游戏和构建 Discord 机器人,将他对技术的热爱与创造力相结合。