使用IRONPDF

如何在VB.NET中解析PDF文件

更新 2024年三月10日
分享:

本教程介绍如何利用 IronPDF 的一流支持,以编程方式从 PDF 文件中提取文本和图像。

IronPDF

功能

高效的 PDF 转换。几乎机器能做的事情,IronPDF 都能做到。有了这个 PDF 库,开发人员可以快速创建、读取文本内容、编写、加载和处理 PDF。

IronPDF 借助 Chrome 引擎将 HTML 转换为 PDF 记录。除了 Windows Forms、HTML、ASPX、Razor HTML、.NET Core、ASP.NET、Windows Forms 和 WPF 之外,IronPDF 还支持 Xamarin、Blazor、Unity 和 HoloLense 应用程序。IronPDF 还支持 Xamarin、Blazor、Unity 和 HoloLense 应用程序。IronPDF 支持 Microsoft .NET 和 .NET Core 应用程序 (ASP.NET Web 软件包和传统的 Windows 软件包).IronPDF 可用于制作美观的 PDF。

IronPDF 可以使用 HTML5、JavaScript、CSS 和图片创建 PDF。IronPDF 还有一个功能强大的 HTML 到 PDF 转换器,可与 PDF 集成。IronPDF 采用 Chromium 渲染引擎,拥有强大的 PDF 转换机制。它还与任何外部资源无关。

  • PDF 图像可以从各种来源创建,包括 HTML、HTML5、ASPX 和 Razor/MVC 视图。HTML 和图像资产都可以转换为 PDF。
  • 可用于处理交互式 PDF 的工具包括 填写和提交互动表格.
  • 合并和分割 PDF 文件, 提取文本和图片 从 PDF 文件中搜索 PDF 文件中的文本、 将 PDF 文件栅格化为图像还可以更改字体大小和转换 PDF 文件。
  • 它允许使用用户代理、代理、cookies、HTTP 标头和表单变量对 HTML 登录表单进行验证。
  • 通过提供用户名和密码,IronPDF 可以访问安全文档。
  • IronPDF 是一款能读取 PDF 中的文本并补全空白的程序。
  • 允许添加文本、图像、 书签, 水印等等。
  • 你可以从 CSS 文件创建 PDF 文件。

更多详情,请访问 免费有限密钥和专业版的页面.

如何在 VB.NET 中解析 PDF 文件,图 1:IronPDF- 字体格式化

IronPDF- 字体格式化

从 PDF 文件中提取文本

借助 IronPDF 库,IronPDF 还可以从 PDF 文件中读取和提取文本。下面是一种 IronPDF 代码模式,可用于检查当前的 PDF 文件。

从所有页面提取文本

下面的代码示例演示了第一种方法,只需几行代码就能以字符串形式获取 PDF 的所有内容。

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
VB.NET

上面的示例代码演示了如何使用 FromFile 方法从现有文件读取 PDF 并将其转换为 PDF 文档对象。该对象提供了一个名为 提取所有文本 能从 PDF 中提取纯文本并将其转化为字符串。

按页码提取文本

下面的示例代码展示了如何使用页码从 PDF 文件中提取数据。

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
VB.NET

上面的代码展示了如何从现有文件中读取 PDF,并使用 从文件 功能。使用该对象可以访问 PDF 上的文本和图像。该对象提供了一个名为 从页面提取文本 可将页码作为参数发送,以获取包含 PDF 页面上每个单词的字符串。

在页面之间提取文本

下面的代码展示了如何提取多个页面之间的数据。

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
VB.NET

上面的代码演示了如何使用 FromFile 方法从现有文件读取 PDF 并将其转换为 PDF 文档对象。该对象允许检查 PDF 上的文本和图像。该对象有一个名为 从页面提取文本 可用于获取一个字符串,该字符串包含文档指定页面上的所有文本内容,只需将页码列表作为参数传递即可。下面左侧是源 PDF,右侧是提取的数据。

如何在 VB.NET 中解析 PDF 文件,图 2:提取输出页面之间的文本

提取页面之间的文本输出

从 PDF 文件中提取图像

IronPDF 提供了一系列提取图像的方法,例如

每种方法都可以从一页或多页文档中提取图像。

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
VB.NET

上面的代码展示了如何使用 FromFile 函数从现有文件中读取文档并将其转化为 PDF 文档对象。通过向对象的 ExtractRawImagesFromPage 方法传递页码列表,可以获得一个字节列表,其中包含文档给定页面上的每张图片。使用一个 foreach 循环来处理每个字节,并将其转化为内存流。然后将其转化为位图,以帮助保存图片。下图显示了上述代码的输出结果。

如何在 VB.NET 中解析 PDF 文件,图 3:从 PDF 输出中提取图像

从 PDF 输出中提取图像

要了解有关 IronPDF API 代码教程的更多信息,请参阅 文档页面.您还可以访问其他教程,了解如何 使用 C# 解析 PDF 文本.

结论

IronPDF 库的开发许可证是免费的。如果在生产环境中使用 IronPDF,可根据开发人员的需求购买不同的许可证。Lite 计划起价为 $749,没有持续费用。此外还提供 SaaS 和 OEM 再分发替代方案。所有许可证都包括更新、一年的产品支持和永久许可证。它们还适用于制造、暂存和开发。这是一次性购买。还可获得其他免费、有时间限制的许可证。请访问 许可页面 阅读 IronPDF 的完整定价和许可详情。IronPDF 还提供用于复制保护的免费许可证。

< 前一页
如何解除PDF的安全性(初学者教程)
下一步 >
如何在 .NET 中将 PDF 转换为 JPG

准备开始了吗? 版本: 2024.9 刚刚发布

免费NuGet下载 总下载量: 10,731,156 查看许可证 >