使用 IRONPDF

如何在 VB.NET 中解析 PDF 檔案

已更新 2024年3月10日
分享:

本教程介紹如何使用IronPDF的頂級支持,以程式方式從PDF文件中提取文本和圖像。

IronPDF

功能

高效的 PDF 轉換。 幾乎機器能做到的任何事情,IronPDF 也能做到。 借助這個 PDF 庫,開發人員可以快速地創建、閱讀文本內容、編寫、加載和操作 PDF。

IronPDF 使用 Chrome 引擎將 HTML 轉換為 PDF 文件。 與 Windows Forms、HTML、ASPX、Razor HTML、.NET Core、ASP.NET、Windows Forms 和 WPF 一起使用。 IronPDF 也支持 Xamarin、Blazor、Unity 和 HoloLense 應用程序。 IronPDF 支持 Microsoft .NET 和 .NET Core 應用程序。 (ASP.NET Web 套件和傳統的 Windows 套件). IronPDF 可以用來製作美觀的 PDF 文件。

IronPDF 可以使用 HTML5、JavaScript、CSS 和圖像來創建 PDF。IronPDF 還具備強大的 HTML-到-PDF 轉換工具,並與 PDF 集成。在 IronPDF 中使用 Chromium 渲染引擎實現了強大的 PDF 轉換機制。它也不依賴於任何外部資源。

  • PDF 圖像可以從多種來源創建,包括 HTML、HTML5、ASPX 和 Razor/MVC 視圖。HTML 和圖像資源都可以轉換為 PDF。
  • 可以用來處理互動式 PDF 的工具包括 填寫並提交互動表單. 合併和分割PDF文件, 提取文字和圖片 從 PDF 文件中,搜尋 PDF 文件中的文字, 將 PDF 光柵化為圖像,更改字體大小和轉換 PDF 文件。
  • 它允許使用者代理、代理伺服器、Cookies、HTTP 標頭和表單變量來驗證 HTML 登錄表單。
  • IronPDF 通過提供用戶名和密碼,使訪問受保護的文檔成為可能。
  • IronPDF 是一個可閱讀 PDF 中文本並填補空白的程序。
  • 允許添加文字、圖像、 書籤, 浮水印,以及更多內容。
  • 您可以從 CSS 文件中生成 PDF 檔案。

更多詳情,請訪問此 免費限量密鑰和專業版頁面.

如何在 VB.NET 中解析 PDF 文件,圖 1:IronPDF- 字體格式

IronPDF- 字體格式化

從 PDF 文件中提取文字

IronPDF 也可以利用 IronPDF 函式庫來讀取和提取 PDF 文件中的文字。以下是一個可以用來檢查當前 PDF 文件的 IronPDF 程式碼範例。

從所有頁面提取文字

下面的代碼範例展示了第一種方法,只需幾行代碼即可將所有PDF內容作為字符串獲取。

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
VB.NET

上面的示例代码演示了如何使用 FromFile 方法從現有文件中讀取 PDF 並將其轉換為 PDF 文檔對象。該對象提供了一種方法 提取所有文字 將從PDF中提取純文字並將其轉換為字串。

按頁碼提取文字

以下範例代碼顯示如何使用頁碼從PDF檔案中提取數據。

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
VB.NET

上面的代碼顯示如何從現有文件讀取PDF並將其轉換為PDF文檔對象使用IronPDF。 從文件 方法。可以使用此對象在PDF上訪問文本和圖像。該對象提供了一個名為 提取頁面文字 允許將頁碼作為參數發送,以獲取包含該頁面上所有單詞的字符串。

從多頁之間提取文本

下面的代碼展示了如何在多個頁面之間提取數據。

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
VB.NET

上面的代碼示範了如何使用 FromFile 方法從現有文件讀取 PDF 並將其轉換為 PDF 文檔對象。這個對象允許檢查 PDF 上的文本和圖像。該對象有一個名為 ExtractTextFromPages 可以通過傳遞頁碼列表參數來獲取包含文檔中給定頁面所有文本內容的字符串。左邊是源PDF,右邊是提取的數據。

如何在 VB.NET 中解析 PDF 檔案,圖2:在頁面之間提取文本輸出

提取頁面之間的文字輸出

從 PDF 中提取圖像

IronPDF 提供一系列提取圖像的方法,如下所示:

每個方法都允許從文件的單頁或多頁中提取圖像。

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
VB.NET

上面的程式碼展示了如何從現有文件中讀取並使用 FromFile 函數將其轉換為 PDF 文件對象。通過將頁碼列表傳遞給對象的 ExtractRawImagesFromPage 方法,可以獲得包含文件中給定頁面上所有圖片的字節列表。使用 foreach 迴圈處理每個字節並將其轉換為內存流。然後轉換為位圖,有助於圖片保存。下面的圖片顯示了上述程式碼的輸出。

如何在VB.NET中解析PDF文件,圖3:從PDF輸出中提取圖片

從 PDF 輸出文件提取圖像

要了解更多 IronPDF API 的代碼教程,請參考 文件頁面您還可以訪問其他教程以學習如何 使用 C# 解析 PDF 文本.

結論

IronPDF 庫的開發許可證是免費的。如果在生產環境中使用 IronPDF,可以根據開發人員的需求購買不同的許可證。Lite 計劃從 $749 開始,並且沒有持續的費用。還提供 SaaS 和 OEM 重新分發方案。所有許可證均包括更新、一年的產品支持和永久許可證。它們對於製造、暫存和開發也非常有用。這是一個一次性購買。另外還有額外的免費、限時許可證可供使用。請訪問這個 授權頁面 閱讀 IronPDF 的完整定價和授權詳情。IronPDF 也提供免費授權以進行版權保護。

< 上一頁
如何解除 PDF 安全性(初學者教程)
下一個 >
如何在 .NET 中將 PDF 轉換為 JPG

準備開始了嗎? 版本: 2024.10 剛剛發布

免費 NuGet 下載 總下載次數: 10,993,239 查看許可證 >