使用 IRONPDF

如何在 VB.NET 中解析 PDF 檔案

已更新 2024年3月10日
分享:

本教程介紹如何使用IronPDF的頂級支持,以程式方式從PDF文件中提取文本和圖像。

IronPDF

功能

高效的 PDF 轉換。 幾乎任何機器能做到的事情,IronPDF 也能做到。 由於這個PDF函式庫,開發人員可以快速地創建、讀取文本內容、寫入、加載以及操作PDF。

IronPDF 使用 Chrome 引擎將 HTML 轉換為 PDF 檔案。適用於 Windows Forms、HTML、ASPX、Razor HTML、.NET Core、ASP.NET、Windows Forms 和 WPF。 IronPDF 也支援 Xamarin、Blazor、Unity 和 HoloLense 應用程式。 IronPDF 支援 Microsoft .NET 和 .NET Core 應用程式(ASP.NET Web 套件和傳統的 Windows 套件). IronPDF 可用於製作美觀的 PDF。

IronPDF 可以使用 HTML5、JavaScript、CSS 和圖片創建 PDF。 IronPDF 也具有強大的 HTML 到 PDF 轉換器,能與 PDF 進行整合。 IronPDF 具有強大的 PDF 轉換機制,使用 Chromium 渲染引擎。它也不依賴任何外部來源。

  • PDF 圖像可以從多種來源建立,包括 HTML、HTML5、ASPX 和 Razor/MVC View。 HTML 和圖像資產均可轉換為 PDF。
  • 可用來處理互動式PDF的工具包括填写并提交互动表单.

    *合併和分割PDF文件, Extract text and images從 PDF 文件中,搜尋 PDF 文件中的文字,將 PDF 光柵化為圖像,變更字型大小並轉換 PDF 檔案。

  • 它允許使用者代理、代理、Cookie、HTTP 標頭和表單變數來驗證 HTML 登入表單。
  • IronPDF 透過提供用戶名稱和密碼,使訪問受保護的文件成為可能。
  • IronPDF 是一個可以閱讀 PDF 文件中的文字並填補其中空白的程式。
  • 允許添加文字、圖片,書籤, 浮水印,以及更多。
  • 您可以從 CSS 檔案建立 PDF 檔案。

    欲了解更多詳情,請訪問此頁面IronPDF 授權資訊頁面免費限量版金鑰和專業版。

    如何在 VB.NET 中解析 PDF 文件,圖 1:IronPDF- 字體格式

    IronPDF- 字體格式化

從 PDF 文件中提取文字

IronPDF 也可以使用 IronPDF 庫來讀取和擷取 PDF 文件中的文本。 以下是一個可用來檢視現有 PDF 文件的 IronPDF 代碼範例。

從所有頁面提取文本

以下代碼示例展示了第一種方法,僅用幾行就能將所有 PDF 內容獲取為字串。

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
VB.NET

上面的示例程式碼展示瞭如何使用 FromFile 方法從現有文件中讀取 PDF 並將其轉換為 PDF 文件物件。 該對象提供了一個名為的方法提取所有文字將從PDF中提取純文字並將其轉換為字串。

按頁碼提取文本

以下範例程式碼顯示如何使用頁碼從 PDF 文件中提取資料。

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
VB.NET

上面的代碼顯示如何從現有文件讀取PDF並將其轉換為PDF文檔對象使用IronPDF。從文件函數。 可以使用此物件訪問 PDF 上的文字和圖像。 該對象提供了一個名為的方法提取頁面文字允許將頁碼作為參數發送,以獲取包含該頁面上所有單詞的字符串。

提取頁面之間的文本

以下程式碼顯示如何提取多個頁面之間的數據。

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
VB.NET

上面的程式碼展示了如何使用 FromFile 方法從現有文件中讀取 PDF,並將其轉換為 PDF 文件物件。 此對象允許檢查 PDF 中的文字和圖像。 該對象有一個名為的方法ExtractTextFromPages可以透過將頁碼列表作為參數傳遞,從而獲取一個包含指定頁面所有文本內容的字串。 左側是來源 PDF,右側是提取的數據。

如何在 VB.NET 中解析 PDF 檔案,圖2:在頁面之間提取文本輸出

提取頁面之間的文字輸出

從 PDF 文件提取圖片

IronPDF 提供了一系列提取圖像的方法,例如:

*從頁面提取位圖

*從頁面提取位圖

*從頁面提取圖片

*從頁面提取圖像

*從頁面提取原始圖片

*Extract Raw Images from Pages

每個方法都允許從文件的單頁或多頁中提取圖像。

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
VB.NET

上面的代碼展示了如何從現有文件中讀取文檔,並使用 FromFile 函數將其轉換為 PDF 文檔對象。 通過將頁碼列表傳遞給物件的 ExtractRawImagesFromPage 方法,可以獲得一個字節列表,其中包含文件中指定頁面上的每一張圖片。 使用 foreach 迴圈處理每個位元組並將其轉換為記憶體流。 然後轉換為位圖,有助於保存圖片。 下圖顯示了上述程式碼的輸出。

如何在VB.NET中解析PDF文件,圖3:從PDF輸出中提取圖片

從 PDF 輸出中提取圖像

如需了解有關 IronPDF API 程式碼教學的更多資訊,請參考IronPDF 文件說明. 您也可以訪問其他教程來學習如何使用 C# 解析 PDF 文本.

結論

IronPDF 圖書館的開發許可證是免費的。 如果在生產環境中使用IronPDF,可以根據開發者的需求購買不同的授權。 Lite 計畫的起價為 $749,且無持續費用。 還提供SaaS和OEM重新分發的替代方案。 所有授權均包含更新、一年的產品支援和永久授權。 它們對於製造、階段性測試和開發也很有用。 這是一個一次性的購買。 有額外的免費限時許可證可供使用。 訪問全面的IronPDF授權資訊查看IronPDF的完整定價和授權詳細信息。 IronPDF 還提供用於防拷貝的免費授權。

< 上一頁
如何解除 PDF 安全性(初學者教程)
下一個 >
如何在 .NET 中將 PDF 轉換為 JPG

準備開始了嗎? 版本: 2024.11 剛剛發布

免費 NuGet 下載 總下載次數: 11,436,010 查看許可證 >