跳過到頁腳內容
使用IRONPDF

如何在VB.NET中解析PDF文件

本教學介紹如何利用 IronPDF 的一流支持,以程式設計方式從 PDF 文件中提取文字和圖像。

IronPDF。

特點

高效率的PDF轉換。 機器能做的,IronPDF幾乎都能做。 借助此 PDF 庫,開發人員可以快速建立、讀取文字內容、編寫、載入和操作 PDF。

IronPDF利用Chrome引擎將HTML轉換為PDF文件。它也支援Windows Forms、HTML、ASPX、Razor HTML、.NET Core、ASP.NET、Windows Forms和WPF等技術。 IronPDF 也支援 Xamarin、Blazor、Unity 和 HoloLens 應用程式。 IronPDF 同時支援 Microsoft .NET 和 .NET Core 應用程式(包括 ASP.NET Web 套件和傳統的 Windows 套件)。 IronPDF 可以用來製作美觀的 PDF 檔案。

IronPDF 可以使用 HTML5、JavaScript、CSS 和圖像建立 PDF。 IronPDF 還擁有強大的 HTML 轉 PDF 轉換器,可與 PDF 整合。 IronPDF 採用 Chromium 渲染引擎,內建強大的 PDF 轉換機制,並且獨立於任何外部資源。

  • PDF 圖像可以從多種來源創建,包括 HTML、HTML5、ASPX 和 Razor/MVC View。 HTML 和圖片資源都可以轉換為 PDF。
  • 可用於處理互動式 PDF 的工具包括填寫和提交互動式表單。 *合併和分割 PDF ,從 PDF 文件中提取文本和圖片,在 PDF 文件中搜尋文本,將 PDF 柵格化為圖像,更改字體大小和轉換 PDF 文件。
  • 它允許使用使用者代理、代理伺服器、cookie、HTTP 標頭和表單變數來驗證 HTML 登入表單。
  • 透過 IronPDF,使用者可以透過提供使用者名稱和密碼來存取受保護的文件。 IronPDF 是一款可以讀取 PDF 文件中的文字並填補空白的程式。
  • 允許添加文字、圖像、書籤水印等。
  • 您可以從 CSS 檔案建立 PDF 檔案。

如需了解更多詳情,請造訪IronPDF 授權資訊頁面,以取得免費的限量金鑰和專業版。

如何在 VB.NET 中解析 PDF 文件,圖 1:IronPDF - 字體格式化 IronPDF-字體格式設定

從PDF文件中提取文本

使用 IronPDF 庫,IronPDF 還可以讀取和提取 PDF 文件中的文字。 以下是一個 IronPDF 程式碼模式,可用於檢查目前的 PDF 檔案。

從所有頁面提取文本

下面的程式碼範例示範了第一種方法,即僅用幾行程式碼即可將所有 PDF 內容取得為字串。

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract all the text from the PDF
        Dim AllText As String = pdfdoc.ExtractAllText()

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract all the text from the PDF
        Dim AllText As String = pdfdoc.ExtractAllText()

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
VB .NET

上面的範例程式碼示範如何使用FromFile方法從現有文件中讀取 PDF 並將其轉換為 PDF 文件物件。 該物件提供了一個名為ExtractAllText的方法,該方法將從 PDF 中提取純文字並將其轉換為字串。

按頁碼提取文本

下面的範例程式碼展示如何使用頁碼從 PDF 檔案中提取資料。

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the first page (page numbers are zero-based)
        Dim AllText As String = pdfdoc.ExtractTextFromPage(0)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the first page (page numbers are zero-based)
        Dim AllText As String = pdfdoc.ExtractTextFromPage(0)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
VB .NET

上面的程式碼展示如何使用FromFile函數從現有文件中讀取 PDF 並將其轉換為 PDF 文件物件。 可以使用此物件存取 PDF 中的文字和圖像。 該物件提供了一個名為ExtractTextFromPage方法,允許您將頁碼作為參數發送,以獲取包含 PDF 中該頁上所有單字的字串。

擷取頁間的文本

以下程式碼展示如何擷取多個頁面之間的資料。

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Define a list of page numbers from which to extract text
        Dim Pages As List(Of Integer) = New List(Of Integer) From {3, 5, 7}

        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the specified pages
        Dim AllText As String = pdfdoc.ExtractTextFromPages(Pages)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Define a list of page numbers from which to extract text
        Dim Pages As List(Of Integer) = New List(Of Integer) From {3, 5, 7}

        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the specified pages
        Dim AllText As String = pdfdoc.ExtractTextFromPages(Pages)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
VB .NET

上面的程式碼示範如何使用FromFile方法從現有文件中讀取 PDF 並將其轉換為 PDF 文檔物件。 該物件允許檢查 PDF 中的文字和圖像。 該物件有一個名為ExtractTextFromPages的方法,可以透過傳遞頁碼清單作為參數來取得包含文件給定頁面上所有文字內容的字串。 左側是來源 PDF 文件,右側是提取的資料。

如何在 VB.NET 中解析 PDF 文件,圖 2:提取頁面之間的文字輸出 擷取頁間的文字輸出

從PDF文件中提取圖像

IronPDF 提供了一系列擷取影像的方法,例如:

每種方法都允許從文件的一個或多個頁面中提取圖像。

Imports IronPdf
Imports System.Drawing

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract raw images from the first page
        Dim images = pdfdoc.ExtractRawImagesFromPage(1)

        ' Iterate over extracted images
        For Each imgData As Byte() In images
            ' Create a memory stream from byte data
            Using ms As New IO.MemoryStream(imgData)
                ' Create a Bitmap object from the memory stream
                Dim image = New Bitmap(ms)

                ' Save the image to the specified output directory
                image.Save("output/test.jpg")
            End Using
        Next
    End Sub
End Module
Imports IronPdf
Imports System.Drawing

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract raw images from the first page
        Dim images = pdfdoc.ExtractRawImagesFromPage(1)

        ' Iterate over extracted images
        For Each imgData As Byte() In images
            ' Create a memory stream from byte data
            Using ms As New IO.MemoryStream(imgData)
                ' Create a Bitmap object from the memory stream
                Dim image = New Bitmap(ms)

                ' Save the image to the specified output directory
                image.Save("output/test.jpg")
            End Using
        Next
    End Sub
End Module
VB .NET

上面的程式碼展示如何使用FromFile函數從現有文件中讀取文檔並將其轉換為 PDF 文檔物件。 透過將頁碼傳遞給物件的ExtractRawImagesFromPage方法,可以獲得一個位元組列表,其中包含該文件該頁面上存在的每一張圖片。 使用For Each循環,處理每個位元組流並將其轉換為記憶體流,然後再轉換為Bitmap ,這有助於保存圖片。 下圖顯示了上述程式碼的輸出結果。

如何在 VB.NET 中解析 PDF 文件,圖 3:從 PDF 輸出中提取圖像 從 PDF 輸出中提取影像

要了解有關 IronPDF API 代碼教程的更多信息,請參閱IronPDF 文件。 您還可以存取其他教程,學習如何使用 C# 解析 PDF 文字

結論

IronPDF庫的開發許可免費。 如果在生產環境中使用 IronPDF,可以根據開發人員的需求購買不同的許可證。 Lite 套餐起價為$799 ,沒有後續費用。 同時提供 SaaS 和 OEM 再分發方案。 所有許可證均包含更新、一年的產品支援和永久許可證。 它們對製造、建造和開發也很有用。 這是一次性購買。 還有其他免費的、有時限的許可證可供使用。 請造訪IronPDF 許可資訊頁面,以了解 IronPDF 的完整定價和許可詳情。 IronPDF 也提供免費的防複製許可。

常見問題解答

如何在 VB.NET 中從 PDF 擷取文字?

使用 IronPDF 函式庫,您可以利用 ExtractAllText 方法從 PDF 中萃取文字。這可讓您在 VB.NET 專案中擷取 PDF 文件所有頁面的文字。

是否可以使用 VB.NET 從 PDF 的特定頁面中擷取影像?

是的,IronPDF 允許您使用其 ExtractRawImagesFromPage 方法從特定頁面中提取圖片。此方法會以位元組陣列的方式傳回影像資料,您可以將這些資料轉換成影像檔案。

如何在 VB.NET 中將 HTML 內容轉換為 PDF 文件?

IronPDF 使用 Chromium 渲染引擎提供強大的 HTML 至 PDF 轉換功能。您可以使用 RenderHtmlAsPdf 之類的方法,高效地將 HTML 字串或檔案轉換為 PDF 文件。

在 VB.NET 應用程式中使用 IronPDF 進行 PDF 解析有哪些優點?

IronPDF 提供了提取文本和圖像的多功能 API,支援 HTML 到 PDF 的轉換,並與各種 .NET 平台相容,包括 ASP.NET、Windows Forms 和 Blazor。它還提供不同的授權選項,以滿足開發和生產需求。

如何將 IronPDF 整合到我的 VB.NET 專案中?

若要整合 IronPDF,請從 NuGet 下載該函式庫,並將其新增至您的 VB.NET 專案。這將允許您以程式化的方式存取其解析和處理 PDF 檔案的方法。

IronPDF 可以同時處理 PDF 解析和轉換任務嗎?

是的,IronPDF 旨在高效地處理解析(文本和圖像提取)和轉換任務(如 HTML 到 PDF),使其成為在 VB.NET 中操作 PDF 的全面解決方案。

IronPDF 有哪些授權選項?

IronPDF 提供免費開發許可證和各種生產許可證,包括 Lite、SaaS 和 OEM 再發行。這些授權包含一年的更新與支援,滿足不同專案的需求。

IronPDF 的功能是否依賴任何外部資源?

不,IronPdf 是獨立的,內部使用 Chromium 演算引擎,可確保強大的功能,而不需依賴外部資源進行 PDF 轉換與解析。

IronPDF 是否支援 .NET 10,它對 VB.NET 開發人員有什麼好處?

是的,IronPDF 完全支持 .NET 10 以及 .NET 9、8、7、6、Core、Standard 和 Framework 等早期版本。這意味著針對 .NET 10 的 VB.NET 專案可以使用 IronPDF,而無需額外設定。開發人員可受益於 .NET 10 中新的執行時效能改進 - 例如減少堆分配、更佳的執行時與 JIT 最佳化 - 這些改進增強了 PDF 生成、文字/影像擷取以及 HTML 到 PDF 的渲染。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。