跳過到頁腳內容
使用IRONPDF

如何在VB.NET中解析PDF文件

本教學介紹如何透過程式設計方式從 PDF 檔案中提取文字和圖像,並獲得IronPDF的一流支援。

IronPDF

特徵

高效率的PDF轉換。 機器能做的, IronPDF幾乎都能做。 借助此 PDF 庫,開發人員可以快速建立、讀取文字內容、編寫、載入和操作 PDF。

IronPDF利用Chrome引擎將HTML轉換為PDF文件。它也支援Windows Forms、HTML、ASPX、 Razor HTML、 .NET Core、 ASP.NET、Windows Forms和WPF等技術。 IronPDF也支援 Xamarin、 Blazor、Unity 和 HoloLens 應用程式。 IronPDF同時支援 Microsoft .NET和.NET Core應用程式(包括ASP.NET Web 套件和傳統的 Windows 套件)。 IronPDF可以用來製作美觀的 PDF 檔案。

IronPDF可以使用 HTML5、 JavaScript、CSS 和圖像建立 PDF。 IronPDF還擁有強大的 HTML 轉 PDF 轉換器,可與 PDF 整合。 IronPDF採用 Chromium 渲染引擎,內建強大的 PDF 轉換機制,並且獨立於任何外部資源。

  • PDF 圖像可以從多種來源創建,包括 HTML、HTML5、ASPX 和Razor/MVC View。 HTML 和圖片資源都可以轉換為 PDF。
  • 可用於處理互動式 PDF 的工具包括填寫和提交互動式表單。 *合併和分割 PDF ,從 PDF 文件中提取文本和圖片,在 PDF 文件中搜尋文本,將 PDF 柵格化為圖像,更改字體大小和轉換 PDF 文件。
  • 它允許使用使用者代理、代理伺服器、cookie、HTTP 標頭和表單變數來驗證 HTML 登入表單。
  • 透過IronPDF ,使用者可以透過提供使用者名稱和密碼來存取受保護的文件。 IronPDF是一款可以讀取 PDF 文件中的文字並填補空白的程式。
  • 允許添加文字、圖像、書籤水印等。
  • 您可以從 CSS 檔案建立 PDF 檔案。

如需了解更多詳情,請造訪IronPDF授權資訊頁面,以取得免費的限量金鑰和專業版。

如何在.NET中解析PDF文件,圖1: IronPDF- 字型格式化 IronPDF- 字體格式化

從PDF文件中提取文本

借助IronPDF庫, IronPDF還可以讀取和提取 PDF 文件中的文字。 以下是一個IronPDF程式碼模式,可用來檢查目前的 PDF 檔案。

從所有頁面提取文本

下面的程式碼範例示範了第一種方法,即僅用幾行程式碼即可將所有 PDF 內容取得為字串。

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract all the text from the PDF
        Dim AllText As String = pdfdoc.ExtractAllText()

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module

上面的範例程式碼示範如何使用 FromFile 方法從現有文件中讀取 PDF 並將其轉換為 PDF 文件物件。 該物件提供了一個名為ExtractAllText的方法,該方法將從 PDF 中提取純文字並將其轉換為字串。

按頁碼提取文本

下面的範例程式碼展示如何使用頁碼從 PDF 檔案中提取資料。

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the first page (page numbers are zero-based)
        Dim AllText As String = pdfdoc.ExtractTextFromPage(0)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module

上面的程式碼展示如何從現有文件中讀取 PDF 並使用FromFile函數將其轉換為 PDF 文件物件。 可以使用此物件存取 PDF 中的文字和圖像。 該物件提供了一個名為ExtractTextFromPage的方法,允許您將頁碼作為參數發送,以獲取包含 PDF 中該頁上所有單字的字串。

擷取頁間的文本

以下程式碼展示如何擷取多個頁面之間的資料。

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Define a list of page numbers from which to extract text
        Dim Pages As List(Of Integer) = New List(Of Integer) From {3, 5, 7}

        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the specified pages
        Dim AllText As String = pdfdoc.ExtractTextFromPages(Pages)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module

上面的程式碼示範如何使用 FromFile 方法從現有文件中讀取 PDF 並將其轉換為 PDF 文件物件。 該物件允許檢查 PDF 中的文字和圖像。 該物件有一個名為ExtractTextFromPages的方法,可以透過傳遞頁碼清單作為參數來取得包含文件給定頁面上所有文字內容的字串。 左側是來源 PDF 文件,右側是提取的資料。

如何在.NET中解析PDF文件,圖2:提取頁間的文字輸出 擷取頁間的文字輸出

從PDF文件中提取圖像

IronPDF提供了一系列擷取影像的方法,例如:

每種方法都允許從文件的一個或多個頁面中提取圖像。

Imports IronPdf
Imports System.Drawing

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract raw images from the first page
        Dim images = pdfdoc.ExtractRawImagesFromPage(1)

        ' Iterate over extracted images
        For Each imgData As Byte() In images
            ' Create a memory stream from byte data
            Using ms As New IO.MemoryStream(imgData)
                ' Create a Bitmap object from the memory stream
                Dim image = New Bitmap(ms)

                ' Save the image to the specified output directory
                image.Save("output/test.jpg")
            End Using
        Next
    End Sub
End Module

上面的程式碼顯示如何使用 FromFile 函數從現有文件中讀取文件並將其轉換為 PDF 文檔物件。 透過將頁碼傳遞給物件的 ExtractRawImagesFromPage 方法,可以獲得一個位元組列表,其中包含文件該頁面上存在的每一張圖片。 使用 For Each 循環,處理每個位元組流並將其轉換為記憶體流,然後再轉換為 Bitmap,這有助於保存影像。 下圖顯示了上述程式碼的輸出結果。

如何在.NET中解析PDF文件,圖3:從PDF輸出中提取圖像 從 PDF 輸出中提取影像

要了解有關IronPDF API 程式碼教學的更多信息,請參閱IronPDF文件。 您還可以存取其他教程,學習如何使用 C# 解析 PDF 文字

結論

IronPDF庫的開發許可免費。 如果在生產環境中使用IronPDF ,可以根據開發人員的需求購買不同的許可證。 Lite 套餐起價為 $799,沒有後續費用。 同時提供 SaaS 和 OEM 再分發方案。 所有許可證均包含更新、一年的產品支援和永久許可證。 它們對製造、建造和開發也很有用。 這是一次性購買。 還有其他免費的、有時限的許可證可供使用。 請造訪IronPDF 的全面許可資訊頁面,閱讀IronPDF的完整定價和許可詳情。 IronPDF也提供免費的防複製許可。

常見問題解答

如何在 VB.NET 中從 PDF 提取文本?

使用 IronPDF 程式庫,您可以利用 ExtractAllText 方法從 PDF 中提取文本。這使您能夠在 VB.NET 項目中從 PDF 文檔的所有頁面檢索文本。

使用 VB.NET 是否可以從 PDF 的特定頁面提取圖像?

是的,IronPDF 允許您使用 ExtractRawImagesFromPage 方法從特定頁面提取圖像。該方法將圖像數據作為位元組陣列返回,您可以將其轉換為圖像檔案。

如何在 VB.NET 中將 HTML 內容轉換為 PDF 文檔?

IronPDF 提供強大的 HTML 到 PDF 轉換,使用 Chromium 渲染引擎。您可以使用像 RenderHtmlAsPdf 這樣的方法有效地將 HTML 字符串或文件轉換為 PDF 文檔。

在 VB.NET 應用中使用 IronPDF 解析 PDF 的益處是什麼?

IronPDF 提供多功能的 API 用於提取文本和圖像,支持 HTML 到 PDF 轉換,並且兼容各種 .NET 平台,包括 ASP.NET、Windows Forms 和 Blazor。它還提供不同的授權選項,以滿足開發和生產需求。

如何在我的 VB.NET 項目中集成 IronPDF?

要集成 IronPDF,從 NuGet 下載該程式庫並將其添加到您的 VB.NET 項目中。這將允許您程序化地訪問其解析和操作 PDF 文件的方法。

IronPDF 能否同時處理 PDF 解析和轉換任務?

是的,IronPDF 被設計用來有效地處理解析(文本和圖像提取)和轉換任務(如 HTML 到 PDF),使其成為 PDF 操作的全面解決方案。

IronPDF 的許可選擇有哪些?

IronPDF 提供免費的開發許可和各種生產許可,包括 Lite、SaaS 和 OEM 再分發。這些許可包括更新和一年的支持,來滿足不同項目的需要。

IronPDF 的功能是否依賴於任何外部資源?

不,IronPDF 是自包含的,使用 Chromium 渲染引擎內部處理,確保在 PDF 轉換和解析過程中的強大功能而無需依賴外部資源。

IronPDF是否支援.NET 10以及它對VB.NET開發者有何好處?

是的,IronPDF完全支援.NET 10,以及較早的版本如.NET 9、8、7、6、Core、Standard和Framework。這意味著針對.NET 10的VB.NET專案可以使用IronPDF而無需額外配置。開發者將受益於.NET 10的新執行效能提升,例如減少堆積配置、優化的運行時和JIT優化,這增強了PDF生成、文本/圖像提取和HTML到PDF的渲染。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me