跳過到頁腳內容
使用IRONPDF

如何在VB.NET中解析PDF文件

本教程介紹了如何使用來自IronPDF的一流支持,以編程方式從PDF文件中提取文本和圖像。

class="hsg-featured-snippet">

如何在VB.NET中解析PDF文件

  1. 下載IronPDF C#庫以解析PDF文件
  2. 使用FromFile方法在VB.NET中解析PDF文件
  3. 使用ExtractAllText方法從已打開的PDF中提取文本
  4. 使用ExtractTextFromPages方法從某些頁面中提取文本
  5. 使用ExtractRawImagesFromPage方法從已打開的PDF中提取圖像

IronPDF

功能

高效的PDF轉換。 幾乎所有機器能做到的事情,IronPDF也能做到。 得益於這個PDF庫,開發人員可以快速創建、讀取文本內容、寫入、加載和操作PDF。

IronPDF使用Chrome引擎將HTML轉換成PDF記錄。與Windows Forms,HTML,ASPX,Razor HTML,.NET Core,ASP.NET,Windows Forms和WPF一起使用。 IronPDF還支持Xamarin,Blazor,Unity和HoloLens應用程序。 IronPDF支持Microsoft .NET和.NET Core應用程序(包括ASP.NET Web包和傳統Windows包)。 IronPDF可用於製作美觀吸引人的PDF。

IronPDF可以使用HTML5,JavaScript,CSS和圖像創建PDF。 IronPDF還擁有強大的HTML到PDF轉換器,可以與PDF集成。 IronPDF使用Chromium渲染引擎具備強大的PDF轉換機制。它也不依賴於任何外部來源。

  • PDF圖像可以從多種來源創建,包括HTML,HTML5,ASPX和Razor/MVC視圖。 HTML和圖像資產都可以轉換為PDF。
  • 可用於處理互動式 PDF 的工具包括填寫和提交互動式表單
  • Merge and divide PDFs, extract text and pictures from PDF files, search text in PDF files, rasterize PDFs to images, change font size and convert PDF files.
  • 它允許通過用戶代理、代理、Cookie、HTTP標頭和表單變數來驗證HTML登錄表單。
  • 通過提供用戶名和密碼,IronPDF使得訪問受保護文件成為可能。
  • IronPDF是一個能讀取PDF文本並填補空白的程序。
  • Allows to add text, images, bookmarks, watermarks, and more.
  • 您可以從CSS文件創建PDF文件。

欲了解更多細節,請訪問此IronPDF許可信息頁面,以獲取免費有限金鑰和專業版本。

如何在VB.NET中解析PDF文件,圖1:IronPDF- 字體格式化 IronPDF- 字體格式化

從PDF文件中提取文本

借助IronPDF庫,IronPDF還可以讀取和提取PDF文件中的文本。 下面是一個可以用來檢查當前PDF文件的IronPDF代碼模式。

從所有頁面提取文本

下面的代碼示例展示了以幾行代碼獲取所有PDF內容的第一種方法。

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract all the text from the PDF
        Dim AllText As String = pdfdoc.ExtractAllText()

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract all the text from the PDF
        Dim AllText As String = pdfdoc.ExtractAllText()

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
VB .NET

上述示例代碼展示了如何使用FromFile方法從現有文件中讀取PDF並將其轉換為PDF文件對象。 該對象提供了一個名為ExtractAllText的方法,將從PDF中提取純文本並轉換為字符串。

按頁碼提取文本

下面的示例代碼展示了如何使用頁碼從PDF文件中提取數據。

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the first page (page numbers are zero-based)
        Dim AllText As String = pdfdoc.ExtractTextFromPage(0)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the first page (page numbers are zero-based)
        Dim AllText As String = pdfdoc.ExtractTextFromPage(0)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
VB .NET

上面的代碼展示了如何使用FromFile函數從現有文件中讀取PDF並將其轉換為PDF文件對象。 可以使用此對象訪問PDF上的文本和圖像。 該對象提供了一個名為ExtractTextFromPage的方法,允許您通過發送一個頁碼作為參數來獲取包含該PDF頁面上每個詞的字符串。

提取頁碼之間的文本

下面的代碼展示了如何提取多個頁面之間的數據。

Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Define a list of page numbers from which to extract text
        Dim Pages As List(Of Integer) = New List(Of Integer) From {3, 5, 7}

        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the specified pages
        Dim AllText As String = pdfdoc.ExtractTextFromPages(Pages)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf

Module Program
    Sub Main(args As String())
        ' Define a list of page numbers from which to extract text
        Dim Pages As List(Of Integer) = New List(Of Integer) From {3, 5, 7}

        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract text from the specified pages
        Dim AllText As String = pdfdoc.ExtractTextFromPages(Pages)

        ' Output the extracted text to the console
        Console.WriteLine(AllText)
    End Sub
End Module
VB .NET

上述代碼展示了如何使用FromFile方法從現有文件中讀取PDF並將其轉換為PDF文件對象。 此對象允許檢查PDF中的文本和圖像。 該對象有一個名為ExtractTextFromPages的方法,可以用來通過傳入頁碼列表作為參數來獲得包含指定頁面所有文本內容的字符串。 下面左側是源PDF,右側是提取的數據。

如何在VB.NET中解析PDF文件,圖2:提取頁碼之間的文本輸出 提取頁碼之間的文本輸出

從PDF文件中提取圖像

IronPDF提供了一系列方法來提取圖像,例如:

每種方法都允許從文檔的單頁或多頁中提取圖像。

Imports IronPdf
Imports System.Drawing

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract raw images from the first page
        Dim images = pdfdoc.ExtractRawImagesFromPage(1)

        ' Iterate over extracted images
        For Each imgData As Byte() In images
            ' Create a memory stream from byte data
            Using ms As New IO.MemoryStream(imgData)
                ' Create a Bitmap object from the memory stream
                Dim image = New Bitmap(ms)

                ' Save the image to the specified output directory
                image.Save("output/test.jpg")
            End Using
        Next
    End Sub
End Module
Imports IronPdf
Imports System.Drawing

Module Program
    Sub Main(args As String())
        ' Create a PDF Document object from an existing PDF file
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")

        ' Extract raw images from the first page
        Dim images = pdfdoc.ExtractRawImagesFromPage(1)

        ' Iterate over extracted images
        For Each imgData As Byte() In images
            ' Create a memory stream from byte data
            Using ms As New IO.MemoryStream(imgData)
                ' Create a Bitmap object from the memory stream
                Dim image = New Bitmap(ms)

                ' Save the image to the specified output directory
                image.Save("output/test.jpg")
            End Using
        Next
    End Sub
End Module
VB .NET

上面的代碼展示了如何使用FromFile函數從現有文件中讀取文檔並將其轉換為PDF文件對象。 通過將一個頁碼傳遞給對象的ExtractRawImagesFromPage方法,可以獲得包含該文檔頁面上每張圖片的字節列表。 使用For Each循環,每個字節流被處理並轉換為內存流,然後轉換為Bitmap,這有助於圖片保存。 下圖顯示了上述代碼的輸出。

如何在VB.NET中解析PDF文件,圖3:從PDF提取圖像輸出 從PDF提取圖像輸出

欲了解有關IronPDF API代碼教程的詳細信息,請參閱IronPDF文檔。 您還可以訪問其他教程來學習如何使用C#解析PDF文本

結論

圖書館IronPDF的開發許可證是免費的。 如果在生產環境中使用IronPDF,則可以根據開發者的需求購買不同的許可證。 Lite計劃起價為$799,沒有持續成本。 還提供SaaS和OEM重新分配選項。 所有許可證都包括更新、一年的產品支持和永久許可證。 它們也適用於製造、分段和開發。 這是一項一次性購買。 還有其他免費的限時許可證可用。 請訪問綜合IronPDF許可信息以查看IronPDF的完整定價和許可細節。 IronPDF還提供免費許可證以進行版權保護。

常見問題解答

如何在VB.NET中從PDF中提取文字?

使用 IronPDF 庫,您可以利用ExtractAllText方法從 PDF 文件中提取文字。這樣,您就可以在 VB.NET 專案中檢索 PDF 文件所有頁面中的文字。

是否可以使用VB.NET從PDF的特定頁面中擷取影像?

是的,IronPDF 允許您使用其ExtractRawImagesFromPage方法從特定頁面提取圖像。此方法以位元組數組的形式傳回影像數據,您可以將其轉換為影像檔案。

如何在VB.NET中將HTML內容轉換為PDF文件?

IronPDF 使用 Chromium 渲染引擎,提供強大的 HTML 轉 PDF 功能。您可以使用RenderHtmlAsPdf等方法有效地將 HTML 字串或檔案轉換為 PDF 文件。

在VB.NET應用程式中使用IronPDF進行PDF解析有哪些好處?

IronPDF 提供功能豐富的 API,用於擷取文字和影像,支援 HTML 轉 PDF,並相容於多種 .NET 平台,包括 ASP.NET、Windows Forms 和 Blazor。此外,它還提供不同的授權選項,以滿足開發和生產需求。

如何將 IronPDF 整合到我的 VB.NET 專案中?

若要整合 IronPDF,請從 NuGet 下載該程式庫並將其新增至您的 VB.NET 專案。這樣您就可以透過程式設計方式存取其解析和操作 PDF 檔案的方法。

IronPDF 能否同時處理 PDF 解析和轉換任務?

是的,IronPDF 旨在有效地處理解析(文字和圖像提取)和轉換任務(例如 HTML 到 PDF),使其成為 VB.NET 中 PDF 操作的綜合解決方案。

IronPDF有哪些授權許可選項?

IronPDF 提供免費的開發許可和多種生產許可,包括 Lite 版、SaaS 版和 OEM 分發版。這些許可證包含一年的更新和支援服務,以滿足不同的專案需求。

IronPDF 的功能是否依賴任何外部資源?

不,IronPDF 是獨立的,內部使用 Chromium 渲染引擎,確保了強大的功能,無需依賴外部資源進行 PDF 轉換和解析。

IronPDF 是否支援 .NET 10?它能為 VB.NET 開發人員帶來哪些好處?

是的,IronPDF 完全支援 .NET 10,以及先前的版本,例如 .NET 9、8、7、6、Core、Standard 和 Framework。這意味著 .NET 10 的 VB.NET 專案無需額外配置即可使用 IronPDF。開發人員可以受益於 .NET 10 中新增的執行階段效能改進,例如減少堆疊分配、改進執行時間和 JIT 最佳化,這些改進增強了 PDF 生成、文字/影像擷取以及 HTML 到 PDF 的渲染效能。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。