在實際環境中測試
在生產環境中測試無浮水印。
在任何需要的地方都能運作。
本教程介紹如何使用IronPDF的頂級支持,以程式方式從PDF文件中提取文本和圖像。
高效的 PDF 轉換。 幾乎任何機器能做到的事情,IronPDF 也能做到。 由於這個PDF函式庫,開發人員可以快速地創建、讀取文本內容、寫入、加載以及操作PDF。
IronPDF 使用 Chrome 引擎將 HTML 轉換為 PDF 檔案。適用於 Windows Forms、HTML、ASPX、Razor HTML、.NET Core、ASP.NET、Windows Forms 和 WPF。 IronPDF 也支援 Xamarin、Blazor、Unity 和 HoloLense 應用程式。 IronPDF 支援 Microsoft .NET 和 .NET Core 應用程式(ASP.NET Web 套件和傳統的 Windows 套件). IronPDF 可用於製作美觀的 PDF。
IronPDF 可以使用 HTML5、JavaScript、CSS 和圖片創建 PDF。 IronPDF 也具有強大的 HTML 到 PDF 轉換器,能與 PDF 進行整合。 IronPDF 具有強大的 PDF 轉換機制,使用 Chromium 渲染引擎。它也不依賴任何外部來源。
可用來處理互動式PDF的工具包括填写并提交互动表单.
*合併和分割PDF文件, Extract text and images從 PDF 文件中,搜尋 PDF 文件中的文字,將 PDF 光柵化為圖像,變更字型大小並轉換 PDF 檔案。
您可以從 CSS 檔案建立 PDF 檔案。
欲了解更多詳情,請訪問此頁面IronPDF 授權資訊頁面免費限量版金鑰和專業版。
IronPDF- 字體格式化
IronPDF 也可以使用 IronPDF 庫來讀取和擷取 PDF 文件中的文本。 以下是一個可用來檢視現有 PDF 文件的 IronPDF 代碼範例。
以下代碼示例展示了第一種方法,僅用幾行就能將所有 PDF 內容獲取為字串。
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractAllText()
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractAllText()
Console.WriteLine(AllText)
End Sub
End Module
上面的示例程式碼展示瞭如何使用 FromFile
方法從現有文件中讀取 PDF 並將其轉換為 PDF 文件物件。 該對象提供了一個名為的方法提取所有文字
將從PDF中提取純文字並將其轉換為字串。
以下範例程式碼顯示如何使用頁碼從 PDF 文件中提取資料。
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPage(0)
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPage(0)
Console.WriteLine(AllText)
End Sub
End Module
上面的代碼顯示如何從現有文件讀取PDF並將其轉換為PDF文檔對象使用IronPDF。從文件
函數。 可以使用此物件訪問 PDF 上的文字和圖像。 該對象提供了一個名為的方法提取頁面文字
允許將頁碼作為參數發送,以獲取包含該頁面上所有單詞的字符串。
以下程式碼顯示如何提取多個頁面之間的數據。
Imports IronPdf
Module Program
Sub Main(args As String())
Dim Pages As List(Of Integer) = New List(Of Integer)
Pages.Add(3)
Pages.Add(5)
Pages.Add(7)
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPages(Pages)
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim Pages As List(Of Integer) = New List(Of Integer)
Pages.Add(3)
Pages.Add(5)
Pages.Add(7)
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPages(Pages)
Console.WriteLine(AllText)
End Sub
End Module
上面的程式碼展示了如何使用 FromFile
方法從現有文件中讀取 PDF,並將其轉換為 PDF 文件物件。 此對象允許檢查 PDF 中的文字和圖像。 該對象有一個名為的方法ExtractTextFromPages
可以透過將頁碼列表作為參數傳遞,從而獲取一個包含指定頁面所有文本內容的字串。 左側是來源 PDF,右側是提取的數據。
提取頁面之間的文字輸出
IronPDF 提供了一系列提取圖像的方法,例如:
*Extract Raw Images from Pages
每個方法都允許從文件的單頁或多頁中提取圖像。
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each As Byte() In images
Dim ms As New IO.MemoryStream(CType(, Byte()))
Dim image = New Bitmap(ms)
image.Save("output//test.jpg")
Next
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each As Byte() In images
Dim ms As New IO.MemoryStream(CType(, Byte()))
Dim image = New Bitmap(ms)
image.Save("output//test.jpg")
Next
上面的代碼展示了如何從現有文件中讀取文檔,並使用 FromFile
函數將其轉換為 PDF 文檔對象。 通過將頁碼列表傳遞給物件的 ExtractRawImagesFromPage
方法,可以獲得一個字節列表,其中包含文件中指定頁面上的每一張圖片。 使用 foreach
迴圈處理每個位元組並將其轉換為記憶體流。 然後轉換為位圖,有助於保存圖片。 下圖顯示了上述程式碼的輸出。
從 PDF 輸出中提取圖像
如需了解有關 IronPDF API 程式碼教學的更多資訊,請參考IronPDF 文件說明. 您也可以訪問其他教程來學習如何使用 C# 解析 PDF 文本.
IronPDF 圖書館的開發許可證是免費的。 如果在生產環境中使用IronPDF,可以根據開發者的需求購買不同的授權。 Lite 計畫的起價為 $749,且無持續費用。 還提供SaaS和OEM重新分發的替代方案。 所有授權均包含更新、一年的產品支援和永久授權。 它們對於製造、階段性測試和開發也很有用。 這是一個一次性的購買。 有額外的免費限時許可證可供使用。 訪問全面的IronPDF授權資訊查看IronPDF的完整定價和授權詳細信息。 IronPDF 還提供用於防拷貝的免費授權。