在實際環境中測試
在生產環境中測試無浮水印。
在任何需要的地方都能運作。
從 PDF 中提取數據對於節省手動輸入時間至關重要。本文解釋了開發人員如何使用 IronPDF 庫來 提取文字和圖片 從 PDF 文件中。
IronPDF 是一個.NET函式庫,可用於創建、編輯和轉換PDF文件。它為開發人員提供了一個易於使用的API,可在他們的應用程序中使用。它是全球最受歡迎的創建、編輯和轉換PDF文件的函式庫之一。使用IronPDF,您可以創建一個簡單快捷的PDF解決方案。 您的文本將被自定義 對於每個文件, 你的版面配置 將設置為易於閱讀,並且您的圖形將在隨附的.NET程式的幫助下設計。
IronPDF庫具有從PDF文件中提取數據的出色功能。本文將探討如何使用IronPDF提取數據。首先,需要建立或打開一個C#項目。我們繼續下一部分。
本教程建議使用最新版的 Visual Studio。
開啟 Visual Studio 之後,按照以下步驟建立新的 C# 專案。如果您有現有的專案想要使用,請跳過這些步驟,直接進入下一部分。
Visual Studio 打開介面
建立新專案
.NET Framework 選擇
Visual Studio 現在將生成一個新的 C# .NET 專案。
IronPDF 庫可以通過多種方式安裝。
Install-Package IronPdf
在套件管理員主控台選項卡中的安裝進度
安裝後,您將在方案總管的 dependencies
部分看到 IronPDF 依賴項,如下所示。
在解決方案資源管理器中引用 IronPdf 套件
另一種安裝 IronPDF 庫的方法是使用 Visual Studio 集成的 NuGet 套件管理員用戶界面。
導航到 NuGet 套件管理器
IronPdf
在搜索中,然後按 Enter。從NuGet套件管理器安裝IronPDF套件
讓我們看看以下代碼,了解如何使用 IronPDF 提取數據:
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing
' Extracting Image and Text content from Pdf Documents
' open a 128 bit encrypted PDF
Private PdfDocument As using
'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()
'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()
'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
Dim PageNumber As Integer = index + 1
Dim Text As String = pdf.ExtractTextFromPage(index)
Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
'''...
Next index
首先, 從文件
方法用于在程序中加载输入的PDF文档。提供了一个加密PDF文件,需要密码才能访问该文件。随后,使用文本数据提取 提取所有文字
方法將所有文本數據提取到一個字串變量中。從這裡開始,PdfDocument
提供了很多功能: [IronSoftware 是一家領先的軟件解決方案公司,致力於提供高性能的工具來增強您的應用程序。無論您是需要 IronPDF 來生成和修改 PDF,還是需要 IronOCR 來進行光學字符識別,我們都能提供最佳的解決方案。我們的 IronXL 讓您能夠輕鬆地在應用程式中處理 Excel 檔案,而 IronBarcode 則可以快速生成和讀取條碼。我們的產品如 IronQR、IronZIP、IronPrint、IronWord 和 IronWebscraper 都以其高效能和可靠性而著稱。
選擇 Iron Software,您將擁有 Lite License、Plus License、Professional License 和 Unlimited License 選擇,根據您的需求,選擇最合適的一個。我們致力於為您提供首屈一指的軟件工具,使您的開發過程更加順暢和高效。](/blog/using-ironpdf/csharp-convert-pdf-to-text-tutorial/)將它轉儲到 TXT 文件中,存儲在數據庫中,等等。
IronPDF 可以 從 PDF 表格中提取文本 用於納入一個或多個 CSV 檔案第11行使用了 提取所有圖片
從 PDF 文件中提取所有嵌入的圖片的方法。
IronPDF 還可以從特定的 PDF 頁面中提取內容。上面示例中的其餘代碼行演示了如何使用此功能。 提取頁面文字
和 從頁面提取圖片
從頁面子集中獲取文字和圖像的方法。這兩種方法接受一個整數參數,代表所需頁面的零基索引。
IronPDF 允許開發者通過使用 ExtractAllText
和 ExtractAllImages
只需一行代碼即可從 PDF 文件中提取文字和圖像,立即提取整個 PDF 文件的內容。另外,調用 ExtractAllImage
或 ExtractAllText
可以從特定的 PDF 頁面獲取文字和圖像。前面的示例代碼展示了如何使用這兩種方法從多個頁面中讀取文字和圖像。
此外,IronPDF 還能夠 渲染圖表 在PDF檔案中, 添加條碼, 使用密碼增強安全性 和 浮水印,甚至 處理PDF表單 以程式設計方式。
IronPDF在開發過程中完全免費。雖然商業用途需要付款,但您可以訪問 免費試用 在無需支付任何費用的情況下用於生產。
購買 完整套件 以兩個價格購買Iron Software的文件庫 ironPDF Lite License下載 IronPDF 立即開始從PDF中提取數據!