跳過到頁腳內容
使用IRONPDF
如何使用 IronPDF 提取 PDF 中的文本

如何在C#中從PDF中提取數據

從PDF中提取數據對於節省手動輸入時間至關重要。 本文解釋了開發人員如何使用IronPDF程式庫從PDF文件中提取文本和圖像

IronPDF: C# PDF程式庫

IronPDF是一個.NET程式庫,可用於創建、編輯和轉換PDF文件。 它為開發人員提供了一個易於使用的API,可在其應用程式中使用。 它是全球用於創建、編輯和轉換PDF文件的最受歡迎的程式庫之一。 使用IronPDF,您可以創建一個對PDF的簡單快速解決方案。 您的文本將根據每個文件進行自訂您的佈局將設置為易於閱讀,您的圖形將在隨附的.NET程式的幫助下進行設計。

IronPDF程式庫具有從PDF文件中提取數據的絕佳功能。 本文將探討如何使用IronPDF提取數據。 首先,需要創建或打開一個C#專案。 讓我們進入下一個部分。

在Visual Studio中創建或打開C#專案

本教程建議使用最新版本的Visual Studio。

一旦打開Visual Studio,按照以下步驟創建一個新的C#專案。 如果已有一個現有專案您想要使用,可以跳過這些步驟,直接進入下一個部分。

  • 打開Visual Studio
  • 點擊"創建新專案"按鈕。

如何從PDF中提取數據 - C#,圖1:Visual Studio啟動介面 Visual Studio啟動介面

  • 從模板中選擇"C#控制台應用程式"。

如何從PDF中提取數據 - C#,圖2:創建新專案 創建新專案

  • 為專案命名並點擊下一步按鈕。
  • 根據您的專案需求選擇.NET Framework,然後點擊創建按鈕。

如何從PDF中提取數據 - C#,圖3:.NET Framework選擇 .NET Framework選擇

Visual Studio現在將生成一個新的C#.NET專案。

安裝IronPDF程式庫

可以通過多種方式安裝IronPDF程式庫。

使用套件管理器控制台

  • 通過工具 > NuGet套件管理器 > 套件管理器控制台打開套件管理器控制台。
  • 運行以下命令來安裝IronPDF程式庫:
Install-Package IronPdf

如何從PDF中提取數據 - C#,圖4:套件管理器控制台標籤中的安裝進度 套件管理器控制台標籤中的安裝進度

安裝後,您將在dependencies部分的解決方案資源管理器中看到IronPDF的依賴項,如下所示。

如何從PDF中提取數據 - C#,圖5:在解決方案資源管理器中參考IronPdf包 在解決方案資源管理器中參考IronPdf包

使用NuGet包管理器

另一種安裝IronPDF程式庫的方法是使用Visual Studio的集成NuGet包管理器UI。

  • 從主菜單中進入工具。 從下拉菜單中將鼠標懸停在"NuGet套件管理器"上,然後選擇"管理解決方案的NuGet套件..."

如何從PDF中提取數據 - C#,圖6:導航至NuGet套件管理器 導航至NuGet套件管理器

  • 這將打開NuGet套件管理器窗口。 進入瀏覽標籤,輸入IronPdf進行搜尋,並按下Enter鍵。
  • 從搜尋結果中選擇IronPDF,然後點擊"安裝"按鈕開始安裝。

如何從PDF中提取數據 - C#,圖7:從NuGet套件管理器安裝IronPdf包 從NuGet套件管理器安裝IronPdf包

從PDF文件中提取數據

讓我們看看以下代碼,了解如何使用IronPDF提取數據:

// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
$vbLabelText   $csharpLabel

在此代碼範例中:

  1. 使用FromFile方法加載輸入的PDF文件,該文件已加密並需要密碼。
  2. 使用ExtractAllText方法從PDF中提取所有文本內容。
  3. 使用ExtractAllImages方法獲取所有嵌入的圖像。
  4. 使用ExtractImagesFromPage,循環遍歷每個頁面以從該特定頁面提取文本和圖像。

結論

IronPDF允許開發人員輕鬆從PDF文件中提取文本和圖像。 使用ExtractAllImages,可以立即提取PDF文件的全部內容。 或者,這些方法可以用於從特定頁面提取內容。 前面的代碼演示了如何使用這兩種方法從多個頁面讀取文本和圖像。

此外,IronPDF還提供了渲染圖表添加條碼通過密碼增強安全性添加水印以及程式化處理PDF表單的功能。

IronPDF在開發時可免費使用,商業使用需付費。 IronPDF的免費試用在生產使用中可以免費。

購買完整的Iron Software文件程式庫套件僅需支付兩份IronPDF Lite授權的費用。

現在下載IronPDF,立即開始從PDF中提取數據!

常見問題解答

如何在 C# 中從 PDF 中提取文本?

您可以使用IronPDF的ExtractAllText方法從PDF文檔中提取所有文本。此方法通過允許輕鬆訪問PDF的文本內容來簡化過程。

使用C#從PDF中提取圖像的過程是什麼?

使用IronPDF,您可以利用ExtractAllImages方法從PDF中提取圖像。此方法能有效檢索PDF文件中嵌入的所有圖像。

如何在C#項目中安裝PDF操作庫?

要在C#項目中安裝IronPDF,您可以使用Package Manager Console執行命令Install-Package IronPDF,或通過Visual Studio中的NuGet Package Manager UI安裝套件。

可以在C#中處理加密的PDF嗎?

是的,IronPDF允許您通過FromFile方法打開和操作加密的PDF文件,您可以提供文件名和密碼以訪問內容。

我可以在C#中從PDF的特定頁面提取數據嗎?

IronPDF使您能夠遍歷PDF文檔的每一頁,並使用諸如ExtractTextFromPageExtractImagesFromPage等方法從特定頁面提取數據。

C#的PDF庫提供了哪些附加功能?

除了數據提取,IronPDF還提供渲染圖表、添加條碼、使用密碼增強文檔安全性、水印以及以編程方式處理PDF表單等功能。

怎樣在 C# 中將 HTML 轉換為 PDF?

您可以使用IronPDF的RenderHtmlAsPdf方法將HTML字串轉換為PDF,這對於從網頁內容創建PDF文檔特別有用。

C# PDF庫有試用版嗎?

在開發期間,IronPDF可以免費使用,允許您測試其功能。用於生產的話需要商業許可,但也提供免費試用。

如何開始使用C#庫從PDF中提取數據?

要開始使用IronPDF進行數據提取,請下載該庫,創建或打開Visual Studio中的C#項目,安裝IronPDF,並按照代碼示例高效地從PDF中提取文本和圖像。

.NET 10 的相容性:我可以在 .NET 10 中使用 IronPDF 的數據提取功能嗎?

是的 — IronPDF 在 .NET 10 上完全受支持,包括其數據提取功能,如提取文本和圖像。您可以在 .NET 10 項目中使用 IronPDF 而無需特別配置。它支援 .NET 10、.NET 9、.NET 8 及更早的版本加上 .NET Standard 和 .NET Framework。(ironpdf.com)

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me