使用IRONPDF C#提取PDF文本(代碼示例教程) Kye Stuart 更新日期:7月 28, 2025 Download IronPDF NuGet 下載 DLL 下載 Windows 安裝程式 Start Free Trial Copy for LLMs Copy for LLMs Copy page as Markdown for LLMs Open in ChatGPT Ask ChatGPT about this page Open in Gemini Ask Gemini about this page Open in Grok Ask Grok about this page Open in Perplexity Ask Perplexity about this page Share Share on Facebook Share on X (Twitter) Share on LinkedIn Copy URL Email article role="alert"> 您的企業在PDF安全性和合規性年度訂閱上花費太多。考慮使用Iron Software的IronSecureDoc,這提供了一次性付款的解決方案,用於管理SaaS服務,如數字簽名、編輯、加密和保護。立即體驗IronSecureDoc。 PDF(可攜式文件格式)文件在無數行業中發揮著重要作用,使企業能夠安全地共享、存儲和管理文件。 對於開發人員來說,使用PDF通常涉及創建、閱讀、轉換和提取內容以支持客戶需求。 從PDF中提取文本是執行數據分析、文件索引、內容遷移或啟用無障礙功能等任務的必要條件。 現代庫如IronPDF使這些任務比以往任何時候都更加簡單,提供強大的工具來操作PDF文件,所需的努力最小。 本指南著重於最常見的要求之一:從C#中的PDF中提取文本。 我們將帶您完成在Visual Studio中設置項目、安裝IronPDF並使用簡潔的代碼範例來執行文本提取的過程。 在此過程中,我們將強調IronPDF的強大功能,包括其使用.NET創建、操作和轉換PDF文件的能力。 無論您是構建文件大量的應用程序還是僅僅需要高效的PDF處理,本教程都將幫助您入門。 class="hsg-featured-snippet"> 如何在C#中從PDF中提取文本 下載從PDF C#庫中提取文本 在Visual Studio中創建新項目 將庫安裝到您的項目中 從PDF文件中執行文本提取 從PDF文檔中查看您的文本輸出 1. IronPDF功能 IronPDF是一個強大的PDF轉換器,可以執行瀏覽器幾乎所有的操作。 對於開發人員來說,使用.NET圖書館創建、閱讀和操作PDF文檔變得簡單易行。 IronPDF使用Chrome引擎將HTML轉換為PDF文檔。IronPDF支持HTML、ASPX、Razor HTML和MVC View等其他網頁組件。 IronPDF支持Microsoft .NET應用程序(包括ASP.NET Web應用程序和傳統的Windows應用程序)。 IronPDF還可以用於創建視覺上吸引人的PDF文檔。 我們可以使用IronPDF從HTML5、JavaScript、CSS和圖像創建PDF文檔。 此外,文件可以有頁眉和頁腳。 多虧了IronPDF,我們可以輕鬆地閱讀PDF文檔。 IronPDF還具有全面的PDF轉換引擎和強大的HTML到PDF轉換器,能夠處理PDF文檔。 PDF創建:從HTML、JavaScript、CSS、圖像或URL生成PDF。 添加頁眉、頁腳、書簽、水印和其他自定義元素以增強設計。 HTML到PDF轉換:直接將HTML、Razor/MVC視圖和媒體類型的CSS文件轉換為PDF格式。 互動式PDF功能:構建、填寫和提交互動式PDF表單。 文本和圖像提取:從現有PDF文檔中提取文本或圖像以進行數據處理或重用。 文檔操作:合併、拆分和重新安排新或現有PDF文件中的頁面。 圖像和頁面處理:將PDF頁面光柵化為圖像並將圖像轉換為PDF格式。 工作與自定義登錄憑據:IronPDF可以從URL創建文檔。 它還支持自定義網絡登錄憑據、用戶代理、代理、cookie、HTTP頭和後HTML登錄表單的登錄。 搜索和無障礙性:在PDF文檔中搜索文本並確保它們符合無障礙性標準。 轉換多樣性:將PDF轉換為其他格式,如HTML,並使用CSS文件生成PDF。 獨立功能:無需Adobe Acrobat或其他第三方工具即可獨立運行。 2. 在Visual Studio中創建新項目 打開Visual Studio軟件並移到文件菜單。 選擇“新建項目”,然後選擇“控制台應用程序”。 在本文中,我們將使用控制台應用程序來生成PDF文檔。 在Visual Studio中創建新項目 在相應的文本框中輸入項目名稱並選擇文件路徑。 然後,單擊創建按鈕並選擇所需的.NET框架,如下面的屏幕截圖所示。 在Visual Studio中配置新項目 現在,Visual Studio項目將生成所選應用程序的結構,如果您選擇了控制台、Windows和網絡應用程序,它將打開program.cs文件,您可以在其中輸入代碼並構建/運行應用程序。 選擇.NET核心 接下來,我們可以添加庫來測試代碼。 3. 安裝 IronPDF 函式庫 可以用四種方式下載並安裝IronPDF庫。 這些是: 使用Visual Studio。 使用Visual Studio命令行。 從NuGet網站直接下載。 從IronPDF網站直接下載。 3.1 使用Visual Studio Visual Studio軟件提供NuGet包管理器選項以直接將包安裝到解決方案中。 下面的屏幕截圖顯示如何打開NuGet包管理器。 Visual Studio program.cs 文件 它提供了搜索框,以從NuGet網站顯示包列表。 在包管理器中,我們需要搜索關鍵字“IronPdf”,如下面的屏幕截圖所示。 NuGet包管理器 在上面的圖片中,我們可以看到相關搜索項目的列表。 我們需要選擇所需的選項來將包安裝到解決方案中。 3.2 使用Visual Studio命令行 在Visual Studio中,轉到工具 > NuGet包管理器 > 包管理器控制台 在包管理器控制台選項卡中輸入以下行: Install-Package IronPdf 現在軟件包將下載/安裝到當前項目中,並可供使用。 NuGet包管理器中的IronPdf庫 3.3 從NuGet網站直接下載 第三種方法是直接從他們的網站下載IronPDF NuGet包。 瀏覽到NuGet上的IronPDF包。 從右側菜單中選擇下載包選項。 雙擊下載的包。 它將自動安裝。 接下來,重新加載解決方案並開始在項目中使用它。 3.4 從IronPDF網站直接下載 訪問IronPDF官方網站,直接從他們的網站下載最新的包。下載後,按照以下步驟將包添加到項目中。 右鍵單擊方案窗口中的項目。 然後,選擇選項參考並瀏覽下載引用的位置。 接下來,單擊確定添加引用。 4. 使用IronPDF提取文本 IronPDF程序允許我們從PDF文件中進行文本提取,並將PDF頁面轉換為PDF對象。 以下是一個如何使用IronPDF閱讀現有PDF的示例。 第一種方法是從PDF中提取文本,下面是示例代碼片段。 using IronPdf; // Load an existing PDF document from a file var pdfDocument = PdfDocument.FromFile("result.pdf"); // Extract all text from the entire PDF document string allText = pdfDocument.ExtractAllText(); using IronPdf; // Load an existing PDF document from a file var pdfDocument = PdfDocument.FromFile("result.pdf"); // Extract all text from the entire PDF document string allText = pdfDocument.ExtractAllText(); Imports IronPdf ' Load an existing PDF document from a file Private pdfDocument = PdfDocument.FromFile("result.pdf") ' Extract all text from the entire PDF document Private allText As String = pdfDocument.ExtractAllText() $vbLabelText $csharpLabel FromFile靜態方法用於從現有文件加載PDF文檔,並將其轉換為PDFDocument對象,如上面的代碼所示。 我們可以使用此對象讀取PDF頁面上可訪問的文本和圖像。 該對象有一個名為ExtractAllText的方法,可從整個PDF文檔中提取所有文本,然後將提取的文本保存在可以用於處理的字符串中。 以下是可以使用的第二種方法的代碼示例,可逐頁從PDF文件中提取文本。 using IronPdf; // Load an existing PDF document from a file using PdfDocument pdf = PdfDocument.FromFile("result.pdf"); // Loop through each page of the PDF document for (var index = 0; index < pdf.PageCount; index++) { // Extract text from the current page string text = pdf.ExtractTextFromPage(index); } using IronPdf; // Load an existing PDF document from a file using PdfDocument pdf = PdfDocument.FromFile("result.pdf"); // Loop through each page of the PDF document for (var index = 0; index < pdf.PageCount; index++) { // Extract text from the current page string text = pdf.ExtractTextFromPage(index); } Imports IronPdf ' Load an existing PDF document from a file Private PdfDocument As using ' Loop through each page of the PDF document For index = 0 To pdf.PageCount - 1 ' Extract text from the current page Dim text As String = pdf.ExtractTextFromPage(index) Next index $vbLabelText $csharpLabel 在上面的代碼中,我們看到它將首先加載整個PDF文檔並將其轉換為PDF對象。 然後,我們通過使用一個稱為PageCount的內置屬性來獲得整個PDF文檔的頁數,它檢索加載的PDF文檔中可用的總頁數。 使用“for循環”和ExtractTextFromPage函數,允許我們傳遞頁碼作為參數,從加載的文檔中提取文本。 然後,它將準確的文本保存到字符串變量中。 同樣,它將在“for”或“for each”循環的幫助下逐頁提取PDF頁面上的文本。 5. 總結 IronPDF是一個多功能且強大的PDF庫,專為在.NET應用程序中無縫處理PDF而設計。 其強大功能使開發人員能夠創建、操作和從PDF中提取內容,而不依賴於如Adobe Reader等第三方依賴項。 IronPDF的一大特點是能夠從PDF文檔中提取文本。 此功能對於自動化數據分析、文檔索引、內容遷移和啟用無障礙功能等任務而言是非常有價值的。 通過允許開發人員以編程方式檢索和處理文本,IronPDF簡化了工作流程並為處理PDF內容打開了新的可能性。 通過簡單的集成和跨平台支持,IronPDF是尋求高效處理PDF文檔的開發人員的絕佳選擇。 此外,IronPDF提供免費試用,讓您在承諾之前無風險地探索其全功能範圍。 有關詳細信息和了解更多許可選項,請訪問定價頁面。 常見問題解答 如何使用 C# 從 PDF 文件中提取文字? 您可以使用 IronPDF 在 C# 中從 PDF 文件中提取文字。首先,使用PdfDocument.FromFile方法載入 PDF 文件,然後應用ExtractAllText方法從文件中檢索文字。 在 Visual Studio 專案中設定 IronPDF 需要哪些步驟? 若要在 Visual Studio 專案中安裝 IronPDF,您可以透過 NuGet 套件管理器進行安裝。或者,您也可以使用 Visual Studio 命令列,或直接從 NuGet 或 IronPDF 網站下載。 IronPDF有哪些使其成為功能全面的PDF庫的特色? IronPDF 提供廣泛的功能,包括 PDF 建立、HTML 到 PDF 轉換、文字和影像擷取、文件操作以及對互動式 PDF 表單的支援。 IronPDF 能否用於在 C# 中將 HTML 轉換為 PDF? 是的,IronPDF 可以使用其整合的 Chrome 引擎,將 HTML(包括 Razor/MVC 視圖和媒體類型 CSS 檔案)直接轉換為 PDF 格式。 IronPDF 是否相容於所有類型的 .NET 應用程式? 是的,IronPDF 與 ASP.NET Web 應用程式和傳統 Windows 應用程式都相容,為 .NET 開發人員提供了極大的靈活性。 IronPDF 如何提高 PDF 文件的可存取性? IronPDF 透過允許使用者在 PDF 文件中搜尋文字並確保其符合無障礙標準來增強可訪問性。 IronPDF 是否需要任何第三方依賴項? IronPDF 可獨立運行,無需 Adobe Acrobat 等第三方工具,可在 .NET 應用程式中無縫操作 PDF。 使用 IronPDF 從 PDF 擷取文字有哪些優勢? IronPDF 透過實現程式化文字擷取來簡化工作流程,這對於資料分析、文件索引和內容遷移非常有用。 IronPDF有試用版嗎? 是的,IronPDF 提供免費試用版,讓開發人員在做出購買決定之前可以探索其功能和功能。 在 .NET 應用程式中使用 IronPDF 進行 PDF 管理的重要性是什麼? IronPDF 功能強大,能夠建立 PDF、提取文字以及將 HTML 轉換為 PDF,無需 Adobe Acrobat 等外部軟體,因此對於 .NET 應用程式中的 PDF 管理至關重要。 本文中的 C# PDF 文字擷取程式碼與 .NET 10 相容嗎? 是的。本教學中的 PdfDocument.FromFile 和 ExtractText 範例在 .NET 10 中的運作方式與在早期 .NET 版本相同。建立 .NET 10 專案後,從 NuGet 安裝最新的 IronPDF 包,即可在現代 .NET 10 應用程式中執行相同的程式碼來讀取 PDF 並擷取文字。 Kye Stuart 立即與工程團隊聊天 技術作家 Kye Stuart 在 Iron Software 將編碼熱情與寫作技能相結合。接受過 Yoobee 學院的软件部署教育,他現在將複雜的技術概念轉化為清晰的教育內容。Kye 重視終身學習,並接受新技術挑戰。在工作之外,他喜歡 PC 遊戲,並在 Twitch 上進行直播,以及喜好戶外活動如園藝和遛狗 (Jaiya)。Kye 的直截了當風格,使他成為 Iron Software 全球解密技術使命的關鍵人物。 相關文章 發表日期 11月 13, 2025 如何在 C# 中合併兩個 PDF 位元組數組 使用 IronPDF 在 C# 中合併兩個 PDF 位元組數組。學習如何透過簡單的程式碼範例,將來自位元組數組、記憶體流和資料庫的多個 PDF 文件合併在一起。 閱讀更多 發表日期 11月 13, 2025 如何在 ASP.NET MVC 中創建 PDF 檢視器 為 ASP.NET MVC 應用程式構建一個強大的 PDF 檢視器。顯示 PDF 文件,將視圖轉換為 PDF,使用 IronPDF 添加互動功能。 閱讀更多 發表日期 11月 13, 2025 如何建立 .NET HTML 轉 PDF 轉換器 學習如何在.NET中使用IronPDF將HTML轉換為PDF。 閱讀更多 如何在ASP.NET使用C#生成PDF如何在C#中從PDF中提取數據
發表日期 11月 13, 2025 如何在 C# 中合併兩個 PDF 位元組數組 使用 IronPDF 在 C# 中合併兩個 PDF 位元組數組。學習如何透過簡單的程式碼範例,將來自位元組數組、記憶體流和資料庫的多個 PDF 文件合併在一起。 閱讀更多
發表日期 11月 13, 2025 如何在 ASP.NET MVC 中創建 PDF 檢視器 為 ASP.NET MVC 應用程式構建一個強大的 PDF 檢視器。顯示 PDF 文件,將視圖轉換為 PDF,使用 IronPDF 添加互動功能。 閱讀更多