IronPDF 操作指南 提取文本和圖像 使用 C# 從 PDF 中提取嵌入的文字和圖像 Curtis Chau 更新:2026年1月10日 下載 IronPDF NuGet 下載 DLL 下載 Windows 安裝程式 開始免費試用 法學碩士副本 法學碩士副本 將頁面複製為 Markdown 格式,用於 LLMs 在 ChatGPT 中打開 請向 ChatGPT 諮詢此頁面 在雙子座打開 請向 Gemini 詢問此頁面 在 Grok 中打開 向 Grok 詢問此頁面 打開困惑 向 Perplexity 詢問有關此頁面的信息 分享 在 Facebook 上分享 分享到 X(Twitter) 在 LinkedIn 上分享 複製連結 電子郵件文章 This article was translated from English: Does it need improvement? Translated View the article in English 以 C# 語言,透過簡單的方法呼叫,從 PDF 文件中萃取文字內容和影像。 擷取內嵌內容,以便在其他應用程式中進行編輯、分析或重新使用。 您的企業在PDF安全和合規性方面的年度訂閱費用過高。不妨考慮IronSecureDoc ,它提供SaaS服務管理解決方案,例如數位簽章、內容編輯、加密和保護,所有服務只需一次性付費。了解IronSecureDoc文檔 文字和影像擷取可從 PDF 文件中擷取文字內容和圖形元素。 存取並重新利用內容進行編輯、搜尋、將文字轉換為其他格式,或儲存圖片以供重複使用。 無論您是需要 在 C# 中解析 PDF 以進行資料分析、將內容轉換為可搜尋的格式,或是抽取視覺元素以進行歸檔,IronPDF 都能提供全面的抽取工具。 使用 IronPDF 擷取文字與圖片。 將擷取的影像儲存至磁碟,或在嵌入新文件前將其轉換為其他格式。 這種靈活性可支援需要內容轉換的工作流程,例如 將 PDF 轉換為 HTML 或重新利用擷取的影像。 快速入門:使用 IronPDF 擷取文字和圖片 只需幾行程式碼即可從 PDF 中萃取文字與圖片。 本快速入門示範如何從 PDF 文件擷取內嵌內容,以進行內容再利用與分析。 使用 IronPDF 簡化的解決方案,擷取文字進行編輯或儲存影像以供進一步使用。 立即開始使用 NuGet 建立 PDF 檔案: 使用 NuGet 套件管理器安裝 IronPDF PM > Install-Package IronPdf 複製並運行這段程式碼。 var pdf = new IronPdf.PdfDocument("sample.pdf"); string text = pdf.ExtractAllText(); var images = pdf.ExtractAllImages(); 部署到您的生產環境進行測試 立即開始在您的專案中使用 IronPDF,免費試用! 免費試用30天 ### 最小工作流程(5 個步驟) 下載 IronPdf C# 函式庫 準備 PDF 文檔以進行文本和圖像提取 使用ExtractAllText方法提取文本 使用ExtractAllImages方法擷取映像 指定從特定頁面提取文本和圖像 如何從 PDF 擷取文字? 從新渲染和現有的 PDF 文件中萃取文字。 使用 ExtractAllText 方法從文件中提取內嵌文字。 該方法會返回一個包含 PDF 中所有文字的字串。 各頁之間以四個連續的換行符隔開。 本範例使用 從 Wikipedia 網站渲染的 PDF 範例。 在處理包含 國際語言和 UTF-8 字元的 PDF 時,IronPDF 會維持適當的編碼和字元表示。 這可確保非拉丁語腳本和特殊字符的正確顯示。 :path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text.cs using IronPdf; using System.IO; PdfDocument pdf = PdfDocument.FromFile("sample.pdf"); // Extract text string text = pdf.ExtractAllText(); // Export the extracted text to a text file File.WriteAllText("extractedText.txt", text); $vbLabelText $csharpLabel 如何擷取具有精確座標的文字? 擷取每個 PDF 頁面的文字行數與字元坐標。 從 PDF 中選擇頁面,並存取 Lines 和 Characters 屬性。 座標包括代表文字位置的 Top, Right, Bottom 和 Left 值。 此功能可保留空間佈局,並可進行文字位置分析。 對於需要在 C# 中以位置感知讀取 PDF 檔案的開發人員而言,座標萃取提供了維護文件結構和實施進階文字分析的資料。 :path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-by-line-character.cs using IronPdf; using System.IO; using System.Linq; // Open PDF from file PdfDocument pdf = PdfDocument.FromFile("sample.pdf"); // Extract text by lines var lines = pdf.Pages[0].Lines; // Extract text by characters var characters = pdf.Pages[0].Characters; File.WriteAllLines("lines.txt", lines.Select(l => $"at Y={l.BoundingBox.Bottom:F2}: {l.Contents}")); $vbLabelText $csharpLabel 如何從 PDF 擷取影像? 使用 ExtractAllImages 方法從文件中提取所有內嵌圖片。 該方法會以 AnyBitmap 物件清單的形式傳回影像。 使用同一份文件,我們擷取了圖片,並將它們匯出至"images"資料夾。 此功能支援影像歸檔、內容遷移,以及 將 PDF 頁面光柵化為影像,以便進一步處理。 擷取的影像可維持原始品質,並能以各種格式儲存,包括 PNG、JPEG 和 BMP。針對雲端儲存工作流程,可將此功能與 Azure Blob Storage 整合,以進行影像管理。 :path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-image.cs using IronPdf; PdfDocument pdf = PdfDocument.FromFile("sample.pdf"); // Extract images var images = pdf.ExtractAllImages(); for(int i = 0; i < images.Count; i++) { // Export the extracted images images[i].SaveAs($"images/image{i}.png"); } $vbLabelText $csharpLabel 有哪些不同的圖像擷取方法? 除了 ExtractAllImages 方法之外,請使用 ExtractAllBitmaps 和 ExtractAllRawImages 方法來擷取影像資訊。 ExtractAllBitmap 會返回一個 AnyBitmap 的 List,而 ExtractAllRawImages 則會抽取所有影像,並將它們以原始位元組陣列 (byte[]) 的形式返回。 ExtractAllRawImages 方法在處理記憶體中的影像資料或與需要位元組陣列輸入的系統整合時非常有效。 對於涉及 將 PDF 匯出至記憶體串流 的情況,原始位元組陣列格式可提供最佳的彈性。 如何從特定的 PDF 頁面中擷取內容? 從單一或多個指定頁面中擷取文字和影像。 使用 ExtractTextFromPage 和 ExtractTextFromPages 方法從一個或多個頁面中提取文字。 對於圖片,請使用 ExtractImagesFromPage 和 ExtractImagesFromPages 方法。 在處理只有特定部分包含相關內容的大型文件時,這種粒度控制很有幫助。 它還支援分割 PDF 和擷取個別頁面進行獨立處理的功能。 :path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-single-multiple.cs using IronPdf; PdfDocument pdf = PdfDocument.FromFile("sample.pdf"); // Extract text from page 1 string textFromPage1 = pdf.ExtractTextFromPage(0); int[] pages = new[] { 0, 2 }; // Extract text from pages 1 & 3 string textFromPage1_3 = pdf.ExtractTextFromPages(pages); $vbLabelText $csharpLabel 何時應從特定頁面而非所有頁面萃取? 從特定頁面擷取時: 處理某些部分包含相關資料的大型 PDF 檔案 實施獨立處理頁面的工作流程 建立需要增量內容顯示或處理的應用程式 僅處理所需頁面以優化記憶體使用率 建立特定頁面的搜尋或索引功能 我應該瞭解哪些效能考量? 在擷取 PDF 內容時,請考慮這些效能因素: 記憶體使用量:從大型文件中單獨提取頁面,將記憶體消耗降至最低 處理時間:適當時使用平行處理進行多頁提取 檔案大小:包含高解析度影像的較大 PDF 檔案需要較長的處理時間 儲存:規劃足夠的磁碟空間以擷取大量高解析度影像 執行緒:IronPDF 支援多執行緒作業,以改善多核心系統上的效能。 為了使記憶體內 PDF 達到最佳效能,請使用 記憶體流作業,以減少磁碟 I/O 開銷。 常見問題解答 如何用 C# 從 PDF 文件中提取文字? 使用 IronPDF 的 ExtractAllText 方法從 PDF 文件中提取內嵌文字。該方法會返回一個包含 PDF 中所有文字的字串,其中的頁面以四個連續的換行符分開。IronPDF 對國際語言和 UTF-8 字元保持適當的編碼。 我可以程式化地從 PDF 檔案中擷取影像嗎? 是的,IronPDF 提供 ExtractAllImages 方法來擷取 PDF 文件中的圖形元素。您可以將擷取的圖片儲存至磁碟,或在嵌入新文件前將其轉換為其他格式。 PDF 內容萃取的主要用途為何? IronPDF 的擷取工具支援各種工作流程,包括解析 PDF 以進行資料分析、將內容轉換為可搜尋格式、擷取視覺元素以進行歸檔,以及重新利用內容進行編輯或轉換為 HTML 等其他格式。 提取 PDF 內容需要多少行代碼? 使用 IronPDF,您只需幾行代碼就能提取文字和圖像。只需載入 PDF 文件,並呼叫 ExtractAllText() 進行文字萃取,或呼叫 ExtractAllImages() 進行影像萃取。 我可以從特定頁面擷取內容,而非整個文件嗎? 是的,IronPDF 允許您指定要從中提取文字和圖像的特定頁面,讓您精確控制從 PDF 文件中檢索哪些內容。 Curtis Chau 立即與工程團隊聊天 技術撰稿人 Curtis Chau 擁有電腦科學學士學位(卡爾頓大學),專長於前端開發,精通 Node.js、TypeScript、JavaScript 和 React。Curtis 對製作直覺且美觀的使用者介面充滿熱情,他喜歡使用現代化的架構,並製作結構良好且視覺上吸引人的手冊。除了開發之外,Curtis 對物聯網 (IoT) 也有濃厚的興趣,他喜歡探索整合硬體與軟體的創新方式。在空閒時間,他喜歡玩遊戲和建立 Discord bots,將他對技術的熱愛與創意結合。 準備好開始了嗎? Nuget 下載 17,527,568 | 版本: 2026.2 剛剛發布 免費 NuGet 下載 總下載量:17,527,568 查看許可證