如何在 Node.js 中讀取 PDF 文件

C## PDF 解析器。

This article was translated from English: Does it need improvement?
Translated
View the article in English

在 C# 中使用 IronPDF 的 ExtractAllText 方法解析 PDF 文件,從整個文件或特定頁面中提取文字。 此方法僅需幾行程式碼即可為 .NET 應用程式提供簡單、有效率的 PDF 文字擷取。

IronPDF 使 PDF 解析在 C# 應用程式中變得簡單直接。 本教學示範如何使用 IronPDF(一個用於 PDF 生成和操作的綜合 C# 函式庫)來解析 PDF,只需幾個步驟即可完成。

快速入門:使用 IronPDF 有效率地解析 PDF

開始使用 IronPDF 以最少的程式碼在 C# 中解析 PDF。 本範例說明如何從 PDF 檔案中擷取所有文字,同時保持其原始格式。 IronPDF for .NET 的 ExtractAllText 方法可將 PDF 解析功能無縫整合到 .NET 應用程式中。 請遵循以下步驟進行直接設定與執行。

Nuget Icon立即開始使用 NuGet 建立 PDF 檔案:

  1. 使用 NuGet 套件管理器安裝 IronPDF

    PM > Install-Package IronPdf

  2. 複製並運行這段程式碼。

    var text = IronPdf.FromFile("sample.pdf").ExtractAllText();
  3. 部署到您的生產環境進行測試

    立即開始在您的專案中使用 IronPDF,免費試用!
    arrow pointer

如何用 C# 解析 PDF 檔案? 使用 IronPDF 解析 PDF 檔案非常簡單。 下面的程式碼使用 `ExtractAllText` 方法從整個 PDF 文件中抽取每一行文字。 比較結果顯示擷取的 PDF 內容與其輸出內容。 該函式庫也支援 [從 PDF 文件的特定部分擷取文字和影像](https://ironpdf.com/how-to/extract-text-and-images/)。 ```cs :path=/static-assets/pdf/content-code-examples/how-to/csharp-parse-pdf-parse-pdf.cs ``` IronPDF 可簡化各種情況下的 PDF 解析。 無論是處理 [HTML 至 PDF 的轉換](https://ironpdf.com/tutorials/html-to-pdf/)、從現有文件中抽取內容,或是實作 [ 進階 PDF 功能](https://ironpdf.com/tutorials/pdf-assets-and-performance-csharp/),本資料庫都能提供全面的支援。 --> <!--說明:說明程式碼概念的圖表或截圖 --> IronPdf 提供與 [Windows 應用程式](https://ironpdf.com/how-to/windows/)的無縫整合,並支援在 [Linux](https://ironpdf.com/how-to/linux/) 和 [macOS](https://ironpdf.com/how-to/macos/) 平台上部署。 該資料庫也支援 [Azure 部署](https://ironpdf.com/how-to/azure/),適用於雲端解決方案。 ### 進階文字萃取範例 以下是使用 IronPDF 解析 PDF 內容的其他方法: ```cs using IronPdf; // Parse PDF from URL var pdfFromUrl = PdfDocument.FromUrl("https://example.com/document.pdf"); string urlPdfText = pdfFromUrl.ExtractAllText(); // Parse password-protected PDFs var protectedPdf = PdfDocument.FromFile("protected.pdf", "password123"); string protectedText = protectedPdf.ExtractAllText(); // Extract text from specific page range var largePdf = PdfDocument.FromFile("large-document.pdf"); for (int i = 5; i < 10; i++) { string pageText = largePdf.ExtractTextFromPage(i); Console.WriteLine($"Page {i + 1}: {pageText.Substring(0, 100)}..."); } ``` 這些範例展示了 IronPDF 在處理不同 PDF 來源和情境時的彈性。 對於複雜的解析需求,請探索 [ IronPDF DOM 物件存取](https://ironpdf.com/how-to/access-pdf-dom-object/),以處理結構化的內容。 ### 處理不同的 PDF 類型 IronPDF 擅長解析各種 PDF 類型: ```cs using IronPdf; using System.Text.RegularExpressions; // Parse scanned PDFs with OCR (requires IronOcr) var scannedPdf = PdfDocument.FromFile("scanned-document.pdf"); string ocrText = scannedPdf.ExtractAllText(); // Parse PDFs with forms var formPdf = PdfDocument.FromFile("form.pdf"); string formText = formPdf.ExtractAllText(); // Extract and filter specific content string invoiceText = pdf.ExtractAllText(); var invoiceNumber = Regex.Match(invoiceText, @"Invoice #: (\d+)").Groups[1].Value; var totalAmount = Regex.Match(invoiceText, @"Total: \$([0-9,]+\.\d{2})").Groups[1].Value; ```

如何檢視解析後的 PDF 內容? C# 表單會顯示上述執行程式碼所解析的 PDF 內容。 此輸出可提供 PDF 的精確文字,以滿足文件處理的需求。

~ PDF ~ 閱讀全文

C# 表單

擷取的文字可維持 PDF 的原始格式與結構,非常適合資料處理、內容分析或遷移任務。 透過[尋找和取代特定內容](https://ironpdf.com/how-to/find-replace-text/)或匯出為其他格式,進一步處理此文字。 ### 將 PDF 解析整合到您的應用程式中 IronPDF 的解析功能可整合至各種應用程式類型: ```cs // ASP.NET Core example public IActionResult ParseUploadedPdf(IFormFile pdfFile) { using var stream = pdfFile.OpenReadStream(); var pdf = PdfDocument.FromStream(stream); var extractedText = pdf.ExtractAllText(); // Process or store the extracted text return Json(new { success = true, textLength = extractedText.Length, preview = extractedText.Substring(0, Math.Min(500, extractedText.Length)) }); } // Console application example static void BatchParsePdfs(string folderPath) { var pdfFiles = Directory.GetFiles(folderPath, "*.pdf"); foreach (var file in pdfFiles) { var pdf = PdfDocument.FromFile(file); var text = pdf.ExtractAllText(); // Save extracted text var textFile = Path.ChangeExtension(file, ".txt"); File.WriteAllText(textFile, text); Console.WriteLine($"Parsed: {Path.GetFileName(file)} - {text.Length} characters"); } } ``` 這些範例展示了 PDF 解析融入網路應用程式和批次處理的情境。 對於進階實作,請探索 [async 和多執行緒](https://ironpdf.com/how-to/async/)技術,以提高處理多個 PDF 時的效能。

圖書館快速訪問

Documentation related to 圖書館快速訪問

文件

請閱讀 API 參考文檔,以了解有關 IronPDF 及其所有功能的詳細說明。

文件
準備好看看您還能做些什麼嗎? 在此查看我們的教學頁面:[ 編輯 PDFs](https://ironpdf.com/tutorials/csharp-edit-pdf-complete-tutorial/)

常見問題解答

如何用 C# 從 PDF 檔案中萃取所有文字?

您可以使用 IronPDF 的 ExtractAllText 方法提取 PDF 文件中的所有文本。只需使用 IronPdf.FromFile("sample.pdf") 載入您的 PDF,並呼叫 ExtractAllText() 以擷取所有文字內容,同時保持原始格式。

在 .NET 中解析 PDF 的最簡單方法是什麼?

最簡單的方法是使用 IronPDF,只需一行程式碼:var text = IronPdf.FromFile("sample.pdf").ExtractAllText().此方法可從整個 PDF 文件中抽取每一行文字,所需的設定極少。

我可以從 PDF 的特定頁面中擷取文字嗎?

是的,IronPDF 提供 ExtractTextFromPage 方法來從個別頁面中提取文字。這可讓您針對 PDF 文件的特定部分,而非一次抽取所有內容。

如何在 C# 中解析受密碼保護的 PDF?

IronPDF 支援解析密碼保護的 PDF。使用 PdfDocument.FromFile("protected.pdf", "password123") 載入受保護的文件,然後調用 ExtractAllText() 來提取文本內容。

我可以從 URL 而非本機檔案解析 PDF 嗎?

是的,IronPDF 可以使用 PdfDocument.FromUrl("https://example.com/document.pdf") 直接從 URL 解析 PDF。從 URL 載入 PDF 之後,使用 ExtractAllText() 來提取文字內容。

PDF 解析器支援哪些平台?

IronPDF 支援跨多種平台的 PDF 解析,包括 Windows 應用程式、Linux、macOS 和 Azure 雲端部署,為您的 .NET 應用程式提供全面的跨平台相容性。

PDF 解析器在擷取過程中會保持文字格式嗎?

是的,IronPDF 的 ExtractAllText 方法可在提取過程中保持 PDF 內容的原始格式,確保解析後的文字保留來源文件的結構和排版。

我可以從 PDF 中同時擷取文字與影像嗎?

IronPDF 支持从 PDF 文档中提取文本和图像。除了用於文字萃取的 ExtractAllText 方法之外,該函式庫還提供了從 PDF 文件的特定部分萃取影像的附加功能。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。

準備好開始了嗎?
Nuget 下載 16,685,821 | 版本: 2025.12 剛發表