跳過到頁腳內容
使用IRONPDF

如何在C#中讀取PDF文件

程序化 PDF 處理在金融、醫療保健、法律和教育等行業至關重要,這些行業需要處理、分析和提取 PDF 文件中的關鍵信息,以用於資料分析、文件管理和自動化等目的。 儘管這項任務非常重要,但它也可能充滿挑戰。

IronPDF:C# PDF 函式庫

IronPDF 讓您輕鬆處理極為困難的任務。 它允許您輕鬆編輯 PDF 文件中的文字,就像在文字文件中處理文字文件一樣,同時還允許您將文件匯出到任何作業系統。 IronPDF 應用程式涵蓋了檢視、修改和擷取 PDF 內容的完整流程。

使用 IronPDF 邁出正確的一步

使用任何安裝了 IronPDF 軟體的計算機,都可以快速輕鬆地讀取和寫入 PDF 文件格式的文字。 安裝很簡單。 這是學習用 C# 讀取 PDF 檔案的最佳方法。 您也可以免費下載 IronPDF 來開發。 如果您探索 IronPDF,您會發現該程式庫提供了豐富的功能,讓 PDF 的使用變得非常容易。 利用空閒時間探索課程!我們提供多個使用 HTML 建立 PDF 的 C# 範例,幫助您學習如何從 PDF 讀取資料並產生最佳輸出。

使用 IronPDF 讀取 PDF 文件

步驟 1:安裝 IronPDF 軟體包

首先,您需要將 IronPDF NuGet 套件安裝到您的 .NET 專案中。 您可以透過在 Visual Studio 中開啟套件管理器控制台並輸入以下命令來完成此操作:

Install-Package IronPdf

步驟 2:導入 IronPDF 庫

接下來,您需要在程式碼頂部新增以下語句,將 IronPDF 庫匯入到您的程式碼中:

using IronPdf;
using IronPdf;
Imports IronPdf
$vbLabelText   $csharpLabel

步驟 3:載入 PDF 文檔

匯入 IronPDF 庫後,您可以使用以下程式碼將 PDF 文件載入到您的程式碼中:

// Load the PDF document from file path
PdfDocument pdf = PdfDocument.FromFile(@"C:\dotnet.pdf");

// Define the output path for the saved PDF
var outputPath = "Example.pdf";

// Save the PDF document to the specified output path
pdf.SaveAs(outputPath);
// Load the PDF document from file path
PdfDocument pdf = PdfDocument.FromFile(@"C:\dotnet.pdf");

// Define the output path for the saved PDF
var outputPath = "Example.pdf";

// Save the PDF document to the specified output path
pdf.SaveAs(outputPath);
' Load the PDF document from file path
Dim pdf As PdfDocument = PdfDocument.FromFile("C:\dotnet.pdf")

' Define the output path for the saved PDF
Dim outputPath = "Example.pdf"

' Save the PDF document to the specified output path
pdf.SaveAs(outputPath)
$vbLabelText   $csharpLabel

步驟 4:從 PDF 提取文字

IronPDF 提供了一系列從現有 PDF 文件中提取文字的方法。例如,您可以使用以下程式碼片段從 PDF 檔案中提取文字並將其列印到控制台:

// Extract text from the loaded PDF document
string text = pdf.ExtractText();

// Print the extracted text to the console
Console.WriteLine(text);
// Extract text from the loaded PDF document
string text = pdf.ExtractText();

// Print the extracted text to the console
Console.WriteLine(text);
' Extract text from the loaded PDF document
Dim text As String = pdf.ExtractText()

' Print the extracted text to the console
Console.WriteLine(text)
$vbLabelText   $csharpLabel

使用上述程式碼,您可以從 PDF 文件中提取文字

如何在 C# 中讀取 PDF 文件,圖 1:使用 IronPDF 從 PDF 中提取文字 使用 IronPDF 從 PDF 中提取文字

步驟 5:將 PDF 柵格化為影像

讓我們使用 IronPDF將 PDF 文件柵格化為圖像。 首先,導入所需的庫:

using System.Linq;
using IronPdf;
using IronSoftware.Drawing;
using System.Linq;
using IronPdf;
using IronSoftware.Drawing;
Imports System.Linq
Imports IronPdf
Imports IronSoftware.Drawing
$vbLabelText   $csharpLabel

然後,程式碼使用RasterizeToImageFiles 方法將 PDF 文件的所有頁面提取到資料夾中作為影像檔案。 提取的圖像可以儲存為 PNG 或 JPG 文件,還可以指定圖像的尺寸和頁面範圍。

// Extract all pages to a folder as image files with PNG format
pdf.RasterizeToImageFiles(@"C:\image\folder\*.png");

// Extract all pages to JPG images with specified dimensions
pdf.RasterizeToImageFiles(@"C:\image\folder\example_pdf_image_*.jpg", 100, 80);
// Extract all pages to a folder as image files with PNG format
pdf.RasterizeToImageFiles(@"C:\image\folder\*.png");

// Extract all pages to JPG images with specified dimensions
pdf.RasterizeToImageFiles(@"C:\image\folder\example_pdf_image_*.jpg", 100, 80);
' Extract all pages to a folder as image files with PNG format
pdf.RasterizeToImageFiles("C:\image\folder\*.png")

' Extract all pages to JPG images with specified dimensions
pdf.RasterizeToImageFiles("C:\image\folder\example_pdf_image_*.jpg", 100, 80)
$vbLabelText   $csharpLabel

最後,程式碼使用ToBitmap 方法將 PDF 文件的所有頁面提取為 AnyBitmap 對象,這些對象可以在程式碼中進一步處理和操作。

// Extract all pages as AnyBitmap objects for further processing
AnyBitmap[] pdfBitmaps = pdf.ToBitmap();
// Extract all pages as AnyBitmap objects for further processing
AnyBitmap[] pdfBitmaps = pdf.ToBitmap();
' Extract all pages as AnyBitmap objects for further processing
Dim pdfBitmaps() As AnyBitmap = pdf.ToBitmap()
$vbLabelText   $csharpLabel

上面的程式碼示範如何使用 IronPDF 提取 PDF 文件的內容,並將提取的資料儲存為影像檔案或 AnyBitmap 物件以進行進一步處理。

步驟 7:操作 PDF 頁面

讓我們透過IronPDF來學習如何操作PDF文件的頁面

程式碼首先使用RemovePages 方法從 PDF 文件中刪除第二頁和第三頁:

// Remove pages two and three from the PDF document
pdf.RemovePages(1, 2);
// Remove pages two and three from the PDF document
pdf.RemovePages(1, 2);
' Remove pages two and three from the PDF document
pdf.RemovePages(1, 2)
$vbLabelText   $csharpLabel

RemovePages 方法接受兩個參數:要刪除的起始頁(在本例中為第 2 頁,表示為1 ,因為頁碼從 0 開始)和要刪除的頁數(在本例中為 2 頁)。

步驟 6:儲存 PDF 文件

最後,您可以使用SaveAs 方法將 PDF 檔案儲存到本機系統。 儲存PDF文件的程式碼如下:

// Save the PDF document to a specified output path
pdf.SaveAs(outputPath);
// Save the PDF document to a specified output path
pdf.SaveAs(outputPath);
' Save the PDF document to a specified output path
pdf.SaveAs(outputPath)
$vbLabelText   $csharpLabel

IronPDF相容性

IronPDF 與所有最新的 .NET Framework(包括 .NET 7)高度相容。它還支援 .NET Blazor 和 .NET MAUI,這是微軟為 Web 開發提供的最新產品。 該程式庫與這些框架的兼容性使得開發人員能夠將 IronPDF 無縫整合到他們的應用程式中,並利用其強大的功能。

IronPDF 的主要功能之一是能夠在 .NET Blazor 和 .NET MAUI 中讀取 PDF 檔案。 此功能使開發人員能夠快速輕鬆地從 PDF 文件中讀取和提取資料,並在 .NET 應用程式中使用它們。 在處理大量資料時,這種功能尤其有用。 開發人員無需任何其他程式庫即可在其 .NET 專案中使用 IronPDF。

在本教程中獲取有關 IronPDF 與 .NET Blazor 配合使用的更多信息,並在 IronPDF 網站上了解如何將 IronPDF 與 .NET MAUI 整合

結論

總之,以程式設計方式讀取 PDF 檔案在各個產業都至關重要。 IronPDF 提供了一套全面的解決方案來處理這項任務,它擁有強大的功能,可以讀取、修改和提取 PDF 文件的內容。 IronPDF 安裝和使用都非常簡便,只需幾個簡單的步驟即可完成。

該庫提供了從 PDF 文件中提取文字將 PDF 柵格化為圖像、操作頁面以及保存 PDF 文件的方法。 無論您是程式化 PDF 處理的新手還是經驗豐富的開發人員,IronPDF 都是將您的技能提升到更高水平的完美工具。

如果您正在尋找可靠且高效的 C# 讀取 PDF 文件解決方案,IronPDF 值得您考慮,特別是考慮到其許可選項和定價信息,以及提供的免費試用版。 您可以在下圖看到 IronPDF 提供的更多方案。 您可以選擇符合您需求的套餐。

如何在 C# 中讀取 PDF 文件,圖 2:IronPDF 許可價格 IronPDF 許可價格

常見問題解答

如何在 C# 中讀取 PDF 檔案?

您可以透過在 .NET 專案中使用 NuGet 套件管理器先安裝 IronPDF。然後,匯入函式庫並使用其載入和讀取 PDF 文檔,擷取文字並在主控台中顯示。

哪些行業受益於程式化的 PDF 處理?

金融、醫療保健、法律和教育等行業從程式化的 PDF 處理中大大受益,因為這可以使用如 IronPDF 之類的工具進行高效數據分析、文件管理和任務自動化。

如何使用 C# 從 PDF 文檔中擷取數據?

使用 IronPDF,您可以透過載入 PDF 並利用 ExtractText 等方法程式化地讀取和處理內容來擷取數據。

我可以在 C# 中將 PDF 檔案轉換成圖像嗎?

是的,使用 IronPDF,您可以使用 RasterizeToImageFiles 方法將 PDF 檔案轉換成圖像,允許將頁面保存為 PNG 或 JPG 格式的圖像檔案。

IronPDF 與最新的 .NET Framework兼容嗎?

IronPDF 與所有最新的 .NET Framework兼容,包括 .NET 7。它也支持 .NET Blazor 和 .NET MAUI,實現與各類應用程序的集成。

如何使用 C# 修改和保存 PDF 文件?

使用 IronPDF 對 PDF 文件進行修改後,您可以使用 SaveAs 方法保存更改,指定修改後文件的輸出路徑。

在 .NET 項目中使用 PDF 函式庫涉及哪些步驟?

要在 .NET 項目中使用 IronPDF,通過 NuGet 安裝函式庫,將其匯入項目,然後使用其功能程式化地載入、閱讀和處理 PDF 文檔。

IronPDF 在 .NET 中的 PDF 處理是否需要其他函式庫?

不,IronPDF 是獨立函式庫,不需要額外的函式庫,便於將其集成到您的 .NET 項目中以進行全面的 PDF 處理。

IronPDF 的 PDF 處理的主要特色是什麼?

IronPDF 提供如文字擷取、PDF 光柵化為圖像、頁面操作及兼容最新的 .NET Framework等特點,成為在 C# 中處理 PDF 檔案的強大工具。

IronPDF 是否與 .NET 10 完全相容?

是的,IronPDF開箱即可支持.NET 10(以及之前版本如.NET 9、8、7、6)。您可以在.NET 10中使用IronPDF構建應用程序,而無需特殊配置或手段。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。

鋼鐵支援團隊

我們每週 5 天,每天 24 小時在線上。
聊天
電子郵件
打電話給我