跳過到頁腳內容
使用IRONPDF

如何在C#中讀取PDF文件

程序化的PDF處理在金融、醫療、法律和教育等行業中至關重要,這些行業需要處理、分析和從PDF文檔中提取關鍵信息,用於數據分析、文檔管理和自動化等目的。 儘管這項任務很重要,但它可能具有挑戰性。

IronPDF:C# PDF庫

IronPDF使您可以輕鬆處理非常困難的任務。 它允許像操作文本文件一樣輕鬆地編輯PDF文檔中的文本,同時允許您在任何操作系統中導出文件。 IronPDF應用程式涵蓋了查看、修改和提取PDF內容的完整過程。

與IronPDF踏出正確的一步

使用任何安裝IronPDF軟體的電腦都可以快速輕鬆地讀寫PDF文件格式的文本。 安裝是一個簡單的任務。 這是學習用C#讀取PDF文件的最佳方式。 您也可以免費下載IronPDF進行開發。 如果您探索IronPDF,您會注意到這個庫提供了廣泛的功能,使使用PDF非常簡單。 利用您的閒暇時間探索類別!有多個使用HTML創建PDF的C#範例可用於學習如何從閱讀PDF中創建最佳輸出。

使用IronPDF閱讀PDF文件

步驟1:安裝IronPDF套件

首先,您需要將IronPDF NuGet套件安裝到您的.NET專案中。 您可以通過在Visual Studio中打開套件管理器控制台並輸入以下命令來完成此操作:

Install-Package IronPdf

步驟2:導入IronPDF庫

接下來,您需要通過在文件頂部添加以下語句來將IronPDF庫導入到您的代碼中:

using IronPdf;
using IronPdf;
Imports IronPdf
$vbLabelText   $csharpLabel

步驟3:加載PDF文檔

在您導入IronPDF庫後,可以使用以下代碼將PDF文檔加載到您的代碼中:

// Load the PDF document from file path
PdfDocument pdf = PdfDocument.FromFile(@"C:\dotnet.pdf");

// Define the output path for the saved PDF
var outputPath = "Example.pdf";

// Save the PDF document to the specified output path
pdf.SaveAs(outputPath);
// Load the PDF document from file path
PdfDocument pdf = PdfDocument.FromFile(@"C:\dotnet.pdf");

// Define the output path for the saved PDF
var outputPath = "Example.pdf";

// Save the PDF document to the specified output path
pdf.SaveAs(outputPath);
' Load the PDF document from file path
Dim pdf As PdfDocument = PdfDocument.FromFile("C:\dotnet.pdf")

' Define the output path for the saved PDF
Dim outputPath = "Example.pdf"

' Save the PDF document to the specified output path
pdf.SaveAs(outputPath)
$vbLabelText   $csharpLabel

步驟4:從PDF中提取文本

IronPDF提供了一系列從現有PDF文件提取文本的方法。例如,可以使用以下代碼片段開始從PDF提取文本並將其顯示在控制台上:

// Extract text from the loaded PDF document
string text = pdf.ExtractText();

// Print the extracted text to the console
Console.WriteLine(text);
// Extract text from the loaded PDF document
string text = pdf.ExtractText();

// Print the extracted text to the console
Console.WriteLine(text);
' Extract text from the loaded PDF document
Dim text As String = pdf.ExtractText()

' Print the extracted text to the console
Console.WriteLine(text)
$vbLabelText   $csharpLabel

使用上述代碼,您可以從PDF文件中提取文本

如何在C#中讀取PDF文件,圖1:使用IronPDF從PDF提取文本 使用IronPDF從PDF提取文本

步驟5:將PDF光柵化為圖像

讓我們使用IronPDF將PDF文件光柵化為圖像。 首先,導入所需的庫:

using System.Linq;
using IronPdf;
using IronSoftware.Drawing;
using System.Linq;
using IronPdf;
using IronSoftware.Drawing;
Imports System.Linq
Imports IronPdf
Imports IronSoftware.Drawing
$vbLabelText   $csharpLabel

然後,代碼使用RasterizeToImageFiles方法將PDF文檔的所有頁面提取到文件夾中作為圖像文件。 提取的圖像可以保存為PNG或JPG文件,並且可以指定圖片的尺寸和頁面範圍。

// Extract all pages to a folder as image files with PNG format
pdf.RasterizeToImageFiles(@"C:\image\folder\*.png");

// Extract all pages to JPG images with specified dimensions
pdf.RasterizeToImageFiles(@"C:\image\folder\example_pdf_image_*.jpg", 100, 80);
// Extract all pages to a folder as image files with PNG format
pdf.RasterizeToImageFiles(@"C:\image\folder\*.png");

// Extract all pages to JPG images with specified dimensions
pdf.RasterizeToImageFiles(@"C:\image\folder\example_pdf_image_*.jpg", 100, 80);
' Extract all pages to a folder as image files with PNG format
pdf.RasterizeToImageFiles("C:\image\folder\*.png")

' Extract all pages to JPG images with specified dimensions
pdf.RasterizeToImageFiles("C:\image\folder\example_pdf_image_*.jpg", 100, 80)
$vbLabelText   $csharpLabel

最後,代碼使用ToBitmap方法提取PDF文檔的所有頁面作為AnyBitmap對象,可以在代碼中進一步處理和操作。

// Extract all pages as AnyBitmap objects for further processing
AnyBitmap[] pdfBitmaps = pdf.ToBitmap();
// Extract all pages as AnyBitmap objects for further processing
AnyBitmap[] pdfBitmaps = pdf.ToBitmap();
' Extract all pages as AnyBitmap objects for further processing
Dim pdfBitmaps() As AnyBitmap = pdf.ToBitmap()
$vbLabelText   $csharpLabel

以上代碼展示了如何使用IronPDF提取PDF文件的內容並將提取的數據保存為圖像文件或AnyBitmap對象進行進一步處理。

步驟7:操作PDF頁面

讓我們學習如何使用IronPDF操作PDF文檔的頁面

代碼首先使用RemovePages方法從PDF文檔中移除第二和第三頁:

// Remove pages two and three from the PDF document
pdf.RemovePages(1, 2);
// Remove pages two and three from the PDF document
pdf.RemovePages(1, 2);
' Remove pages two and three from the PDF document
pdf.RemovePages(1, 2)
$vbLabelText   $csharpLabel

RemovePages方法需要兩個參數:要移除的起始頁(在本例中為頁面2,以1表示,因為頁碼從0開始)和要移除的頁數(本例中為2頁)。

步驟6:保存PDF

最後,您可以使用SaveAs方法將PDF文件保存到本地系統。 保存PDF文件的代碼如下:

// Save the PDF document to a specified output path
pdf.SaveAs(outputPath);
// Save the PDF document to a specified output path
pdf.SaveAs(outputPath);
' Save the PDF document to a specified output path
pdf.SaveAs(outputPath)
$vbLabelText   $csharpLabel

IronPDF兼容性

IronPDF高度兼容所有最新的.NET框架,包括.NET 7。它還支持.NET Blazor和.NET MAUI,這些是微軟最新的Web開發產品。 庫與這些框架的兼容性使開發人員能夠將IronPDF無縫集成到其應用程序中,並利用其強大的功能。

IronPDF的主要功能之一是能夠在.NET Blazor和.NET MAUI中讀取PDF文件。 此功能使開發人員能夠快速、輕鬆地讀取和提取PDF文件中的數據,並在.NET應用程序中使用。 此功能在處理大量數據時尤其有用。 開發人員不需要其他任何庫就能在.NET項目中使用IronPDF。

Get more information about IronPDF working with .NET Blazor in this tutorial and learn about integrating IronPDF with .NET MAUI on IronPDF's website.

結論

總之,程序化地讀取PDF文件在各行業至關重要。 IronPDF通過提供廣泛的功能來處理這項任務,提供了一個全面的解決方案,用於讀取、修改和從PDF文件中提取內容。IronPDF易於安裝和使用,只需幾個簡單步驟。

The library offers methods to extract text from PDF documents, rasterize a PDF to an image, manipulate pages, and save PDF files. 無論您是程序PDF處理的新手還是經驗豐富的開發人員,IronPDF都是提升技能的理想工具。

If you are looking for a reliable and efficient solution for reading PDF files in C#, IronPDF is worth exploring, especially with its license options and pricing information, and a free trial available. 您可以在以下圖片中查看IronPDF提供的更多計劃。 您可以選擇滿足您需求的套件。

如何在C#中讀取PDF文件,圖2:IronPDF授權價格 IronPDF授權價格

常見問題解答

如何在C#中讀取PDF檔案?

首先,您可以透過 NuGet 套件管理器在 .NET 專案中安裝 IronPDF。然後,導入該庫並使用它來加載和讀取 PDF 文檔,提取文字並將其顯示在控制台中。

哪些行業可以從程序化PDF處理中受益?

金融、醫療保健、法律和教育等行業從程序化 PDF 處理中獲益匪淺,因為它能夠使用 IronPDF 等工具進行高效的數據分析、文件管理和任務自動化。

如何使用 C# 從 PDF 文件中提取資料?

使用 IronPDF,您可以透過載入 PDF 並利用ExtractText等方法以程式設計方式讀取和處理內容,從而從 PDF 文件中提取資料。

我可以用C#將PDF檔案轉換為圖片嗎?

是的,使用 IronPDF,您可以使用RasterizeToImageFiles方法將 PDF 檔案轉換為映像,從而可以將頁面儲存為 PNG 或 JPG 等格式的映像檔。

IronPDF 是否相容於最新的 .NET 框架?

IronPDF 與所有最新的 .NET 框架相容,包括 .NET 7。它還支援 .NET Blazor 和 .NET MAUI,從而可以整合到各種類型的應用程式中。

如何使用 C# 修改並儲存 PDF 檔案?

使用 IronPDF 對 PDF 檔案進行修改後,可以使用SaveAs方法儲存更改,並指定修改後文件的輸出路徑。

在.NET專案中使用PDF庫需要哪些步驟?

若要在 .NET 專案中使用 IronPDF,請透過 NuGet 安裝該程式庫,將其匯入到您的專案中,然後使用其功能以程式設計方式載入、讀取和操作 PDF 文件。

IronPDF 在 .NET 中進行 PDF 處理是否需要其他函式庫?

不,IronPDF 是一個獨立的庫,不需要額外的庫,因此可以輕鬆整合到您的 .NET 專案中,實現全面的 PDF 處理。

IronPDF在PDF處理上的主要特點是什麼?

IronPDF 提供文字擷取、PDF 柵格化為圖像、頁面操作以及與最新 .NET 框架的兼容性等功能,使其成為在 C# 中處理 PDF 文件的強大工具。

IronPDF 是否完全相容於 .NET 10?

是的,IronPDF 開箱即用,支援 .NET 10(以及先前的版本,例如 .NET 9、8、7、6)。您可以使用 IronPDF 在 .NET 10 中建立應用程序,而無需任何特殊配置或變通方法。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。