跳至頁尾內容
PDF 工具

IronPDF 與 ChatGPT——從 PDF 文件中提取文本

ChatGPT是什麼?

ChatGPT 是 OpenAI 於 2022 年發布的一款基於大型語言模型的聊天機器人。它最顯著的特點是能夠讓使用者創建和塑造對話,使其符合所需的結構、風格、細節程度和語言。 每個討論點都考慮到了先前的提示和回應,或者說是使用 OpenAI API 金鑰的"提示工程"。

ChatGPT 的基礎由 Transformer 模型構成,這些模型是 OpenAI 獨有的生成式預訓練 Transformer 系列的一部分。 然後,透過結合監督學習和強化學習方法,對這些模型進行最佳化,使其適用於對話應用。 ChatGPT AI 語言模型最初是作為免費研究預覽版發布,由於其受歡迎程度,OpenAI 現在以免費增值模式提供該模型。 更先進的基於 GPT-4 的版本以及對更新功能的優先訪問權以"ChatGPT Plus"品牌提供給付費客戶,而用戶可以使用 GPT-3.5 訪問其免費版本。

ChatGPT 能讀取 PDF 檔案嗎?

嗯,可以說是,也可以說不是。使用付費版本,只需將文件上傳到聊天框,然後讓它提取文字或概括PDF內容,ChatGPT就能輕鬆完成這項工作。

然而,它並非沒有缺點。 ChatGPT 會以純文字形式提供訊息,這意味著需要手動使用該資訊建立新的 PDF 文件。 雖然可以要求 ChatGPT 從提取的文字建立一個新的 PDF 文件,但這容易出現格式問題和下載連結故障。 此外,ChatGPT 的自訂功能也有限,例如,在為文件新增頁首和頁尾時經常會出現問題。

截至撰稿時,ChatGPT 的免費版本不支援文件附件,這意味著無法讓它讀取 PDF 文件。

什麼是 IronPDF?

IronPDF 的開發目的是為了方便在 .NET 框架中建立、瀏覽和編輯 PDF 檔案。 除了作為功能強大的 PDF 轉換器外,它還包含用於生成、編輯和修改 PDF 文件的強大 API。 Xamarin、Blazor、Unity、HoloLens 應用程式、Windows Forms、HTML、ASPX、Razor、.NET Core、ASP 和 WPF 只是 IronPDF 相容的部分擴充。

IronPDF 使用 Chrome 引擎將 HTML 轉換為 PDF。 它既支援傳統的 Windows 程序,也支援使用 Microsoft.NET 和 .NET Core 的線上 ASP.NET 應用程式。 它允許您使用各種功能自訂 PDF,支援 HTML5、JavaScript、CSS 和圖像。

透過使用 IronPDF 庫,開發人員無需使用 Acrobat Reader 即可讀取和編輯 PDF 文件。 此外,他們還可以添加文字和圖形、書籤、浮水印、頁首和頁腳,以及分割和傳輸文字屬性、合併頁面,並從新的或現有的 PDF 文件中提取圖像。

此外,還可以使用 CSS 和 CSS 媒體檔案產生 PDF 文件。 IronPDF 讓您可以產生、上傳和編輯新的辦公室文件(例如 Microsoft Word)和過時的 PDF 表單。

使用 IronPDF 從 PDF 中提取文本

IronPDF 讓您可以從 PDF 中提取文字並將其轉換為多種格式。 它可以處理單個或多個 PDF 文檔,還可以從整個文檔或選定頁面中提取文本,讓您完全掌控 PDF 內容。 以下是入門步驟:

在 Visual Studio 中建立項目

首先,開啟 Visual Studio,然後依序選擇"檔案"->"新專案"->"控制台應用程式"。 輸入項目名稱,選擇儲存位置,然後點選"下一步"按鈕。 選擇最新的 .NET Framework,然後按一下"建立"。 專案啟動並運行後,就可以新增我們的庫了。

安裝 IronPdf 函式庫

IronPDF 易於使用,但安裝更容易。 有幾種方法可以做到這一點:

方法 1:NuGet 套件管理員控制台

在 Visual Studio 的解決方案資源管理器中,以滑鼠右鍵按一下"參考",然後按一下"管理 NuGet 套件"。 點擊瀏覽並搜尋"IronPDF",然後安裝最新版本。 如果您看到這個,它就成功了:

IronPDF 安裝確認

您也可以轉到"工具"->"NuGet 套件管理器"->"套件管理器控制台",然後在"套件管理器"標籤中輸入以下行:

Install-Package IronPdf

最後,您也可以直接從NuGet 官方網站取得 IronPDF,並查看 IronPDF 下載說明。 從頁面右側的選單中選擇"下載套件"選項,雙擊下載的檔案即可自動安裝,然後重新載入解決方案即可在專案中使用它。

沒有用? 您可以在我們的進階 NuGet 安裝方法中找到特定於平台的協助。

方法 2:使用 DLL 檔案

您也可以直接從我們這裡取得 IronPDF DLL 檔案,並將其手動新增至 Visual Studio。 有關 Windows、MacOS 和 Linux DLL 套件的完整說明和鏈接,請查看我們專門的IronPDF 安裝指南

新增 IronPDF 命名空間

請務必在程式碼開頭使用 IronPDF 命名空間,如下所示:

using IronPdf;
using IronPdf;
$vbLabelText   $csharpLabel

從整個PDF文件中提取文本

從PDF文件中提取文字只需兩行程式碼即可。 在這個程式碼範例中,我們將 PDF 內容轉換為文字格式:

// Load the PDF document from a file into a PdfDocument object
var pdfDocument = IronPdf.PdfDocument.FromFile("Demo.pdf");

// Extract all text from the entire PDF and store it in a string
string AllText = pdfDocument.ExtractAllText();
// Load the PDF document from a file into a PdfDocument object
var pdfDocument = IronPdf.PdfDocument.FromFile("Demo.pdf");

// Extract all text from the entire PDF and store it in a string
string AllText = pdfDocument.ExtractAllText();
$vbLabelText   $csharpLabel

讓我們逐一了解——FromFile FromFile()函數從您的電腦載入 PDF 檔案並將其轉換為 PdfDocument 物件。 然後,PdfDocument 類別物件的ExtractAllText()函數從整個 PDF 檔案中檢索所有文本,並將其儲存在可處理的字串中。

下方可以看到 PDF 檔案和控制台中的文字輸出:

! PDF 文字輸出

從 PDF 文件的單一頁面中提取文本

using IronPdf;

// Load the PDF document from a file
PdfDocument PDF = PdfDocument.FromFile("result.pdf");

// Loop through each page of the PDF document
for (var index = 0; index < PDF.PageCount; index++)
{
    // Page numbers are typically 1-based, so we add 1 to the index
    int PageNumber = index + 1;

    // Extract text from the current page
    string Text = PDF.ExtractTextFromPage(index);
}
using IronPdf;

// Load the PDF document from a file
PdfDocument PDF = PdfDocument.FromFile("result.pdf");

// Loop through each page of the PDF document
for (var index = 0; index < PDF.PageCount; index++)
{
    // Page numbers are typically 1-based, so we add 1 to the index
    int PageNumber = index + 1;

    // Extract text from the current page
    string Text = PDF.ExtractTextFromPage(index);
}
$vbLabelText   $csharpLabel

與前面的程式碼類似,這裡也是先載入整個 PDF 文件,然後再轉換為 PDF 物件。 PageCount傳回檔案中的總頁數, ExtractTextFromPage()方法擷取文本,而for循環則將頁面類型作為參數處理。 然後,我們的文字儲存在字串變數中。 為了逐頁擷取 PDF 中的信息,我們使用for迴圈。

有關如何從 PDF 中提取嵌入文字和圖像的更多信息,請查看這篇關於從 PDF 中提取文字和圖像的詳細指南

IronPDF 和 ChatGPT——哪個比較好?

有很多工具可以讓你從 PDF 中提取內容,包括 ChatGPT。 然而,IronPDF 在設計之初就考慮到了自訂和開發者控制,使其成為業界領先的 PDF 閱讀器。 PDF 閱讀只是開始——IronPDF 還具備 HTML 轉 PDF 功能、PDF 格式化工具、內建安全性和合規性功能等等,是滿足您所有 PDF 文件需求的最佳工具。

IronPDF 也擁有廣泛的相容性。 它專為 .NET 生態系統而構建,支援 .NET Framework、.NET Standard 和 .NET Core 3.1 至 8,並且不斷更新以保持領先地位。

準備好使用 IronPdf 了嗎? 您可以先體驗我們的30 天免費試用版,探索 IronPDF 的各項功能。 它還可以完全免費用於開發目的,讓您真正能一窺其真面目。 如果您喜歡您所看到的,IronPDF 的最低價格僅為$799 ,即可完全存取 IronPDF 工具。 如需更多優惠,請查看 Iron Suite 套裝,以兩個工具的價格提供 9 個工具。 祝您編碼愉快!

IronPDF vs ChatGPT

柯蒂斯·週
技術撰稿人

Curtis Chau擁有卡爾頓大學電腦科學學士學位,專長於前端開發,精通Node.js、TypeScript、JavaScript和React。他熱衷於打造直覺美觀的使用者介面,喜歡使用現代框架,並擅長撰寫結構清晰、視覺效果出色的使用者手冊。

除了開發工作之外,柯蒂斯對物聯網 (IoT) 也抱有濃厚的興趣,致力於探索硬體和軟體整合的創新方法。閒暇時,他喜歡玩遊戲和製作 Discord 機器人,將他對科技的熱愛與創造力結合。