在C#中讀取PDF檔案
提取文本和圖像可以在從一種文件格式過渡到另一種格式時促進數據遷移。提取的內容可以保存在更加易於訪問和編輯的格式中,減少數據丟失的風險。
嵌入的圖像和文本可以獨立於 PDF 文件進行提取。提取的文本將是普通字符串,而提取的圖像將是圖像緩衝區格式,然後可以導出或進一步處理。
使用 extractText
方法來提取文本,並使用 extractRawImages
方法從 PDF 文件中提取圖像。
import {PdfDocument} from "@ironsoftware/ironpdf"; (async () => { // Extracting Image and Text content from Pdf Documents // Import existing PDF document const pdf = await PdfDocument.fromHtml("old_report.pdf"); // Get all text to put in a search index const text = await pdf.extractText(); // Get all Images const imagesBuffer = await pdf.extractRawImages(); const pageCount = await pdf.getPageCount() // Or even find the precise text and images for each page in the document for (let index = 0; index < pageCount; index++) { text = await pdf.extractText([index]); imagesBuffer = await pdf.extractRawImages([index]); } })();
提取文本和圖像可以在從一種文件格式過渡到另一種格式時促進數據遷移。提取的內容可以保存在更加易於訪問和編輯的格式中,減少數據丟失的風險。
嵌入的圖像和文本可以獨立於 PDF 文件進行提取。提取的文本將是普通字符串,而提取的圖像將是圖像緩衝區格式,然後可以導出或進一步處理。
使用 extractText
方法來提取文本,並使用 extractRawImages
方法從 PDF 文件中提取圖像。