在C#中阅读PDF文件
从一个文档格式转换到另一个文档格式时,提取文本和图像可以促进数据迁移。 提取的内容可以保存在更易于访问和编辑的格式中,从而降低数据丢失的风险。
PDF文档中的嵌入图像和文本可以独立提取。 提取的文本将以普通字符串形式存在,而提取的图像将以图像缓冲区格式存在,然后可以导出或进一步处理。
使用extractText
方法提取文本,使用extractRawImages
方法从PDF文档中提取图片。
有关如何使用这些方法的更详细说明,请访问IronPDF文档.
import {PdfDocument} from "@ironsoftware/ironpdf"; (async () => { // Extracting Image and Text content from Pdf Documents // Import existing PDF document const pdf = await PdfDocument.fromHtml("old_report.pdf"); // Get all text to put in a search index const text = await pdf.extractText(); // Get all Images const imagesBuffer = await pdf.extractRawImages(); const pageCount = await pdf.getPageCount() // Or even find the precise text and images for each page in the document for (let index = 0; index < pageCount; index++) { text = await pdf.extractText([index]); imagesBuffer = await pdf.extractRawImages([index]); } })();
从一个文档格式转换到另一个文档格式时,提取文本和图像可以促进数据迁移。 提取的内容可以保存在更易于访问和编辑的格式中,从而降低数据丢失的风险。
PDF文档中的嵌入图像和文本可以独立提取。 提取的文本将以普通字符串形式存在,而提取的图像将以图像缓冲区格式存在,然后可以导出或进一步处理。
使用extractText
方法提取文本,使用extractRawImages
方法从PDF文档中提取图片。
有关如何使用这些方法的更详细说明,请访问IronPDF文档.