在C#中阅读PDF文件
在从一种文档格式过渡到另一种格式时,提取文本和图像可促进数据迁移。提取的内容可以更易于访问和编辑的格式保存,从而降低数据丢失的风险。
嵌入的图像和文本可以独立于 PDF 文档提取。提取的文本将是普通字符串,而提取的图像将是图像缓冲格式,然后可以导出或进一步处理。
使用 extractText
方法提取文本,使用 extractRawImages
方法提取 PDF 文档中的图像。
import {PdfDocument} from "@ironsoftware/ironpdf"; (async () => { // Extracting Image and Text content from Pdf Documents // Import existing PDF document const pdf = await PdfDocument.fromHtml("old_report.pdf"); // Get all text to put in a search index const text = await pdf.extractText(); // Get all Images const imagesBuffer = await pdf.extractRawImages(); const pageCount = await pdf.getPageCount() // Or even find the precise text and images for each page in the document for (let index = 0; index < pageCount; index++) { text = await pdf.extractText([index]); imagesBuffer = await pdf.extractRawImages([index]); } })();
在从一种文档格式过渡到另一种格式时,提取文本和图像可促进数据迁移。提取的内容可以更易于访问和编辑的格式保存,从而降低数据丢失的风险。
嵌入的图像和文本可以独立于 PDF 文档提取。提取的文本将是普通字符串,而提取的图像将是图像缓冲格式,然后可以导出或进一步处理。
使用 extractText
方法提取文本,使用 extractRawImages
方法提取 PDF 文档中的图像。