PDF转HTML
就像IronPDF可以从HTML内容生成像素完美的PDF文件一样,它也可以用于将PDF文档转换为HTML。 通过使用PdfDocument
和HtmlFormatOptions
类,用户将可以使用将PDF转换为HTML的必要方法,并能够控制最终HTML内容的格式。
将 PDF 转换为 HTML 的 5 个步骤
- PdfDocument pdf = PdfDocument.FromFile("sample.pdf");
- string html = pdf.ToHtmlString();
- pdf.SaveAsHtml("myHtml.html");
- HtmlFormatOptions htmlformat = new HtmlFormatOptions();
-
pdf.SaveAsHtml("myHtmlConfigured.html", true, "Hello World", htmlFormatOptions: htmlformat);
要开始将 PDF 文件转换为 HTML,我们必须首先通过
PdfDocument
类使用FromFile
加载我们希望转换的 PDF。 此方法将接收我们传递给它的文件名/文件位置,并将其加载到我们的新PdfDocument
对象pdf中。 现在,我们可以在需要访问此对象进行转换过程时简单地引用它。接下来,我们将演示将 PDF 文档转换为 HTML 的第一种方法。 此方法将PDF转换为简单的HTML字符串对象,然后可以在控制台上显示,准备根据开发人员的需要进一步操作。 下一行演示了另一种方法,通过这种方法我们将PDF转换为HTML文件,准备进行更复杂的工作或共享,与简单HTML字符串相比。 这两种方法都只需一行代码即可完成转换过程,使其使用简单高效。
现在,让我们看一个更高级的示例,在其中我们使用
HtmlFormatOptions
类及其方法来操作和定制最终的HTML输出。 使用此类,您可以自定义HTML输出的不同方面,例如背景颜色、标题(H1)颜色、H1文本对齐方式、页面边距等。 首先,我们需要创建一个名为htmlformat的新类实例。接下来,我们将背景颜色更改为白色,同时将 H1 文本颜色设置为蓝色。 这是通过访问
IronSoftware.Drawing.Color
类来完成的。 接下来,我们将调整 H1 字体大小(以像素为单位)以适应我们的需求,将其设置为 25。接下来的自定义是指定 H1 文本对齐方式,并将其设置为居中。 我们在这里要进行的最后一个自定义是将 HTML 文档中的 PDF 页面边距(以像素为单位)设置为 10。此过程的最后一步是使用与之前相同的方法将PDF转换为HTML,尽管这次我们传递了更多的参数。 首先是我们想要保存新生成的HTML文档的名称和位置,就像之前一样。 第二步是将布尔值fullContentWidth设置为true,这将使HTML中的PDF内容设置为全宽。 下一个参数是 HTML 输出的标题,最后将我们先前创建的自定义设置应用于 HTML 输出。 点击此处查看操作指南,其中包括示例、示例代码和文件。