如何将 PDF 转换为 HTML

This article was translated from English: Does it need improvement?
Translated
View the article in English

海瑞尔 哈西米 本 奥马尔

将 PDF 转换为 HTML 有多种好处,包括增强用户的网络可访问性、不同设备的响应性、改进搜索引擎优化等。(搜索引擎优化)无缝的网页集成、通过基于网络的工具和CMS轻松编辑内容、跨平台兼容性,以及使用动态元素和多媒体的能力。

IronPdf 简化了在 .NET C# 中将 PDF 转换为 HTML 的过程。

开始使用IronPDF

立即在您的项目中开始使用IronPDF,并享受免费试用。

第一步:
green arrow pointer



PDF 转 HTML 示例

ToHtmlString 方法主要用于允许用户分析现有 PDF 文档中的 HTML 元素。 它是用于调试或PDF比较目的的有用工具。 除了将 PDF 文档转换为 HTML 字符串外,我们还为用户提供了一种直接方法,即使用 SaveAsHtml 方法将 PDF 文档保存为 HTML 文件。 这为用户提供了灵活性,使他们可以根据自己的具体需求选择最合适的方法。

请注意
原始 PDF 文件中的所有交互式表单字段在生成的 HTML 文档中将不再起作用。

PDF 文件样本

:path=/static-assets/pdf/content-code-examples/how-to/pdf-to-html.cs
using IronPdf;
using System;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Convert PDF to HTML string
string html = pdf.ToHtmlString();
Console.WriteLine(html);

// Convert PDF to HTML file
pdf.SaveAsHtml("myHtml.html");
IRON VB CONVERTER ERROR developers@ironsoftware.com
VB   C#

输出 HTML

SaveAsHtml 方法生成的整个输出 HTML 已输入到下面的网站中。


PDF 转 HTML 高级示例

ToHtmlStringSaveAsHtml 方法均提供多种配置选项。 以下是可用的属性:

  • BackgroundColor: 指定背景颜色。
  • PdfPageMargin:指定页面边距。

    此外,以下属性适用于 ToHtmlStringSaveAsHtml 方法中的 'title' 参数。 这将在内容开头添加一个新标题。 他们不会修改输入 PDF 文档的标题或 h1。

  • H1Color:指定标题颜色。
  • H1FontSize:指定标题字体大小。
  • H1TextAlignment:指定标题对齐方式,例如左对齐、居中或右对齐。
:path=/static-assets/pdf/content-code-examples/how-to/pdf-to-html-advanced-settings.cs
using IronPdf;
using IronSoftware.Drawing;
using System;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// PDF to HTML configuration options
HtmlFormatOptions htmlformat = new HtmlFormatOptions();
htmlformat.BackgroundColor = Color.White;
htmlformat.PdfPageMargin = 10;
htmlformat.H1Color = Color.Blue;
htmlformat.H1FontSize = 25;
htmlformat.H1TextAlignment = TextAlignment.Center;

// Convert PDF to HTML string
string html = pdf.ToHtmlString();
Console.WriteLine(html);

// Convert PDF to HTML file
pdf.SaveAsHtml("myHtmlConfigured.html", true, "Hello World", htmlFormatOptions: htmlformat);
IRON VB CONVERTER ERROR developers@ironsoftware.com
VB   C#

输出 HTML

SaveAsHtml 方法生成的整个输出 HTML 已输入到下面的网站中。

这些方法将生成包含内联CSS的HTML字符串。 输出的HTML使用SVG术语/标签,而不是常用的HTML标签。 尽管存在这种差异,它仍是一个有效的HTML字符串,可以在网页浏览器中以相同的方式渲染。 然而,用户需要知道,由于上述原因,使用 RenderHtmlAsPdf 方法渲染的 PDF 文档时,此方法返回的 HTML 字符串可能与 HTML 输入不同。

Hairil related to 输出 HTML

海瑞尔 哈西米 本 奥马尔

软件工程师

像所有优秀的工程师一样,Hairil 是一个热衷学习的人。他正在精进自己的 C#、Python 和 Java 知识,并利用这些知识为 Iron Software 团队成员增添价值。Hairil 毕业于马来西亚的马来西亚工艺大学(Universiti Teknologi MARA),获得了化学与工艺工程学士学位,然后加入了 Iron Software 团队。