如何将 PDF 转换为 HTML

This article was translated from English: Does it need improvement?
Translated
View the article in English

海瑞尔 哈西米 本 奥马尔

将 PDF 转换为 HTML 有多种好处,包括增强用户的网络可访问性、不同设备的响应性、改进搜索引擎优化等。 (搜索引擎优化)这些功能包括:无缝网络集成、通过网络工具和内容管理系统轻松编辑内容、跨平台兼容性以及利用动态元素和多媒体的能力。

IronPdf 简化了用 .NET C# 将 PDF 转换为 HTML 的过程。


适用于PDF的C# NuGet库

安装使用 NuGet

Install-Package IronPdf
Java PDF JAR

下载 DLL

下载DLL

手动安装到你的项目中

适用于PDF的C# NuGet库

安装使用 NuGet

Install-Package IronPdf
Java PDF JAR

下载 DLL

下载DLL

手动安装到你的项目中

开始在您的项目中使用IronPDF,并立即获取免费试用。

第一步:
green arrow pointer

查看 IronPDFNuget 用于快速安装和部署。它有超过800万次下载,正在使用C#改变PDF。

适用于PDF的C# NuGet库 nuget.org/packages/IronPdf/
Install-Package IronPdf

考虑安装 IronPDF DLL 直接。下载并手动安装到您的项目或GAC表单中: IronPdf.zip

手动安装到你的项目中

下载DLL

PDF 转 HTML 示例

ToHtmlString方法主要是为了让用户分析现有 PDF 文档中的 HTML 元素。它是调试或比较 PDF 文档的有用工具。除了将 PDF 文档转换为 HTML 字符串外,我们还为用户提供了一种直接方法,即使用SaveAsHtml` 方法将 PDF 文档保存为 HTML 文件。这为用户提供了灵活性,可根据自己的具体需求选择最合适的方法。

请注意
原始 PDF 文件中的所有交互式表单字段在生成的 HTML 文档中将不再起作用。

PDF 文件样本

:path=/static-assets/pdf/content-code-examples/how-to/pdf-to-html.cs
using IronPdf;
using System;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Convert PDF to HTML string
string html = pdf.ToHtmlString();
Console.WriteLine(html);

// Convert PDF to HTML file
pdf.SaveAsHtml("myHtml.html");
IRON VB CONVERTER ERROR developers@ironsoftware.com
VB   C#

输出 Html

从 "SaveAsHtml "方法生成的整个输出 HTML 已输入到下面的网站。


PDF 转 HTML 高级示例

ToHtmlString "和 "SaveAsHtml "方法都提供了各种配置选项。以下是可用的属性:

  • BackgroundColor:指定背景颜色。
  • **PDF页边距***:指定页边距。

此外,下面的属性适用于 ToHtmlStringSaveAsHtml 方法中的 "title "参数。这将在内容开头添加一个新标题。它们不会修改输入 PDF 文档的标题或 h1。

  • H1Color:指定标题颜色。
  • H1FontSize:指定标题字体大小。

  • H1TextAlignment:指定标题对齐方式,如左对齐、居中对齐或右对齐。
:path=/static-assets/pdf/content-code-examples/how-to/pdf-to-html-advanced-settings.cs
using IronPdf;
using IronSoftware.Drawing;
using System;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// PDF to HTML configuration options
HtmlFormatOptions htmlformat = new HtmlFormatOptions();
htmlformat.BackgroundColor = Color.White;
htmlformat.PdfPageMargin = 10;
htmlformat.H1Color = Color.Blue;
htmlformat.H1FontSize = 25;
htmlformat.H1TextAlignment = TextAlignment.Center;

// Convert PDF to HTML string
string html = pdf.ToHtmlString();
Console.WriteLine(html);

// Convert PDF to HTML file
pdf.SaveAsHtml("myHtmlConfigured.html", true, "Hello World", htmlFormatOptions: htmlformat);
IRON VB CONVERTER ERROR developers@ironsoftware.com
VB   C#

输出 Html

从 "SaveAsHtml "方法生成的整个输出 HTML 已输入到下面的网站。

这些方法将生成带有内联 CSS 的 HTML 字符串。输出的 HTML 使用 SVG 术语/标记,而不是通常的 HTML 标记。尽管存在这种差异,它仍然是有效的 HTML 字符串,可以在网络浏览器中以相同的方式呈现。不过,用户需要注意的是,由于上述原因,在使用使用 RenderHtmlAsPdf 方法渲染 PDF 文档时,该方法返回的 HTML 字符串可能与输入的 HTML 字符串不同。

海瑞尔 哈西米 本 奥马尔

软件工程师

像所有优秀的工程师一样,Hairil 是一个热衷学习的人。他正在精进自己的 C#、Python 和 Java 知识,并利用这些知识为 Iron Software 团队成员增添价值。Hairil 毕业于马来西亚的马来西亚工艺大学(Universiti Teknologi MARA),获得了化学与工艺工程学士学位,然后加入了 Iron Software 团队。