如何在 C# 中将 PDF 转换为 HTML | IronPDF

如何使用 IronPDF 将 PDF 转换为 HTML?

This article was translated from English: Does it need improvement?
Translated
View the article in English

<!--说明:说明代码概念的图表或截图 -->

IronPDF 使用 SaveAsHtml 方法,只需一行代码即可在 C# 中实现 PDF 到 HTML 的转换,从而使 PDF 具有网络友好性,以增强可访问性、搜索引擎优化和网络集成。 IronPDF 库为将 PDF 内容转换为 HTML 格式提供了强大的解决方案,同时保持了可视化结构和布局。

将 PDF 转换为 HTML 有以下好处:

  • 增强网络可访问性
  • 针对不同设备的响应式设计
  • 改进搜索引擎优化
  • 无缝网络集成
  • 通过网络工具轻松编辑内容
  • 跨平台兼容性
  • 支持动态元素

在将 PDF 内容重新用于网络平台或需要从 PDF 中提取文本和图像进行进一步处理时,此转换过程将有所帮助。

IronPDF 简化了 .NET C# 中 PDF 到 HTML 的转换,提供了内部处理复杂转换过程的方法。 无论是构建文档管理系统、创建基于网络的 PDF 阅读器,还是使 PDF 内容可被搜索引擎搜索,IronPDF 的转换功能都能提供可靠的解决方案。

标题:2(快速入门:使用 IronPDF 立即将 PDF 转换为 HTML)

使用 IronPDF,只需一行代码即可将 PDF 文档转化为 HTML 文件。 本示例演示了使用 IronPDF 的 SaveAsHtml 方法将 PDF 快速转换为 HTML。


如何将基本 PDF 转换为 HTML? <!--说明:说明代码概念的图表或截图 --> 使用 `ToHtmlString` 方法可以分析现有 PDF 文档中的 HTML 元素。 它可作为调试或 PDF 对比的工具。 `SaveAsHtml` 方法可直接将 PDF 文档保存为 HTML 文件。 这两种方法都能根据具体需求提供灵活性。 PDF 到 HTML 的转换过程保留了 PDF 文档的视觉布局,同时为网络应用程序创建了 HTML 输出。 当您需要在网络浏览器中[显示 PDF 内容](https://ironpdf.com/how-to/pdf-to-html/)而不需要用户下载 PDF 文件或安装阅读器插件时,这将有所帮助。
请注意注意:原始 PDF 中的所有交互式表单字段在生成的 HTML 文档中将不再起作用。
对于使用 [ IronPDF 表单](https://ironpdf.com/how-to/create-forms/)的开发人员,转换过程会将表单字段渲染为静态内容。 为保持表单功能,可考虑使用 IronPdf 的 [ 表单编辑功能](https://ironpdf.com/how-to/edit-forms/)在转换前提取表单数据。

PDF 样本是什么样的?

如何实现转换代码? ```csharp :path=/static-assets/pdf/content-code-examples/how-to/pdf-to-html.cs ``` 代码演示了将 PDF 转换为 HTML 的两种主要方法。 `ToHtmlString` 方法适用于需要以编程方式处理 HTML 内容的情况,而 `SaveAsHtml` 则可直接生成文件。 对于[多个 PDF 文件](https://ironpdf.com/how-to/merge-or-split-pdfs/),请使用类似技术批量处理。

输出的 HTML 看起来像什么? 从 `SaveAsHtml` 方法生成的整个输出 HTML 已输入到下面的网站中。

如何配置高级 PDF 至 HTML 选项? <!--说明:说明代码概念的图表或截图 --> `ToHtmlString` 和 `SaveAsHtml` 方法均通过 `HtmlFormatOptions` 类提供配置选项。 该配置系统可自定义生成的 HTML 输出的外观和行为。 可用的属性包括 - **BackgroundColor**:设置 HTML 输出背景颜色 - **PdfPageMargin**:以像素为单位设置页面边距 以下属性适用于 `ToHtmlString` 和 `SaveAsHtml` 方法中的 "title "参数。 他们在不修改原始 PDF 标题的情况下,在内容开头添加了一个新标题: - **H1Color**:设置标题颜色 - **H1FontSize**:以像素为单位设置标题字体大小 - **H1TextAlignment**:设置标题对齐方式(左对齐、居中对齐或右对齐) 对于使用[自定义纸张大小](https://ironpdf.com/how-to/custom-paper-size/)或特定[页面方向](https://ironpdf.com/how-to/page-orientation-rotation/)的开发人员,这些配置选项可确保 HTML 输出保持预期的视觉结构。

有哪些配置选项? ```csharp :path=/static-assets/pdf/content-code-examples/how-to/pdf-to-html-advanced-settings.cs ``` 本示例展示了如何使用自定义样式创建精美的 HTML 输出。 配置选项与 IronPdf 的 [ 渲染引擎](https://ironpdf.com/how-to/ironpdf-2021-chrome-rendering-engine-eap/)配合使用,可生成保持视觉保真度的高质量 HTML。

配置输出有何不同? 从 `SaveAsHtml` 方法生成的整个输出 HTML 已输入到下面的网站中。

为什么 HTML 输出使用 SVG 标记? 这些方法可生成带有内联 CSS 的 HTML 字符串。 输出的 HTML 使用 SVG 标记代替标准 HTML 标记。 尽管存在这种差异,但它仍能生成有效的 HTML,并能在网络浏览器中正确渲染。 使用 [RenderHtmlAsPdf 方法](https://ironpdf.com/how-to/html-string-to-pdf/)渲染 PDF 文档时,该方法返回的 HTML 字符串可能与输入的 HTML 字符串不同。 基于 SVG 的方法可确保准确呈现复杂的 PDF 布局,包括精确定位、字体和图形。 这种方法对于包含 [图像](https://ironpdf.com/how-to/add-images-to-pdfs/)、图表或难以用标准 HTML 元素复制的复杂格式的 PDF 文件非常有效。 ### 附加代码示例:批量将 PDF 转换为 HTML. 关于将多个 PDF 转换为 HTML,这里有一个处理整个目录 PDF 文件的示例: ```csharp using IronPdf; using System.IO; public class BatchPdfToHtmlConverter { public static void ConvertPdfDirectory(string inputDirectory, string outputDirectory) { // Ensure output directory exists Directory.CreateDirectory(outputDirectory); // Configure HTML output settings once for consistency HtmlFormatOptions formatOptions = new HtmlFormatOptions { BackgroundColor = Color.WhiteSmoke, PdfPageMargin = 15, H1FontSize = 28, H1TextAlignment = TextAlignment.Left }; // Process all PDF files in the directory string[] pdfFiles = Directory.GetFiles(inputDirectory, "*.pdf"); foreach (string pdfPath in pdfFiles) { try { // Load PDF document PdfDocument pdf = PdfDocument.FromFile(pdfPath); // Generate output filename string fileName = Path.GetFileNameWithoutExtension(pdfPath); string htmlPath = Path.Combine(outputDirectory, $"{fileName}.html"); // Convert and save as HTML with consistent formatting pdf.SaveAsHtml(htmlPath, true, fileName, htmlFormatOptions: formatOptions); Console.WriteLine($"Converted: {fileName}.pdf → {fileName}.html"); } catch (Exception ex) { Console.WriteLine($"Error converting {pdfPath}: {ex.Message}"); } } } } ``` 该批量转换示例适用于内容管理系统、数字档案或需要在网络上访问大量 PDF 内容的应用程序。 有关以编程方式处理 PDF 的更多信息,请浏览我们的 [ 教程部分](https://ironpdf.com/tutorials/html-to-pdf/)。

常见问题解答

如何用 C# 将 PDF 文件转换为 HTML?

有了 IronPDF,只需一行代码,您就能用 C# 将 PDF 转换为 HTML:IronPdf.PdfDocument.FromFile("example.pdf").SaveAsHtml("output.html").该方法可在内部处理复杂的转换过程,同时保持 PDF 文档的可视化结构和布局。

将 PDF 转换为 HTML 的主要好处是什么?

IronPDF 的 PDF 至 HTML 转换具有多种优势,包括增强网络可访问性、针对不同设备的响应式设计、提高搜索引擎优化、无缝网络集成、通过网络工具轻松编辑内容、跨平台兼容性以及支持动态元素。

将 PDF 转换为 HTML 有哪些方法?

IronPDF 提供了两种将 PDF 转换为 HTML 的主要方法:ToHtmlString 方法允许分析 HTML 元素并以字符串形式返回 HTML;SaveAsHtml 方法可直接将 PDF 文档保存为 HTML 文件。这两种方法都保留了 PDF 文档的视觉布局。

将 PDF 转换为 HTML 后,交互式表单字段还能工作吗?

不,使用 IronPDF 的 PDF 至 HTML 转换时,原始 PDF 中的所有交互式表单字段在生成的 HTML 文档中将不再具有功能。表单字段将作为静态内容呈现。为保持表单功能,您应在转换前使用 IronPDF 的表单编辑功能提取表单数据。

从 PDF 转换为 HTML 时,能否自定义 HTML 输出?

是的,IronPDF 允许您使用 HtmlFormatOptions 类配置输出 HTML。这样您就可以控制 HTML 转换过程的各个方面,确保输出符合您的特定要求。

Regan Pun
软件工程师
Regan 毕业于雷丁大学,获得电子工程学士学位。在加入 Iron Software 之前,之前的工作角色让他专注于单一任务;他最喜欢 Iron Software 的是他可以承担的各种工作,无论是增加销售价值、技术支持、产品开发还是市场营销。他喜欢了解开发人员如何使用 Iron Software 库,并利用这些知识不断改进文档和开发产品。
审核者
Jeff Fritz
Jeffrey T. Fritz
首席项目经理 - .NET 社区团队
Jeff 也是 .NET 和 Visual Studio 团队的首席项目经理。他是 .NET Conf 虚拟会议系列的执行制片人,并主持“Fritz and Friends”直播节目,每周两次与观众一起谈论技术并编写代码。Jeff 撰写研讨会、演示文稿并计划包括 Microsoft Build、Microsoft Ignite、.NET Conf 和 Microsoft MVP 峰会在内的最大型微软开发者活动的内容。
准备开始了吗?
Nuget 下载 17,012,929 | 版本: 2025.12 刚刚发布