Cómo convertir PDF a HTML

por Hairil Hasyimi Bin Omar

La conversión de PDF a HTML ofrece varias ventajas, como la mejora de la accesibilidad web para los usuarios, la capacidad de respuesta para distintos dispositivos y la optimización de los motores de búsqueda. (SEO)La integración perfecta en la web, la facilidad de edición de contenidos mediante herramientas basadas en la web y CMS, la compatibilidad entre plataformas y la posibilidad de utilizar elementos dinámicos y multimedia.

IronPdf simplifica el proceso de conversión de PDF a HTML en .NET C#.


Biblioteca NuGet C# para PDF

Instalar con NuGet

Install-Package IronPdf
o
Java PDF JAR

Descargar DLL

Descargar DLL

Instalar manualmente en su proyecto

Ejemplo de PDF a HTML

El método ToHtmlString está diseñado principalmente para permitir a los usuarios analizar elementos HTML en un documento PDF existente. Sirve como herramienta útil para depurar o comparar archivos PDF. Además de convertir un documento PDF en una cadena HTML, ofrecemos un método directo para que los usuarios guarden un documento PDF como archivo HTML mediante el método SaveAsHtml. Esto proporciona flexibilidad a los usuarios para elegir el enfoque más adecuado en función de sus necesidades específicas.

Tenga en cuenta
Todos los campos de formulario interactivos del PDF original dejarán de funcionar en el documento HTML resultante.

Ejemplo de archivo PDF

:path=/static-assets/pdf/content-code-examples/how-to/pdf-to-html.cs
using IronPdf;
using System;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

//  Convertir PDF en cadena HTML
string html = pdf.ToHtmlString();
Console.WriteLine(html);

//  Convertir PDF en archivo HTML
pdf.SaveAsHtml("myHtml.html");
Imports IronPdf
Imports System

Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

'  Convertir PDF en cadena HTML
Private html As String = pdf.ToHtmlString()
Console.WriteLine(html)

'  Convertir PDF en archivo HTML
pdf.SaveAsHtml("myHtml.html")
VB   C#

Salida Html

Todo el HTML de salida generado a partir del método SaveAsHtml se ha introducido en el sitio web a continuación.


PDF a HTML Ejemplo avanzado

Tanto el método ToHtmlString como el método SaveAsHtml ofrecen varias opciones de configuración. A continuación figuran las propiedades disponibles:

  • Color de fondo: Especifica el color de fondo.
  • Margen de página de PDF: Especifica el margen de página.

    Además, las siguientes propiedades están pensadas para el parámetro 'title' de los métodos ToHtmlString y SaveAsHtml. Esto añadirá un nuevo título al principio del contenido. No modificarán el título ni el h1 del documento PDF de entrada.

  • H1Color: Especifica el color del título.
  • TamañoFuenteH1F: Especifica el tamaño de la fuente del título.
  • AlineaciónH1Texto: Especifica la alineación del título, como izquierda, centro o derecha.
:path=/static-assets/pdf/content-code-examples/how-to/pdf-to-html-advanced-settings.cs
using IronPdf;
using IronSoftware.Drawing;
using System;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

//  Opciones de configuración de PDF a HTML
HtmlFormatOptions htmlformat = new HtmlFormatOptions();
htmlformat.BackgroundColor = Color.White;
htmlformat.PdfPageMargin = 10;
htmlformat.H1Color = Color.Blue;
htmlformat.H1FontSize = 25;
htmlformat.H1TextAlignment = TextAlignment.Center;

//  Convertir PDF en cadena HTML
string html = pdf.ToHtmlString();
Console.WriteLine(html);

//  Convertir PDF en archivo HTML
pdf.SaveAsHtml("myHtmlConfigured.html", true, "Hello World", htmlFormatOptions: htmlformat);
Imports IronPdf
Imports IronSoftware.Drawing
Imports System

Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

'  Opciones de configuración de PDF a HTML
Private htmlformat As New HtmlFormatOptions()
htmlformat.BackgroundColor = Color.White
htmlformat.PdfPageMargin = 10
htmlformat.H1Color = Color.Blue
htmlformat.H1FontSize = 25
htmlformat.H1TextAlignment = TextAlignment.Center

'  Convertir PDF en cadena HTML
Dim html As String = pdf.ToHtmlString()
Console.WriteLine(html)

'  Convertir PDF en archivo HTML
pdf.SaveAsHtml("myHtmlConfigured.html", True, "Hello World", htmlFormatOptions:= htmlformat)
VB   C#

Salida Html

Todo el HTML de salida generado a partir del método SaveAsHtml se ha introducido en el sitio web a continuación.

Estos métodos producirán una cadena HTML con CSS en línea. El HTML de salida utiliza términos/etiquetas SVG en lugar de las etiquetas HTML habituales. A pesar de esta diferencia, se trata de una cadena HTML válida y puede representarse del mismo modo en un navegador web. Sin embargo, es importante que los usuarios sean conscientes de que la cadena HTML devuelta por este método puede diferir de la entrada HTML cuando se utiliza un documento PDF renderizado con el método RenderHtmlAsPdf, debido a las razones mencionadas anteriormente.