PDF a HTML

Así como IronPDF puede manejar la generación de archivos PDF de calidad perfecta a partir de contenido HTML, también se puede usar para convertir documentos PDF en HTML. A través del uso de las clases PdfDocument y HtmlFormatOptions, los usuarios tendrán acceso a los métodos necesarios para convertir el PDF a HTML y control sobre cómo se formateará el contenido HTML final.

5 pasos para convertir PDF a HTML

  • PdfDocument pdf = PdfDocument.FromFile("sample.pdf");
  • string html = pdf.ToHtmlString();
  • pdf.SaveAsHtml("miHtml.html");
  • HtmlFormatOptions htmlformat = new HtmlFormatOptions();
  • pdf.SaveAsHtml("myHtmlConfigured.html", true, "Hola Mundo", htmlFormatOptions: htmlformat);

    Para comenzar a convertir un archivo PDF a HTML, primero debemos cargar el PDF que deseamos convertir usando FromFile a través de la clase PdfDocument. Este método tomará el nombre del archivo/la ubicación del archivo que le pasemos y lo cargará en nuestro nuevo objeto PdfDocument, pdf. Ahora, podremos simplemente referenciar este objeto siempre que queramos acceder a él para el proceso de conversión.

    A continuación, demostraremos el primer método para convertir un documento PDF a HTML. Este método toma el PDF y lo convierte en un objeto de cadena HTML simple, que luego se puede mostrar en la consola, listo para ser manipulado según las necesidades del desarrollador. La siguiente línea demuestra la otra forma, a través de la cual convertimos el PDF a un archivo HTML, listo para un trabajo más complejo o para compartir en comparación con la simple cadena HTML. Ambos métodos solo requieren una única línea para llevar a cabo el proceso de conversión en sí, lo que los hace sencillos de usar de manera eficiente.

    Ahora veamos un ejemplo más avanzado en el que tomamos la clase HtmlFormatOptions y utilizamos sus métodos para manipular y personalizar el resultado final del HTML. Con esta clase, puedes personalizar diferentes aspectos de la salida HTML, como el color de fondo, el color del encabezado (H1), la alineación del texto H1, los márgenes de la página y más. Primero, necesitamos crear una nueva instancia de esta clase, a la que hemos llamado htmlformat.

    A continuación, cambiaremos el color de fondo a blanco, mientras configuramos el color del texto H1 a azul. Esto se realiza accediendo a la clase IronSoftware.Drawing.Color. Luego, ajustaremos el tamaño de fuente de H1 (especificado en píxeles) para adaptarlo a nuestras necesidades, estableciéndolo en 25. La siguiente personalización que queremos realizar es especificar la alineación del texto H1 y configurarlo para que esté centrado. La personalización final que haremos aquí es establecer los márgenes de página del PDF en el documento HTML (nuevamente en píxeles) a 10.

    El paso final en este proceso es usar el mismo método que antes para convertir el PDF a HTML, aunque esta vez le hemos pasado más parámetros. Lo primero es el nombre y la ubicación donde queremos guardar nuestro nuevo documento HTML generado, tal como antes. La segunda es establecer un booleano, fullContentWidth, en verdadero, lo que hará que el contenido del PDF en HTML sea de ancho completo. El siguiente parámetro es el título para la salida HTML, seguido finalmente de aplicar la configuración de personalización que creamos anteriormente a la salida HTML. Haga clic aquí para ver la Guía de Cómo Hacer, que incluye ejemplos, código de muestra y archivos.