¿Cómo convertir PDF a HTML en C# | IronPDF

Cómo convertir PDF a HTML en C# con IronPDF

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronPDF permite la conversión de PDF a HTML en C# con una línea de código mediante el método SaveAsHtml, lo que hace que los PDF sean compatibles con la web para mejorar la accesibilidad, el SEO y la integración web. La biblioteca IronPDF ofrece una solución robusta para transformar contenido PDF en formato HTML manteniendo la estructura visual y el diseño.

La conversión de PDF a HTML ofrece las siguientes ventajas:

  • Mejora de la accesibilidad web
  • Diseño adaptable a distintos dispositivos
  • Mejora de la optimización para motores de búsqueda
  • Integración perfecta en la web
  • Edición sencilla de contenidos mediante herramientas web
  • Compatibilidad entre plataformas
  • Compatibilidad con elementos dinámicos

Este proceso de conversión es útil cuando se reutilizan contenidos PDF para plataformas web o cuando se necesita extraer texto e imágenes de los PDF para su posterior procesamiento.

IronPDF simplifica la conversión de PDF a HTML en .NET C#, proporcionando métodos que gestionan internamente el complejo proceso de conversión. Tanto si se trata de construir un sistema de gestión de documentos, crear un visor de PDF basado en web o hacer que los motores de búsqueda puedan buscar contenido en PDF, las capacidades de conversión de IronPDF ofrecen una solución fiable.

como-título:2(Inicio rápido: Convierte instantáneamente PDF a HTML con IronPDF)

Transforme documentos PDF en archivos HTML con una sola línea de código utilizando IronPDF. Este ejemplo muestra el uso del método SaveAsHtml de IronPDF para una conversión rápida de PDF a HTML.

Nuget IconEmpieza a crear PDF con NuGet ahora:

  1. Instalar IronPDF con el gestor de paquetes NuGet

    PM > Install-Package IronPdf

  2. Copie y ejecute este fragmento de código.

    IronPdf.PdfDocument.FromFile("example.pdf").SaveAsHtml("output.html");
  3. Despliegue para probar en su entorno real

    Empieza a utilizar IronPDF en tu proyecto hoy mismo con una prueba gratuita
    arrow pointer


¿Cómo convierto un PDF básico a HTML?

El método ToHtmlString permite analizar elementos HTML en documentos PDF existentes. Sirve como herramienta de depuración o comparación de PDF. El método SaveAsHtml guarda directamente los documentos PDF como archivos HTML. Ambos enfoques ofrecen flexibilidad en función de las necesidades específicas.

El proceso de conversión de PDF a HTML conserva el diseño visual de los documentos PDF a la vez que crea una salida HTML para aplicaciones web. Esto ayuda cuando se necesita visualizar contenido PDF en navegadores web sin necesidad de que los usuarios descarguen el archivo PDF o instalen plugins de lectura.

Por favor notaNota: Todos los campos de formulario interactivos del PDF original dejarán de ser funcionales en el documento HTML resultante.

Para los desarrolladores que trabajan con formularios PDF, el proceso de conversión convierte los campos de formulario en contenido estático. Para mantener la funcionalidad de los formularios, considere la posibilidad de utilizar las funciones de edición de formularios de IronPDF para extraer los datos de los formularios antes de la conversión.

¿Qué aspecto tiene el PDF de muestra?

¿Cómo implemento el código de conversión?

:path=/static-assets/pdf/content-code-examples/how-to/pdf-to-html.cs
using IronPdf;
using System;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Convert PDF to HTML string
string html = pdf.ToHtmlString();
Console.WriteLine(html);

// Convert PDF to HTML file
pdf.SaveAsHtml("myHtml.html");
$vbLabelText   $csharpLabel

El código demuestra dos métodos principales para la conversión de PDF a HTML. El método ToHtmlString funciona cuando se necesita procesar contenido HTML mediante programación, mientras que SaveAsHtml genera archivos directamente. Para múltiples PDF, procéselos por lotes utilizando técnicas similares.

¿Qué aspecto tiene el HTML de salida?

Todo el HTML de salida generado a partir del método SaveAsHtml ha sido ingresado en el sitio web a continuación.


¿Cómo puedo configurar las opciones avanzadas de conversión de PDF a HTML?

Los métodos ToHtmlString y SaveAsHtml ofrecen opciones de configuración a través de la clase HtmlFormatOptions. Este sistema de configuración personaliza la apariencia y el comportamiento de la salida HTML generada. Las propiedades disponibles incluyen:

  • BackgroundColor: establece el color de fondo de la salida HTML
  • PdfPageMargin: Establece los márgenes de página en píxeles

Las siguientes propiedades se aplican al parámetro 'title' de los métodos ToHtmlString y SaveAsHtml. Añaden un nuevo título al principio del contenido sin modificar el título original del PDF:

  • H1Color: establece el color del título
  • H1FontSize: establece el tamaño de la fuente del título en píxeles
  • H1TextAlignment: establece la alineación del título (izquierda, centro o derecha)

Para los desarrolladores que trabajan con tamaños de papel personalizados o orientaciones de página específicas, estas opciones de configuración garantizan que la salida HTML mantenga la estructura visual prevista.

¿Qué opciones de configuración hay disponibles?

:path=/static-assets/pdf/content-code-examples/how-to/pdf-to-html-advanced-settings.cs
using IronPdf;
using IronSoftware.Drawing;
using System;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// PDF to HTML configuration options
HtmlFormatOptions htmlformat = new HtmlFormatOptions();
htmlformat.BackgroundColor = Color.White;
htmlformat.PdfPageMargin = 10;
htmlformat.H1Color = Color.Blue;
htmlformat.H1FontSize = 25;
htmlformat.H1TextAlignment = TextAlignment.Center;

// Convert PDF to HTML string
string html = pdf.ToHtmlString();
Console.WriteLine(html);

// Convert PDF to HTML file
pdf.SaveAsHtml("myHtmlConfigured.html", true, "Hello World", htmlFormatOptions: htmlformat);
$vbLabelText   $csharpLabel

Este ejemplo muestra cómo crear una salida HTML pulida con estilo personalizado. Las opciones de configuración funcionan con el motor de renderización rendering engine de IronPDF para producir HTML de alta calidad que mantenga la fidelidad visual.

¿En qué se diferencia la salida configurada?

Todo el HTML de salida generado a partir del método SaveAsHtml ha sido ingresado en el sitio web a continuación.

¿Por qué la salida HTML utiliza etiquetas SVG?

Estos métodos producen cadenas HTML con CSS en línea. El HTML de salida utiliza etiquetas SVG en lugar de etiquetas HTML estándar. A pesar de esta diferencia, produce HTML válido que se visualiza correctamente en los navegadores web. La cadena HTML devuelta por este método puede diferir de la entrada HTML cuando se utiliza un documento PDF renderizado mediante el método RenderHtmlAsPdf.

El enfoque basado en SVG garantiza una representación precisa de diseños PDF complejos, incluidos el posicionamiento preciso, las fuentes y los gráficos. Este método es eficaz para PDF que contengan imágenes, gráficos o formatos complejos difíciles de reproducir con elementos HTML estándar.

Ejemplo de código adicional: Conversión de PDF a HTML por lotes

Para convertir varios PDF a HTML, he aquí un ejemplo que procesa un directorio entero de archivos PDF:

using IronPdf;
using System.IO;

public class BatchPdfToHtmlConverter
{
    public static void ConvertPdfDirectory(string inputDirectory, string outputDirectory)
    {
        // Ensure output directory exists
        Directory.CreateDirectory(outputDirectory);

        // Configure HTML output settings once for consistency
        HtmlFormatOptions formatOptions = new HtmlFormatOptions
        {
            BackgroundColor = Color.WhiteSmoke,
            PdfPageMargin = 15,
            H1FontSize = 28,
            H1TextAlignment = TextAlignment.Left
        };

        // Process all PDF files in the directory
        string[] pdfFiles = Directory.GetFiles(inputDirectory, "*.pdf");

        foreach (string pdfPath in pdfFiles)
        {
            try
            {
                // Load PDF document
                PdfDocument pdf = PdfDocument.FromFile(pdfPath);

                // Generate output filename
                string fileName = Path.GetFileNameWithoutExtension(pdfPath);
                string htmlPath = Path.Combine(outputDirectory, $"{fileName}.html");

                // Convert and save as HTML with consistent formatting
                pdf.SaveAsHtml(htmlPath, true, fileName, htmlFormatOptions: formatOptions);

                Console.WriteLine($"Converted: {fileName}.pdf → {fileName}.html");
            }
            catch (Exception ex)
            {
                Console.WriteLine($"Error converting {pdfPath}: {ex.Message}");
            }
        }
    }
}
using IronPdf;
using System.IO;

public class BatchPdfToHtmlConverter
{
    public static void ConvertPdfDirectory(string inputDirectory, string outputDirectory)
    {
        // Ensure output directory exists
        Directory.CreateDirectory(outputDirectory);

        // Configure HTML output settings once for consistency
        HtmlFormatOptions formatOptions = new HtmlFormatOptions
        {
            BackgroundColor = Color.WhiteSmoke,
            PdfPageMargin = 15,
            H1FontSize = 28,
            H1TextAlignment = TextAlignment.Left
        };

        // Process all PDF files in the directory
        string[] pdfFiles = Directory.GetFiles(inputDirectory, "*.pdf");

        foreach (string pdfPath in pdfFiles)
        {
            try
            {
                // Load PDF document
                PdfDocument pdf = PdfDocument.FromFile(pdfPath);

                // Generate output filename
                string fileName = Path.GetFileNameWithoutExtension(pdfPath);
                string htmlPath = Path.Combine(outputDirectory, $"{fileName}.html");

                // Convert and save as HTML with consistent formatting
                pdf.SaveAsHtml(htmlPath, true, fileName, htmlFormatOptions: formatOptions);

                Console.WriteLine($"Converted: {fileName}.pdf → {fileName}.html");
            }
            catch (Exception ex)
            {
                Console.WriteLine($"Error converting {pdfPath}: {ex.Message}");
            }
        }
    }
}
$vbLabelText   $csharpLabel

Este ejemplo de conversión por lotes sirve para sistemas de gestión de contenidos, archivos digitales o aplicaciones que necesitan hacer accesibles grandes volúmenes de contenido PDF en la web. Para obtener más información sobre cómo trabajar con PDF mediante programación, explore nuestra sección de tutoriales.

Preguntas Frecuentes

¿Cómo convierto un archivo PDF a HTML en C#?

Con IronPDF, puede convertir un PDF a HTML en C# utilizando una sola línea de código: IronPDF.PdfDocument.FromFile("ejemplo.pdf").SaveAsHtml("salida.html"). Este método maneja internamente el complejo proceso de conversión mientras mantiene la estructura visual y el diseño de su documento PDF.

¿Cuáles son las principales ventajas de convertir PDF a HTML?

La conversión de PDF a HTML de IronPDF ofrece varias ventajas, entre las que se incluyen una mayor accesibilidad web, un diseño con capacidad de respuesta para diferentes dispositivos, un SEO mejorado, una integración web perfecta, una edición de contenidos sencilla a través de herramientas web, compatibilidad entre plataformas y compatibilidad con elementos dinámicos.

¿Qué métodos existen para la conversión de PDF a HTML?

IronPDF proporciona dos métodos principales para la conversión de PDF a HTML: el método ToHtmlString, que permite el análisis de elementos HTML y devuelve el HTML como una cadena, y el método SaveAsHtml, que guarda directamente los documentos PDF como archivos HTML. Ambos métodos conservan la disposición visual del documento PDF.

¿Funcionarán los campos de formulario interactivos después de convertir PDF a HTML?

No, al utilizar la conversión de PDF a HTML de IronPDF, todos los campos de formulario interactivos del PDF original dejarán de ser funcionales en el documento HTML resultante. Los campos de formulario se muestran como contenido estático. Para mantener la funcionalidad del formulario, debe utilizar las funciones de edición de formularios de IronPDF para extraer los datos del formulario antes de la conversión.

¿Puedo personalizar la salida HTML al convertir desde PDF?

Sí, IronPDF permite configurar el HTML de salida mediante la clase HtmlFormatOptions. Esto le da control sobre varios aspectos del proceso de conversión HTML para asegurar que la salida cumple con sus requisitos específicos.

Regan Pun
Ingeniero de Software
Regan se graduó de la Universidad de Reading, con una licenciatura en Ingeniería Electrónica. Antes de unirse a Iron Software, sus roles anteriores lo tenían enfocado en tareas individuales; y lo que más disfruta en Iron Software es la variedad de trabajos que puede realizar, ya ...
Leer más
Revisado por
Jeff Fritz
Jeffrey T. Fritz
Gerente Principal de Programas - Equipo de la Comunidad .NET
Jeff también es Gerente Principal de Programas para los equipos de .NET y Visual Studio. Es el productor ejecutivo de la serie de conferencias virtuales .NET Conf y anfitrión de 'Fritz and Friends', una transmisión en vivo para desarrolladores que se emite dos veces a la semana donde habla sobre tecnología y escribe código junto con la audiencia. Jeff escribe talleres, presentaciones, y planifica contenido para los eventos de desarrolladores más importantes de Microsoft, incluyendo Microsoft Build, Microsoft Ignite, .NET Conf y la Cumbre de Microsoft MVP.
¿Listo para empezar?
Nuget Descargas 17,012,929 | Versión: 2025.12 recién lanzado