Comment convertir un PDF en HTML en C# | IronPDF

Comment convertir un PDF en HTML en C# ; avec IronPDF

This article was translated from English: Does it need improvement?
Translated
View the article in English

<TODO : Ajouter une image ici -->

IronPDF permet la conversion de PDF en HTML en C# avec une ligne de code en utilisant la méthode SaveAsHtml, ce qui rend les PDF adaptés au web pour une meilleure accessibilité, un meilleur référencement et une meilleure intégration web. La bibliothèque IronPDF fournit une solution robuste pour transformer le contenu PDF au format HTML tout en conservant la structure visuelle et la mise en page.

La conversion de PDF en HTML offre les avantages suivants :

  • Amélioration de l'accessibilité au web
  • Conception réactive pour différents appareils
  • Amélioration de l'optimisation pour les moteurs de recherche
  • Intégration web transparente
  • Édition de contenu facile via des outils web
  • Compatibilité multiplateforme
  • Prise en charge des éléments dynamiques

Ce processus de conversion est utile lorsque vous réutilisez du contenu PDF pour des plateformes web ou lorsque vous devez extraire du texte et des images à partir de PDF en vue d'un traitement ultérieur.

IronPDF simplifie la conversion de PDF en HTML en .NET C#, en fournissant des méthodes qui gèrent le processus de conversion complexe en interne. Qu'il s'agisse de construire un système de gestion de documents, de créer une visionneuse PDF basée sur le web ou de rendre le contenu PDF consultable par les moteurs de recherche, les capacités de conversion d'IronPDF offrent une solution fiable.

comme-titre:2(Démarrage rapide : Convertir instantanément un PDF en HTML avec IronPDF)

Transformez des documents PDF en fichiers HTML avec une seule ligne de code à l'aide d'IronPDF. Cet exemple démontre l'utilisation de la méthode SaveAsHtml d'IronPDF pour une conversion rapide de PDF en HTML.

Nuget IconCommencez dès maintenant à créer des PDF avec NuGet :

  1. Installez IronPDF avec le gestionnaire de packages NuGet

    PM > Install-Package IronPdf

  2. Copiez et exécutez cet extrait de code.

    IronPdf.PdfDocument.FromFile("example.pdf").SaveAsHtml("output.html");
  3. Déployez pour tester sur votre environnement de production.

    Commencez à utiliser IronPDF dans votre projet dès aujourd'hui grâce à un essai gratuit.
    arrow pointer


Comment convertir un PDF de base en HTML?

<TODO : Ajouter une image ici -->

La méthode ToHtmlString permet d'analyser les éléments HTML dans les documents PDF existants. Elle sert d'outil de débogage ou de comparaison de PDF. La méthode SaveAsHtml enregistre directement les documents PDF en tant que fichiers HTML. Les deux approches offrent une certaine flexibilité en fonction des besoins spécifiques.

Le processus de conversion de PDF en HTML préserve la présentation visuelle des documents PDF tout en créant une sortie HTML pour les applications web. Cela s'avère utile lorsque vous devez afficher du contenu PDF dans les navigateurs web sans que les utilisateurs n'aient à télécharger le fichier PDF ou à installer des plugins de lecture.

Veuillez noterNote : Tous les champs de formulaire interactifs du PDF original ne seront plus fonctionnels dans le document HTML résultant.

Pour les développeurs travaillant avec des formulaires IronPDF, le processus de conversion rend les champs de formulaire sous forme de contenu statique. Pour conserver la fonctionnalité des formulaires, pensez à utiliser les capacités d'édition de formulaires d'IronPDF pour extraire les données des formulaires avant la conversion.

À quoi ressemble l'exemple de PDF?

Comment implémenter le code de conversion?

:path=/static-assets/pdf/content-code-examples/how-to/pdf-to-html.cs
using IronPdf;
using System;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Convert PDF to HTML string
string html = pdf.ToHtmlString();
Console.WriteLine(html);

// Convert PDF to HTML file
pdf.SaveAsHtml("myHtml.html");
$vbLabelText   $csharpLabel

Le code démontre deux méthodes principales pour la conversion de PDF en HTML. La méthode ToHtmlString fonctionne lorsque vous devez traiter le contenu HTML de manière programmatique, tandis que SaveAsHtml génère des fichiers directement. Pour les PDF multiples, traitez-les par lots à l'aide de techniques similaires.

À quoi ressemble le code HTML de sortie?

L'ensemble du HTML de sortie généré à partir de la méthode SaveAsHtml a été saisi sur le site ci-dessous.


Comment configurer les options avancées de conversion de PDF en HTML?

<TODO : Ajouter une image ici -->

Les méthodes ToHtmlString et SaveAsHtml offrent des options de configuration via la classe HtmlFormatOptions. Ce système de configuration personnalise l'apparence et le comportement de la sortie HTML générée. Les propriétés disponibles sont les suivantes :

  • BackgroundColor : définit la couleur d'arrière-plan de la sortie HTML
  • PdfPageMargin : Définit les marges de la page en pixels

Les propriétés ci-dessous s'appliquent au paramètre "title" des méthodes ToHtmlString et SaveAsHtml. Ils ajoutent un nouveau titre au début du contenu sans modifier le titre original du PDF :

  • H1Color : définit la couleur du titre
  • H1FontSize : définit la taille de la police du titre en pixels
  • H1TextAlignment : définit l'alignement du titre (gauche, centre ou droite)

Pour les développeurs travaillant avec des formats de papier personnalisés ou des orientations de page spécifiques, ces options de configuration garantissent que la sortie HTML conserve la structure visuelle prévue.

Quelles sont les options de configuration disponibles ?

:path=/static-assets/pdf/content-code-examples/how-to/pdf-to-html-advanced-settings.cs
using IronPdf;
using IronSoftware.Drawing;
using System;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// PDF to HTML configuration options
HtmlFormatOptions htmlformat = new HtmlFormatOptions();
htmlformat.BackgroundColor = Color.White;
htmlformat.PdfPageMargin = 10;
htmlformat.H1Color = Color.Blue;
htmlformat.H1FontSize = 25;
htmlformat.H1TextAlignment = TextAlignment.Center;

// Convert PDF to HTML string
string html = pdf.ToHtmlString();
Console.WriteLine(html);

// Convert PDF to HTML file
pdf.SaveAsHtml("myHtmlConfigured.html", true, "Hello World", htmlFormatOptions: htmlformat);
$vbLabelText   $csharpLabel

Cet exemple montre comment créer une sortie HTML soignée avec un style personnalisé. Les options de configuration fonctionnent avec le moteur de rendu d'IronPDF pour produire un HTML de haute qualité qui préserve la fidélité visuelle.

En quoi la sortie configurée diffère-t-elle ?

L'ensemble du HTML de sortie généré à partir de la méthode SaveAsHtml a été saisi sur le site ci-dessous.

Pourquoi la sortie HTML utilise-t-elle des balises SVG?

Ces méthodes produisent des chaînes HTML avec des feuilles de style CSS en ligne. Le fichier HTML de sortie utilise des balises SVG au lieu des balises HTML standard. Malgré cette différence, elle produit un code HTML valide qui s'affiche correctement dans les navigateurs web. La chaîne HTML renvoyée par cette méthode peut différer de l'entrée HTML lors de l'utilisation d'un document PDF rendu à l'aide de la méthode RenderHtmlAsPdf.

L'approche basée sur le SVG garantit une représentation précise des mises en page PDF complexes, y compris le positionnement précis, les polices et les graphiques. Cette méthode est efficace pour les PDF contenant des images, des graphiques ou une mise en forme complexe difficile à reproduire à l'aide d'éléments HTML standard.

Exemple de code supplémentaire : Conversion par lots de PDF en HTML

Pour convertir plusieurs PDF en HTML, voici un exemple qui traite un répertoire entier de fichiers PDF :

using IronPdf;
using System.IO;

public class BatchPdfToHtmlConverter
{
    public static void ConvertPdfDirectory(string inputDirectory, string outputDirectory)
    {
        // Ensure output directory exists
        Directory.CreateDirectory(outputDirectory);

        // Configure HTML output settings once for consistency
        HtmlFormatOptions formatOptions = new HtmlFormatOptions
        {
            BackgroundColor = Color.WhiteSmoke,
            PdfPageMargin = 15,
            H1FontSize = 28,
            H1TextAlignment = TextAlignment.Left
        };

        // Process all PDF files in the directory
        string[] pdfFiles = Directory.GetFiles(inputDirectory, "*.pdf");

        foreach (string pdfPath in pdfFiles)
        {
            try
            {
                // Load PDF document
                PdfDocument pdf = PdfDocument.FromFile(pdfPath);

                // Generate output filename
                string fileName = Path.GetFileNameWithoutExtension(pdfPath);
                string htmlPath = Path.Combine(outputDirectory, $"{fileName}.html");

                // Convert and save as HTML with consistent formatting
                pdf.SaveAsHtml(htmlPath, true, fileName, htmlFormatOptions: formatOptions);

                Console.WriteLine($"Converted: {fileName}.pdf → {fileName}.html");
            }
            catch (Exception ex)
            {
                Console.WriteLine($"Error converting {pdfPath}: {ex.Message}");
            }
        }
    }
}
using IronPdf;
using System.IO;

public class BatchPdfToHtmlConverter
{
    public static void ConvertPdfDirectory(string inputDirectory, string outputDirectory)
    {
        // Ensure output directory exists
        Directory.CreateDirectory(outputDirectory);

        // Configure HTML output settings once for consistency
        HtmlFormatOptions formatOptions = new HtmlFormatOptions
        {
            BackgroundColor = Color.WhiteSmoke,
            PdfPageMargin = 15,
            H1FontSize = 28,
            H1TextAlignment = TextAlignment.Left
        };

        // Process all PDF files in the directory
        string[] pdfFiles = Directory.GetFiles(inputDirectory, "*.pdf");

        foreach (string pdfPath in pdfFiles)
        {
            try
            {
                // Load PDF document
                PdfDocument pdf = PdfDocument.FromFile(pdfPath);

                // Generate output filename
                string fileName = Path.GetFileNameWithoutExtension(pdfPath);
                string htmlPath = Path.Combine(outputDirectory, $"{fileName}.html");

                // Convert and save as HTML with consistent formatting
                pdf.SaveAsHtml(htmlPath, true, fileName, htmlFormatOptions: formatOptions);

                Console.WriteLine($"Converted: {fileName}.pdf → {fileName}.html");
            }
            catch (Exception ex)
            {
                Console.WriteLine($"Error converting {pdfPath}: {ex.Message}");
            }
        }
    }
}
$vbLabelText   $csharpLabel

Cet exemple de conversion par lots fonctionne pour les systèmes de gestion de contenu, les archives numériques ou les applications qui doivent rendre de grands volumes de contenu PDF accessibles sur le web. Pour plus d'informations sur le travail programmatique avec les PDF, explorez notre section des tutoriels.

Questions Fréquemment Posées

Comment convertir un fichier PDF en HTML en C# ?

Avec IronPDF, vous pouvez convertir un PDF en HTML en C# à l'aide d'une seule ligne de code : IronPdf.PdfDocument.FromFile("example.pdf").SaveAsHtml("output.html"). Cette méthode gère le processus complexe de conversion en interne tout en conservant la structure visuelle et la mise en page de votre document PDF.

Quels sont les principaux avantages de la conversion de PDF en HTML ?

La conversion PDF vers HTML d'IronPDF offre plusieurs avantages, notamment une meilleure accessibilité web, une conception réactive pour différents appareils, un meilleur référencement, une intégration web transparente, une édition facile du contenu via des outils web, une compatibilité multiplateforme et la prise en charge d'éléments dynamiques.

Quelles sont les méthodes disponibles pour la conversion de PDF en HTML ?

IronPdf propose deux méthodes principales pour la conversion de PDF en HTML : la méthode ToHtmlString qui permet l'analyse des éléments HTML et renvoie le HTML sous forme de chaîne, et la méthode SaveAsHtml qui enregistre directement les documents PDF sous forme de fichiers HTML. Les deux méthodes préservent la présentation visuelle du document PDF.

Les champs de formulaire interactifs fonctionneront-ils après la conversion du PDF en HTML ?

Non, lorsque vous utilisez la conversion PDF vers HTML d'IronPDF, tous les champs de formulaire interactifs du PDF d'origine ne seront plus fonctionnels dans le document HTML résultant. Les champs de formulaire sont rendus comme un contenu statique. Pour conserver la fonctionnalité des formulaires, vous devez utiliser les capacités d'édition de formulaires d'IronPDF pour extraire les données des formulaires avant la conversion.

Puis-je personnaliser la sortie HTML lors de la conversion à partir d'un PDF ?

Oui, IronPDF vous permet de configurer le code HTML de sortie à l'aide de la classe HtmlFormatOptions. Cela vous permet de contrôler divers aspects du processus de conversion HTML afin de vous assurer que la sortie répond à vos exigences spécifiques.

Regan Pun
Ingénieur logiciel
Regan a obtenu son diplôme de l'Université de Reading, avec une licence en ingénierie électronique. Avant de rejoindre Iron Software, ses rôles précédents le poussaient à se concentrer intensément sur des tâches uniques ; et ce qu'il apprécie le plus chez Iron Software, c'est ...
Lire la suite
Revu par
Jeff Fritz
Jeffrey T. Fritz
Responsable principal du programme - Équipe de la communauté .NET
Jeff est également responsable principal du programme pour les équipes .NET et Visual Studio. Il est le producteur exécutif de la série de conférences virtuelles .NET Conf et anime 'Fritz and Friends', une diffusion en direct pour développeurs qui est diffusée deux fois par semaine où il parle de technologie et écrit du code avec les téléspectateurs. Jeff écrit des ateliers, des présentations et prévoit du contenu pour les plus grands événements de développement Microsoft, y compris Microsoft Build, Microsoft Ignite, .NET Conf et le sommet Microsoft MVP
Prêt à commencer?
Nuget Téléchargements 17,012,929 | Version : 2025.12 vient de sortir