Comment convertir un PDF en HTML en C# avec IronPDF
IronPDF permet la conversion de PDF en HTML en C# avec une seule ligne de code utilisant la méthode SaveAsHtml, rendant les PDF compatibles avec le Web pour une accessibilité, un référencement et une intégration Web améliorés. La bibliothèque IronPDF fournit une solution robuste pour transformer le contenu PDF au format HTML tout en conservant la structure visuelle et la mise en page.
La conversion de PDF en HTML offre les avantages suivants :
- Amélioration de l'accessibilité au web
- Conception réactive pour différents appareils
- Amélioration de l'optimisation pour les moteurs de recherche
- Intégration web transparente
- Édition de contenu facile via des outils web
- Compatibilité multiplateforme
- Prise en charge des éléments dynamiques
Ce processus de conversion est utile lorsque vous réutilisez du contenu PDF pour des plateformes web ou lorsque vous devez extraire du texte et des images à partir de PDF en vue d'un traitement ultérieur.
IronPDF simplifie la conversion de PDF en HTML en .NET C#, en fournissant des méthodes qui gèrent le processus de conversion complexe en interne. Qu'il s'agisse de construire un système de gestion de documents, de créer une visionneuse PDF basée sur le web ou de rendre le contenu PDF consultable par les moteurs de recherche, les capacités de conversion d'IronPDF offrent une solution fiable.
Démarrage rapide : Convertissez instantanément vos PDF en HTML avec IronPDF
Transformez des documents PDF en fichiers HTML avec une seule ligne de code à l'aide d'IronPDF. Cet exemple démontre l'utilisation de la méthode SaveAsHtml d'IronPDF pour une conversion rapide de PDF en HTML.
-
Installez IronPDF avec le Gestionnaire de Packages NuGet
PM > Install-Package IronPdf -
Copiez et exécutez cet extrait de code.
IronPdf.PdfDocument.FromFile("example.pdf").SaveAsHtml("output.html"); -
Déployez pour tester sur votre environnement de production.
Commencez à utiliser IronPDF dans votre projet dès aujourd'hui avec un essai gratuit
Flux de travail minimal (5 étapes)
- Télécharger la bibliothèque IronPDF for .NET
- Importer un document PDF existant à l'aide de la méthode `FromFile`
- Configurez le format HTML de sortie à l'aide de la classe **`HtmlFormatOptions`**
- Convertissez le PDF en une chaîne HTML à l'aide de la méthode `ToHtmlString`
- Exportez le fichier HTML à l'aide de la méthode `SaveAsHtml`
Comment convertir un PDF de base en HTML?
La méthode ToHtmlString permet l'analyse des éléments HTML dans les documents PDF existants. Elle sert d'outil de débogage ou de comparaison de PDF. La méthode SaveAsHtml enregistre directement les documents PDF sous forme de fichiers HTML. Les deux approches offrent une certaine flexibilité en fonction des besoins spécifiques.
Le processus de conversion de PDF en HTML préserve la présentation visuelle des documents PDF tout en créant une sortie HTML pour les applications web. Cela s'avère utile lorsque vous devez afficher du contenu PDF dans les navigateurs web sans que les utilisateurs n'aient à télécharger le fichier PDF ou à installer des plugins de lecture.
Pour les développeurs travaillant avec des formulaires PDF, le processus de conversion rend les champs de formulaire sous forme de contenu statique. Pour conserver la fonctionnalité des formulaires, pensez à utiliser les capacités d'édition de formulaires d'IronPDF pour extraire les données des formulaires avant la conversion.
À quoi ressemble l'exemple de PDF?
Comment implémenter le code de conversion?
:path=/static-assets/pdf/content-code-examples/how-to/pdf-to-html.cs
using IronPdf;
using System;
PdfDocument pdf = PdfDocument.FromFile("sample.pdf");
// Convert PDF to HTML string
string html = pdf.ToHtmlString();
Console.WriteLine(html);
// Convert PDF to HTML file
pdf.SaveAsHtml("myHtml.html");
Imports IronPdf
Imports System
Dim pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")
' Convert PDF to HTML string
Dim html As String = pdf.ToHtmlString()
Console.WriteLine(html)
' Convert PDF to HTML file
pdf.SaveAsHtml("myHtml.html")
Le code démontre deux méthodes principales pour la conversion de PDF en HTML. La méthode ToHtmlString fonctionne lorsque vous devez traiter du contenu HTML par programmation, tandis que SaveAsHtml génère des fichiers directement. Pour les PDF multiples, traitez-les par lots à l'aide de techniques similaires.
À quoi ressemble le code HTML de sortie?
L'intégralité du code HTML généré par la méthode SaveAsHtml a été saisie dans le site web ci-dessous.
Comment configurer les options avancées de conversion de PDF en HTML?
Les deux méthodes ToHtmlString et SaveAsHtml offrent des options de configuration via la classe HtmlFormatOptions. Ce système de configuration personnalise l'apparence et le comportement de la sortie HTML générée. Les propriétés disponibles sont les suivantes :
- BackgroundColor : définit la couleur d'arrière-plan de la sortie HTML
- PdfPageMargin : Définit les marges de la page en pixels
Les propriétés ci-dessous s'appliquent au paramètre 'title' dans les méthodes ToHtmlString et SaveAsHtml. Ils ajoutent un nouveau titre au début du contenu sans modifier le titre original du PDF :
- H1Color : définit la couleur du titre
- H1FontSize : définit la taille de la police du titre en pixels
- H1TextAlignment : définit l'alignement du titre (gauche, centre ou droite)
Pour les développeurs travaillant avec des formats de papier personnalisés ou des orientations de page spécifiques, ces options de configuration garantissent que la sortie HTML conserve la structure visuelle prévue.
Quelles sont les options de configuration disponibles ?
:path=/static-assets/pdf/content-code-examples/how-to/pdf-to-html-advanced-settings.cs
using IronPdf;
using IronSoftware.Drawing;
using System;
PdfDocument pdf = PdfDocument.FromFile("sample.pdf");
// PDF to HTML configuration options
HtmlFormatOptions htmlformat = new HtmlFormatOptions();
htmlformat.BackgroundColor = Color.White;
htmlformat.PdfPageMargin = 10;
htmlformat.H1Color = Color.Blue;
htmlformat.H1FontSize = 25;
htmlformat.H1TextAlignment = TextAlignment.Center;
// Convert PDF to HTML string
string html = pdf.ToHtmlString();
Console.WriteLine(html);
// Convert PDF to HTML file
pdf.SaveAsHtml("myHtmlConfigured.html", true, "Hello World", htmlFormatOptions: htmlformat);
Imports IronPdf
Imports IronSoftware.Drawing
Imports System
Dim pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")
' PDF to HTML configuration options
Dim htmlformat As New HtmlFormatOptions()
htmlformat.BackgroundColor = Color.White
htmlformat.PdfPageMargin = 10
htmlformat.H1Color = Color.Blue
htmlformat.H1FontSize = 25
htmlformat.H1TextAlignment = TextAlignment.Center
' Convert PDF to HTML string
Dim html As String = pdf.ToHtmlString()
Console.WriteLine(html)
' Convert PDF to HTML file
pdf.SaveAsHtml("myHtmlConfigured.html", True, "Hello World", htmlFormatOptions:=htmlformat)
Cet exemple montre comment créer une sortie HTML soignée avec un style personnalisé. Les options de configuration fonctionnent avec le moteur de rendu d'IronPDF pour produire un HTML de haute qualité qui préserve la fidélité visuelle.
En quoi la sortie configurée diffère-t-elle ?
L'intégralité du code HTML généré par la méthode SaveAsHtml a été saisie dans le site web ci-dessous.
Pourquoi la sortie HTML utilise-t-elle des balises SVG?
Ces méthodes produisent des chaînes HTML avec des feuilles de style CSS en ligne. Le fichier HTML de sortie utilise des balises SVG au lieu des balises HTML standard. Malgré cette différence, elle produit un code HTML valide qui s'affiche correctement dans les navigateurs web. La chaîne HTML renvoyée par cette méthode peut différer de l'entrée HTML lors de l'utilisation d'un document PDF rendu à l'aide de la méthode RenderHtmlAsPdf.
L'approche basée sur le SVG garantit une représentation précise des mises en page PDF complexes, y compris le positionnement précis, les polices et les graphiques. Cette méthode est efficace pour les PDF contenant des images, des graphiques ou une mise en forme complexe difficile à reproduire à l'aide d'éléments HTML standard.
Exemple de code supplémentaire : Conversion par lots de PDF en HTML
Pour convertir plusieurs PDF en HTML, voici un exemple qui traite un répertoire entier de fichiers PDF :
using IronPdf;
using System.IO;
public class BatchPdfToHtmlConverter
{
public static void ConvertPdfDirectory(string inputDirectory, string outputDirectory)
{
// Ensure output directory exists
Directory.CreateDirectory(outputDirectory);
// Configure HTML output settings once for consistency
HtmlFormatOptions formatOptions = new HtmlFormatOptions
{
BackgroundColor = Color.WhiteSmoke,
PdfPageMargin = 15,
H1FontSize = 28,
H1TextAlignment = TextAlignment.Left
};
// Process all PDF files in the directory
string[] pdfFiles = Directory.GetFiles(inputDirectory, "*.pdf");
foreach (string pdfPath in pdfFiles)
{
try
{
// Load PDF document
PdfDocument pdf = PdfDocument.FromFile(pdfPath);
// Generate output filename
string fileName = Path.GetFileNameWithoutExtension(pdfPath);
string htmlPath = Path.Combine(outputDirectory, $"{fileName}.html");
// Convert and save as HTML with consistent formatting
pdf.SaveAsHtml(htmlPath, true, fileName, htmlFormatOptions: formatOptions);
Console.WriteLine($"Converted: {fileName}.pdf → {fileName}.html");
}
catch (Exception ex)
{
Console.WriteLine($"Error converting {pdfPath}: {ex.Message}");
}
}
}
}
using IronPdf;
using System.IO;
public class BatchPdfToHtmlConverter
{
public static void ConvertPdfDirectory(string inputDirectory, string outputDirectory)
{
// Ensure output directory exists
Directory.CreateDirectory(outputDirectory);
// Configure HTML output settings once for consistency
HtmlFormatOptions formatOptions = new HtmlFormatOptions
{
BackgroundColor = Color.WhiteSmoke,
PdfPageMargin = 15,
H1FontSize = 28,
H1TextAlignment = TextAlignment.Left
};
// Process all PDF files in the directory
string[] pdfFiles = Directory.GetFiles(inputDirectory, "*.pdf");
foreach (string pdfPath in pdfFiles)
{
try
{
// Load PDF document
PdfDocument pdf = PdfDocument.FromFile(pdfPath);
// Generate output filename
string fileName = Path.GetFileNameWithoutExtension(pdfPath);
string htmlPath = Path.Combine(outputDirectory, $"{fileName}.html");
// Convert and save as HTML with consistent formatting
pdf.SaveAsHtml(htmlPath, true, fileName, htmlFormatOptions: formatOptions);
Console.WriteLine($"Converted: {fileName}.pdf → {fileName}.html");
}
catch (Exception ex)
{
Console.WriteLine($"Error converting {pdfPath}: {ex.Message}");
}
}
}
}
Imports IronPdf
Imports System.IO
Public Class BatchPdfToHtmlConverter
Public Shared Sub ConvertPdfDirectory(inputDirectory As String, outputDirectory As String)
' Ensure output directory exists
Directory.CreateDirectory(outputDirectory)
' Configure HTML output settings once for consistency
Dim formatOptions As New HtmlFormatOptions With {
.BackgroundColor = Color.WhiteSmoke,
.PdfPageMargin = 15,
.H1FontSize = 28,
.H1TextAlignment = TextAlignment.Left
}
' Process all PDF files in the directory
Dim pdfFiles As String() = Directory.GetFiles(inputDirectory, "*.pdf")
For Each pdfPath As String In pdfFiles
Try
' Load PDF document
Dim pdf As PdfDocument = PdfDocument.FromFile(pdfPath)
' Generate output filename
Dim fileName As String = Path.GetFileNameWithoutExtension(pdfPath)
Dim htmlPath As String = Path.Combine(outputDirectory, $"{fileName}.html")
' Convert and save as HTML with consistent formatting
pdf.SaveAsHtml(htmlPath, True, fileName, htmlFormatOptions:=formatOptions)
Console.WriteLine($"Converted: {fileName}.pdf → {fileName}.html")
Catch ex As Exception
Console.WriteLine($"Error converting {pdfPath}: {ex.Message}")
End Try
Next
End Sub
End Class
Cet exemple de conversion par lots fonctionne pour les systèmes de gestion de contenu, les archives numériques ou les applications qui doivent rendre de grands volumes de contenu PDF accessibles sur le web. Pour plus d'informations sur le travail programmatique avec les PDF, explorez notre section des tutoriels.
Questions Fréquemment Posées
Comment convertir un fichier PDF en HTML en C# ?
Avec IronPDF, vous pouvez convertir un PDF en HTML en C# à l'aide d'une seule ligne de code : IronPdf.PdfDocument.FromFile("example.pdf").SaveAsHtml("output.html"). Cette méthode gère le processus complexe de conversion en interne tout en conservant la structure visuelle et la mise en page de votre document PDF.
Quels sont les principaux avantages de la conversion de PDF en HTML ?
La conversion PDF vers HTML d'IronPDF offre plusieurs avantages, notamment une meilleure accessibilité web, une conception réactive pour différents appareils, un meilleur référencement, une intégration web transparente, une édition facile du contenu via des outils web, une compatibilité multiplateforme et la prise en charge d'éléments dynamiques.
Quelles sont les méthodes disponibles pour la conversion de PDF en HTML ?
IronPDF propose deux méthodes principales pour la conversion de PDF en HTML : la méthode ToHtmlString qui permet l'analyse des éléments HTML et renvoie le HTML sous forme de chaîne, et la méthode SaveAsHtml qui enregistre directement les documents PDF sous forme de fichiers HTML. Les deux méthodes préservent la présentation visuelle du document PDF.
Les champs de formulaire interactifs fonctionneront-ils après la conversion du PDF en HTML ?
Non, lorsque vous utilisez la conversion PDF vers HTML d'IronPDF, tous les champs de formulaire interactifs du PDF d'origine ne seront plus fonctionnels dans le document HTML résultant. Les champs de formulaire sont rendus comme un contenu statique. Pour conserver la fonctionnalité des formulaires, vous devez utiliser les capacités d'édition de formulaires d'IronPDF pour extraire les données des formulaires avant la conversion.
Puis-je personnaliser la sortie HTML lors de la conversion à partir d'un PDF ?
Oui, IronPDF vous permet de configurer le code HTML de sortie à l'aide de la classe HtmlFormatOptions. Cela vous permet de contrôler divers aspects du processus de conversion HTML afin de vous assurer que la sortie répond à vos exigences spécifiques.

