PDF vers HTML

Tout comme IronPDF peut gérer la génération de fichiers PDF parfaits à partir de contenu HTML, il peut également être utilisé pour convertir des documents PDF en HTML. Grâce à l'utilisation des classes PdfDocument et HtmlFormatOptions, les utilisateurs auront accès aux méthodes nécessaires pour convertir le PDF en HTML et contrôler la façon dont le contenu HTML final sera formaté.

5 étapes pour convertir un PDF en HTML

  • PdfDocument pdf = PdfDocument.FromFile("sample.pdf");
  • chaîne html = pdf.ToHtmlString();
  • pdf.SaveAsHtml("monHtml.html");
  • HtmlFormatOptions htmlformat = new HtmlFormatOptions();
  • pdf.SaveAsHtml("myHtmlConfigured.html", true, "Hello World", htmlFormatOptions: htmlformat);

    Pour commencer à convertir un fichier PDF en HTML, nous devons d'abord charger le PDF que nous souhaitons convertir en utilisant la méthode FromFile à travers la classe PdfDocument. Cette méthode prendra le nom de fichier/emplacement de fichier que nous lui passons, et le chargera dans notre nouvel objet PdfDocument, pdf. Maintenant, nous pourrons simplement référencer cet objet chaque fois que nous voudrons y accéder pour le processus de conversion.

    Ensuite, nous allons démontrer la première méthode pour convertir un document PDF en HTML. Cette méthode prend le PDF et le convertit en un simple objet de chaîne HTML, qui peut ensuite être affiché sur la console, prêt à être manipulé davantage en fonction des besoins du développeur. La ligne suivante démontre l'autre méthode, par laquelle nous convertissons le PDF en un fichier HTML, prêt pour un travail plus complexe ou le partage, par rapport à une simple chaîne HTML. Ces deux méthodes ne nécessitent qu'une seule ligne pour effectuer le processus de conversion lui-même, ce qui les rend faciles à utiliser efficacement.

    Voyons maintenant un exemple plus avancé dans lequel nous prenons la classe HtmlFormatOptions et utilisons ses méthodes pour manipuler et personnaliser le rendu HTML final. Avec cette classe, vous pouvez personnaliser différents aspects de la sortie HTML, tels que la couleur de fond, la couleur du titre (H1), l'alignement du texte H1, les marges de page, et plus encore. D'abord, nous devons créer une nouvelle instance de cette classe, que nous avons nommée htmlformat.

    Ensuite, nous allons changer la couleur de fond en blanc, tout en définissant la couleur du texte H1 en bleu. Cela est fait en accédant à la classe IronSoftware.Drawing.Color. Ensuite, nous ajusterons la taille de la police H1 (spécifiée en pixels) pour répondre à nos besoins, en la réglant sur 25. La personnalisation suivante que nous souhaitons effectuer est de spécifier l'alignement du texte H1, et de le centrer. La dernière personnalisation que nous ferons ici consiste à définir les marges de la page PDF dans le document HTML (toujours en pixels) à 10.

    La dernière étape de ce processus consiste à utiliser la même méthode qu'auparavant pour convertir le PDF en HTML, bien que cette fois-ci nous ayons passé plus de paramètres. La première est le nom et l'emplacement où nous souhaitons enregistrer notre nouveau document HTML généré, comme auparavant. Le deuxième consiste à définir un booléen, fullContentWidth, sur true, ce qui définira le contenu PDF en HTML sur toute la largeur. Le paramètre suivant est le titre pour la sortie HTML, suivi de l'application finale du paramètre de personnalisation que nous avons créé précédemment à la sortie HTML. Cliquez ici pour voir le guide pratique, y compris des exemples, du code d'exemple et des fichiers.