COMPARAISON DES PRODUITS

Comment lire des documents PDF en C# en utilisant iTextSharp :

Kannapat Udonpant

février 19, 2025

La gestion des PDF est une tâche courante dans le développement en C#, allant de l'extraction de texte à la modification de documents. iText 7 a longtemps été une bibliothèque de référence pour cela, mais sa syntaxe complexe et sa courbe d'apprentissage abrupte peuvent ralentir le développement.

IronPDF offre une alternative plus simple et plus efficace. Avec une API intuitive, une conversion HTML en PDF intégrée et une extraction de texte plus facile, IronPDF simplifie la gestion des PDF avec moins de code. Dans cet article, nous allons comparer iText 7 et IronPDF, en démontrant pourquoi IronPDF est le choix le plus judicieux pour les développeurs C#.

Comprendre iText 7 : Un aperçu

iText 7 (initialement iTextSharp) est une bibliothèque open-source puissante pour travailler avec des PDF dans .NET. Il offre une fonctionnalité étendue pour créer, modifier, crypter et extraire du contenu à partir de documents PDF. De nombreux développeurs s'appuient sur cet outil pour automatiser les flux de travail des documents, générer des rapports et gérer des tâches de traitement de PDF à grande échelle.

L'une des plus grandes forces d'iText 7 est son contrôle granulaire sur les structures PDF. Il prend en charge les annotations, les champs de formulaire, les filigranes et les signatures numériques, ce qui en fait un outil robuste pour la manipulation avancée des documents. De plus, il est bien documenté et largement utilisé, avec un fort soutien de la communauté et de nombreuses ressources tierces disponibles.

Installation d'iText 7

Pour installer iText 7 dans un projet .NET, vous pouvez utiliser le Gestionnaire de packages NuGet dans Visual Studio :

Utilisation de la console du gestionnaire de packages NuGet :

Install-Package itext7

Install-Package itext7

'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package itext7

Cependant, iText 7 présente des défis. Son API complexe nécessite plus de code pour des tâches courantes telles que l'extraction de texte ou la fusion de PDFs. Il manque un support intégré pour la conversion de HTML en PDF, ce qui rend les flux de travail web vers document plus difficiles. De plus, sa licence AGPL oblige les entreprises à acheter une licence commerciale pour éviter les exigences de distribution open-source.

Pour les développeurs recherchant une API plus simplifiée et de haut niveau avec des fonctionnalités modernes, IronPDF offre une alternative intéressante.

Présentation d'IronPDF : Une solution supérieure

IronPDF est une bibliothèque .NET conçue pour rendre l'extraction de PDF, la manipulation et la génération simples et efficaces. Contrairement à iText 7, qui nécessite un codage approfondi pour de nombreuses opérations, IronPDF permet aux développeurs de lire, éditer et modifier des PDF avec un minimum d'effort.

Pour l'extraction de PDF, IronPDF facilite l'extraction de texte, d'images et de données structurées à partir de PDFs avec seulement quelques lignes de code, ce qui simplifie considérablement vos tâches d'extraction de texte. En matière de manipulation de PDF, IronPDF prend en charge la fusion, la division, le filigranage et l'édition de PDF sans nécessiter d'opérations complexes de bas niveau.

De plus, IronPDF comprend une conversion HTML en PDF native, ce qui simplifie la génération de PDF à partir de pages Web ou de contenu HTML existant. Il prend également en charge le rendu JavaScript, les signatures numériques et le chiffrement, offrant un ensemble d'outils complet pour les applications modernes.

Avec une API plus épurée, une meilleure documentation et un support commercial, IronPDF est une alternative conviviale pour les développeurs qui simplifie la gestion des PDF en C#. Dans les sections suivantes, nous comparerons comment les deux bibliothèques gèrent les tâches principales des PDF et pourquoi IronPDF offre une meilleure expérience pour les développeurs C#.

Installation

Pour démarrer avec IronPDF dans vos projets C#, il vous suffit d'exécuter la ligne suivante dans le Gestionnaire de packages NuGet :

Install-Package IronPdf

:----

Ou, alternativement, en allant dans Outils > Gestionnaire de packages NuGet > Gérer les packages NuGet pour la solution, et en recherchant IronPDF. Écran du gestionnaire de packages NuGet IronPDF

Ensuite, cliquez simplement sur « Installer » et IronPDF sera ajouté à votre projet en un rien de temps!

IronPDF vs iText 7 dans le traitement des PDF : Comparaison de code

Utilisation d'IronPDF pour extraire du texte

IronPDF simplifie l'extraction de texte PDF, la manipulation et la lecture avec une API beaucoup plus conviviale pour les développeurs. Contrairement à iText 7, qui nécessite des opérations de bas niveau, IronPDF permet l'extraction de texte en seulement quelques lignes de code.

Pour démontrer l'outil puissant d'extraction de texte d'IronPDF en action, je vais prendre le document PDF suivant et en extraire le contenu.

Exemple de PDF pour l'extraction de texte

Exemple de code

using IronPdf;
class Program
{
    static void Main()
    {
        string pdfPath = "sample.pdf";

        var pdf = new PdfDocument(pdfPath);

        string extractedText = pdf.ExtractAllText();

        Console.WriteLine(extractedText);
    }
}

using IronPdf;
class Program
{
    static void Main()
    {
        string pdfPath = "sample.pdf";

        var pdf = new PdfDocument(pdfPath);

        string extractedText = pdf.ExtractAllText();

        Console.WriteLine(extractedText);
    }
}

Imports IronPdf
Friend Class Program
	Shared Sub Main()
		Dim pdfPath As String = "sample.pdf"

		Dim pdf = New PdfDocument(pdfPath)

		Dim extractedText As String = pdf.ExtractAllText()

		Console.WriteLine(extractedText)
	End Sub
End Class

Sortie

Sortie de console IronPDF

Explication :

IronPDF simplifie l'extraction de texte PDF avec son API de haut niveau, éliminant ainsi le besoin d'opérations de bas niveau. En seulement quelques lignes de code, IronPDF peut extraire efficacement tout le texte d'un document PDF, à la différence de bibliothèques comme iText 7 qui nécessitent souvent une itération manuelle des pages et un traitement complexe.

Dans l'exemple, la classe PdfDocument charge le PDF et la méthode ExtractAllText() extrait rapidement tout le texte, simplifiant ainsi le processus. C'est un avantage majeur par rapport à iText 7, où vous auriez besoin de gérer manuellement les pages individuelles et les éléments de texte.

Élargir l'utilisation d'IronPDF pour d'autres tâches :

En se basant sur l'exemple de base d'extraction de texte, l'API de haut niveau d'IronPDF simplifie d'autres tâches PDF courantes, tout en maintenant la facilité d'utilisation et l'efficacité :

Extraction de texte à partir de pages spécifiques : Si vous avez besoin d'extraire du texte d'une page ou d'une plage spécifique, IronPDF vous permet de le faire facilement. Par exemple, pour extraire le texte de la première page :

var pdf = new PdfDocument("sample.pdf");

string pageText = pdf.Pages[0].Text;

Console.WriteLine(pageText);

var pdf = new PdfDocument("sample.pdf");

string pageText = pdf.Pages[0].Text;

Console.WriteLine(pageText);

Dim pdf = New PdfDocument("sample.pdf")

Dim pageText As String = pdf.Pages(0).Text

Console.WriteLine(pageText)

Manipulation de PDF : Après avoir extrait du texte ou des données de plusieurs PDF, vous pourriez vouloir les combiner en un seul document. IronPDF simplifie la fusion de plusieurs PDF :

var pdf1 = new PdfDocument("file1.pdf");
var pdf2 = new PdfDocument("file2.pdf");
var combinedPdf = PdfDocument.Merge(pdf1, pdf2);

combinedPdf.SaveAs("combined_output.pdf");

var pdf1 = new PdfDocument("file1.pdf");
var pdf2 = new PdfDocument("file2.pdf");
var combinedPdf = PdfDocument.Merge(pdf1, pdf2);

combinedPdf.SaveAs("combined_output.pdf");

Dim pdf1 = New PdfDocument("file1.pdf")
Dim pdf2 = New PdfDocument("file2.pdf")
Dim combinedPdf = PdfDocument.Merge(pdf1, pdf2)

combinedPdf.SaveAs("combined_output.pdf")

Conversion de PDF en HTML : Si vous avez besoin de convertir un PDF en HTML pour une extraction ou une manipulation ultérieure, IronPDF offre également cette fonctionnalité :

 var pdf = new PdfDocument("sample.pdf");

 string htmlContent = pdf.ToHtmlString();

 var pdf = new PdfDocument("sample.pdf");

 string htmlContent = pdf.ToHtmlString();

Dim pdf = New PdfDocument("sample.pdf")

 Dim htmlContent As String = pdf.ToHtmlString()

Avec IronPDF, l'extraction de texte n'est que le début. L'API simple et puissante de la bibliothèque s'étend à une large gamme de tâches de manipulation de PDF, le tout dans un format intuitif et facile à intégrer dans votre flux de travail.

Lecture de PDFs avec iText 7

iText 7 nécessite de travailler avec des lecteurs PDF, des flux et un traitement des données au niveau des octets. L'extraction de texte n'est pas simple, car elle implique de parcourir les pages PDF et de gérer manuellement diverses structures. Pour cet exemple de code, nous utiliserons le même document PDF que dans la section IronPDF.

using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;

class Program
{
    static void Main()
    {

        string pdfPath = "sample.pdf";
        string extractedText = ExtractTextFromPdf(pdfPath);
        Console.WriteLine(extractedText);
    }

    static string ExtractTextFromPdf(string pdfPath)
    {
        using (PdfReader reader = new PdfReader(pdfPath))
        using (iText.Kernel.Pdf.PdfDocument pdfDoc = new iText.Kernel.Pdf.PdfDocument(reader))
        {
            string text = "";
            for (int i = 1; i <= pdfDoc.GetNumberOfPages(); i++)
            {
                text += PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(i)) + Environment.NewLine;
            }
            return text;
        }
    }
}

using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;

class Program
{
    static void Main()
    {

        string pdfPath = "sample.pdf";
        string extractedText = ExtractTextFromPdf(pdfPath);
        Console.WriteLine(extractedText);
    }

    static string ExtractTextFromPdf(string pdfPath)
    {
        using (PdfReader reader = new PdfReader(pdfPath))
        using (iText.Kernel.Pdf.PdfDocument pdfDoc = new iText.Kernel.Pdf.PdfDocument(reader))
        {
            string text = "";
            for (int i = 1; i <= pdfDoc.GetNumberOfPages(); i++)
            {
                text += PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(i)) + Environment.NewLine;
            }
            return text;
        }
    }
}

Imports iText.Kernel.Pdf
Imports iText.Kernel.Pdf.Canvas.Parser

Friend Class Program
	Shared Sub Main()

		Dim pdfPath As String = "sample.pdf"
		Dim extractedText As String = ExtractTextFromPdf(pdfPath)
		Console.WriteLine(extractedText)
	End Sub

	Private Shared Function ExtractTextFromPdf(ByVal pdfPath As String) As String
		Using reader As New PdfReader(pdfPath)
		Using pdfDoc As New iText.Kernel.Pdf.PdfDocument(reader)
			Dim text As String = ""
			Dim i As Integer = 1
			Do While i <= pdfDoc.GetNumberOfPages()
				text &= PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(i)) & Environment.NewLine
				i += 1
			Loop
			Return text
		End Using
		End Using
	End Function
End Class

Sortie

Sortie de la console iText 7

Explication :

Le PdfReader charge le fichier PDF pour la lecture.
L'objet PdfDocument permet d'itérer à travers les pages.
PdfTextExtractor.GetTextFromPage() récupère le texte de chaque page.
Le texte final est stocké dans une chaîne et affiché.
Cette méthode fonctionne mais nécessite une itération manuelle et peut être encombrante pour les documents structurés ou les PDF numérisés.

Comparaison entre iText 7 et IronPDF

Alors que iText 7 nécessite un codage détaillé pour effectuer des opérations PDF, IronPDF simplifie ces tâches avec des méthodes simples. Par exemple, l'extraction de texte d'un PDF avec iText 7 implique plusieurs étapes et un code complexe, tandis qu'IronPDF réalise cela en seulement quelques lignes. De plus, le support d'IronPDF pour la conversion de HTML en PDF est plus robuste, gérant de manière transparente des HTML, CSS et JavaScript complexes.

Points Clés

IronPDF simplifie les tâches de lecture et de manipulation des PDF avec une API plus intuitive et rationalisée, nécessitant moins de code pour effectuer les opérations courantes.
L'extraction de texte d'IronPDF est beaucoup plus facile à implémenter que le processus d'itération plus complexe d'iTextSharp, ce qui permet aux développeurs de gagner du temps.
La licence perpétuelle d'IronPDF est beaucoup plus conviviale pour les entreprises, offrant moins de restrictions par rapport à la licence AGPL d'iTextSharp.
IronPDF a une meilleure documentation plus accessible pour un dépannage rapide, ce qui le rend idéal pour les développeurs qui souhaitent des solutions rapides sans avoir à parcourir des ressources excessives.

Optimiser votre flux de travail avec IronPDF

IronPDF offre une suite de fonctionnalités puissantes qui vont au-delà de la simple lecture de PDF. Ces fonctionnalités en font une solution robuste pour les développeurs cherchant à optimiser leurs flux de travail PDF. Voici comment IronPDF peut améliorer votre processus de développement :

1. Extraction de texte à partir de PDFs

IronPDF permet l'extraction facile de texte à partir de fichiers PDF, ce qui le rend idéal pour les flux de travail impliquant l'analyse de documents, l'extraction de données ou l'indexation de contenu. Avec IronPDF, vous pouvez rapidement extraire du texte à partir de fichiers PDF et l'utiliser dans vos applications sans avoir à gérer un traitement complexe.

2. Création de PDF

IronPDF simplifie la création de PDF à partir de zéro, que vous créiez des rapports, des factures ou d'autres types de documents. L'outil prend également en charge la conversion de HTML en PDF, vous permettant d'exploiter le contenu web existant et de générer des PDF bien formatés. C'est parfait pour les scénarios où vous devez convertir des pages web ou du contenu HTML dynamique en fichiers PDF téléchargeables.

3. Fonctionnalités avancées des PDF

Au-delà de l'extraction de texte de base et de la création de PDF, IronPDF prend en charge des fonctionnalités avancées telles que le remplissage de formulaires PDF, l'ajout d'annotations et la manipulation du contenu des documents. Ces capacités sont utiles dans des secteurs comme le juridique, le financier ou l'éducation où les formulaires et les retours d'information font régulièrement partie du flux de travail.

4. Traitement par lots

IronPDF est bien adapté au traitement d'un grand nombre de fichiers PDF. Que vous extrayiez des informations de centaines de documents ou que vous convertissiez plusieurs fichiers HTML en PDF, IronPDF peut automatiser ces tâches et les gérer efficacement, économisant ainsi temps et effort.

5. Automatisation et Efficacité

IronPDF simplifie les tâches de manipulation de PDF qui sont souvent chronophages et répétitives. En automatisant des tâches comme l'extraction de texte de PDF, le remplissage de formulaires ou la conversion par lot, les développeurs peuvent se concentrer sur des aspects plus complexes de leurs projets tout en laissant IronPDF s'occuper des tâches ardues.

Support technique et ressources communautaires

Pour garantir que les développeurs puissent tirer le meilleur parti de IronPDF, l'outil est soutenu par un solide soutien et des ressources communautaires :

Support technique : IronPDF offre un support direct par e-mail et un système de ticket, fournissant une assistance pour tout défi d'implémentation ou technique.
Ressources Communautaires : Le site web d’IronPDF comprend une documentation exhaustive, des tutoriels et des articles de blog. Les développeurs peuvent également trouver des solutions et partager des connaissances via GitHub et Stack Overflow, où la communauté discute activement des meilleures pratiques et des conseils de dépannage.

Conclusion

Dans cet article, nous avons exploré les capacités de IronPDF en tant que bibliothèque de manipulation de PDF puissante et conviviale pour les développeurs .NET. Nous l'avons comparé à iText 7, en soulignant comment IronPDF simplifie les tâches complexes telles que l'extraction de texte et la manipulation de PDF. L'API propre d'IronPDF et ses fonctionnalités avancées, y compris l'édition, le filigrane et les signatures numériques, en font une solution supérieure pour les flux de travail PDF modernes.

Contrairement à iText 7, qui nécessite un codage complexe pour les tâches PDF courantes, IronPDF vous permet d'effectuer des opérations complexes avec un minimum de code, ce qui permet aux développeurs de gagner du temps et des efforts. Que vous travailliez avec des documents numérisés, génériez des PDF à partir de HTML ou ajoutiez des filigranes personnalisés, IronPDF offre un moyen intuitif et efficace de tout gérer.

Si vous cherchez à rationaliser vos flux de travail PDF et à augmenter la productivité dans vos projets C#, IronPDF est le choix idéal.

Nous vous invitons à télécharger IronPDF et à l'essayer vous-même. Avec une version d'essai gratuite disponible, vous pouvez découvrir par vous-même à quel point il est facile d'intégrer IronPDF dans vos applications et commencer à bénéficier de ses fonctionnalités puissantes dès aujourd'hui.

Cliquez ci-dessous pour commencer votre essai gratuit :

Commencez votre essai gratuit avec IronPDF
En savoir plus sur les fonctionnalités d'IronPDF et ses tarifs
Ne tardez pas – libérez le potentiel d'une gestion transparente des PDF avec IronPDF!

Kannapat Udonpant

Discutez avec l'équipe d'ingénierie maintenant

Ingénieur logiciel

Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.

< PRÉCÉDENT
Comment ajouter des numéros de page dans un PDF en utilisant iTextSharp en C#

SUIVANT >
alternatives à iTextSharp Read PDF (Tutoriel du développeur)