COMPARAISON DES PRODUITS

Extraire du texte d'un PDF en C# à l'aide d'iTextSharp VS IronPDF

Publié novembre 14, 2023
Partager:

Dans le paysage dynamique de la gestion des documents numériques, la capacité d'extraire sans effort des données de fichiers PDF est une tâche fondamentale qui sous-tend une multitude d'applications. Le processus d'extraction du texte est vital pour des objectifs tels que l'analyse complète des données, l'indexation du contenu, l'utilisation commerciale et la manipulation du texte. Parmi la panoplie d'outils disponibles, iTextSharp, une bibliothèque C# très appréciée, apparaît comme une solution exceptionnelle pour l'extraction de texte à partir de fichiers PDF.

Dans cet article complet, nous allons nous plonger dans les riches capacités d'iTextSharp, en explorant comment cette bibliothèque d'analyseur syntaxique puissante et polyvalente permet aux développeurs d'extraire efficacement le contenu textuel des documents PDF à l'aide du langage de programmation C#. Nous dévoilerons les méthodes essentielles, les exemples de techniques et les meilleures pratiques, afin d'équiper les développeurs des connaissances nécessaires pour exploiter efficacement iTextSharp pour l'extraction de texte. Nous allons également discuter et comparer la meilleure et la plus puissante bibliothèque PDF IronPDF dans ce billet.

Comment extraire du texte d'un PDF C# ;

  1. Téléchargez la bibliothèque C# permettant d'extraire le texte d'un PDF.

  2. Charger un PDF existant en instanciant l'objet PdfReader.

  3. Extraire le texte de l'objet PdfDocument en utilisant la méthode GetTextFromPage.

  4. Installez la boucle foreach pour parcourir les lignes.

  5. Écrire les lignes dans le fichier à l'aide de la méthode WriteLine.

Qu'est-ce qu'IronPDF ?

Présentation d'IronPDFune bibliothèque importante et riche en fonctionnalités dans le domaine du développement .NET, révolutionne la génération et la manipulation de fichiers PDF. Doté d'une suite complète d'outils, IronPDF facilite l'intégration transparente dans les applications C#, permettant la création, la modification et le rendu de documents PDF sans effort. Avec son API intuitive et ses fonctionnalités robustes, cette bibliothèque polyvalente ouvre un monde de possibilités pour générer des PDF de haute qualité à partir de HTML, d'images et de contenu. Dans cet article, nous allons explorer les capacités d'IronPDF, en nous penchant sur ses principales caractéristiques et en démontrant comment il peut être utilisé pour gérer efficacement les tâches liées au format PDF au sein du C# ;

bibliothèque iTextSharp

iTextSharp, une bibliothèque réputée et puissante dans le domaine de la manipulation des PDF à l'aide de C#, a révolutionné la manière dont les développeurs traitent les documents PDF. Il s'agit d'un outil polyvalent et robuste qui facilite la création, la modification et l'extraction du contenu des fichiers PDF. iTextSharp permet aux développeurs de générer des PDF sophistiqués, d'extraire des images, de manipuler des documents existants et d'extraire des données, ce qui en fait une solution de choix pour un large éventail d'applications. Dans cet article, nous allons nous pencher sur les capacités et les caractéristiques d'iTextSharp, en explorant comment il peut être utilisé efficacement pour gérer et manipuler les PDF dans l'environnement de programmation C#.

Installer IronPDF

L'installation d'IronPDF est un processus simple, voici les étapes pour installer et intégrer IronPDF dans votre projet C#.

  1. Ouvrez Visual Studio et créez un nouveau projet ou ouvrez un projet existant.

  2. Allez dans Outils et sélectionnez NuGet Package Manager dans le menu déroulant.

  3. Dans le nouveau menu latéral, sélectionnez NuGet Package Manager for Solution.

    Extraire du texte d'un PDF en C# à l'aide de iTextSharp VS IronPDF Figure 1 - Gestionnaire de paquets NuGet

  4. Dans la fenêtre "NuGet Package Manager", sélectionnez l'onglet "Browse".

  5. Dans la barre de recherche, tapez "IronPDF" et appuyez sur Entrée.

  6. La liste des instances IronPDF apparaît, sélectionnez la dernière version et appuyez sur Installer.

    Extraire du texte d'un PDF en C# à l'aide d'iTextSharp VS IronPDF Figure 2 - Installation d'IronPDF

    C'est ainsi qu'IronPDF est installé et prêt à être utilisé dans votre projet C#.

Installer la bibliothèque iTextSharp

L'installation de la bibliothèque PDF d'iTextSharp est identique à celle d'IronPDF. Répétez toutes les étapes expliquées ci-dessus, recherchez simplement "iTextSharp" au lieu d'IronPDF dans les fenêtres de navigation, sélectionnez dans la liste des paquets, et cliquez sur installer pour intégrer la bibliothèque PDF iTextSharp dans votre projet.

Extraire du texte d'un PDF en C# à l'aide de iTextSharp VS IronPDF Figure 3 - iTextSharp

Extraire du texte d'un fichier PDF à l'aide d'IronPDF

IronPDF offre la possibilité d'extraire du texte à partir de fichiers PDF afin d'extraire automatiquement le texte en fonction de pages spécifiques ou d'extraire du texte à partir de tous les PDF. Dans l'exemple de code ci-dessous, nous verrons comment extraire du texte d'une page spécifique d'un exemple de document PDF.

using IronPdf;
using System;
using PdfDocument PDF = PdfDocument.FromFile("Watermarked.pdf");
string Text = PDF.ExtractTextFromPage(1);
Console.Write(Text);
using IronPdf;
using System;
using PdfDocument PDF = PdfDocument.FromFile("Watermarked.pdf");
string Text = PDF.ExtractTextFromPage(1);
Console.Write(Text);
Imports IronPdf
Imports System
Private PdfDocument As using
Private Text As String = PDF.ExtractTextFromPage(1)
Console.Write(Text)
VB   C#

Le code ci-dessus utilise la bibliothèque IronPDF en C# pour extraire du texte d'un fichier PDF et l'afficher dans la console. Tout d'abord, les espaces de noms nécessaires sont importés, notamment IronPDF et System. Le code charge ensuite un document PDF intitulé "Watermarked.pdf" dans un objet PdfDocument à l'aide de la méthode FromFile. Ensuite, il extrait le texte de la deuxième page du PDF à l'aide de la fonction ExtractTextFromPage et le stocke dans une variable de type chaîne de caractères nommée Text. Enfin, le texte extrait est affiché dans la console à l'aide de Console.Write.

Extraire du texte d'un PDF en C# à l'aide d'iTextSharp VS IronPDF Figure 4 - Sortie

Extraire du texte d'un fichier PDF à l'aide de la bibliothèque iTextSharp

Vous pouvez également extraire du texte de fichiers PDF à l'aide d'iTextSharp. Voici un exemple d'utilisation de la bibliothèque iTextSharp.

using System;
using System.Text;
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

namespace PDFApp2
{
    class Program
    {
        static void Main(string [] args)
        {
            string filePath = @"C:\Users\buttw\OneDrive\Desktop\highlighted PDF.pdf";
            string outPath = @"C:\Users\buttw\OneDrive\Desktop\name.txt";
            int pagesToScan = 2;

            string strText = string.Empty;
            try
            {
                PdfReader reader = new PdfReader(filePath);
                for (int page = 1; page <= pagesToScan; page++) 
                {
                    ITextExtractionStrategy its = new iTextSharp.text.pdf.parser.LocationTextExtractionStrategy();
                    strText = PdfTextExtractor.GetTextFromPage(reader, page, its);

                    strText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(strText)));
                    string [] lines = strText.Split('\n');
                    foreach (string line in lines)
                    {
                        using (System.IO.StreamWriter file = new System.IO.StreamWriter(outPath, true))
                        {
                            file.WriteLine(line);
                        }
                    }
                }
                reader.Close();
            }
            catch (Exception ex)
            {
                Console.Write(ex);
            }
        }
    }
}
using System;
using System.Text;
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

namespace PDFApp2
{
    class Program
    {
        static void Main(string [] args)
        {
            string filePath = @"C:\Users\buttw\OneDrive\Desktop\highlighted PDF.pdf";
            string outPath = @"C:\Users\buttw\OneDrive\Desktop\name.txt";
            int pagesToScan = 2;

            string strText = string.Empty;
            try
            {
                PdfReader reader = new PdfReader(filePath);
                for (int page = 1; page <= pagesToScan; page++) 
                {
                    ITextExtractionStrategy its = new iTextSharp.text.pdf.parser.LocationTextExtractionStrategy();
                    strText = PdfTextExtractor.GetTextFromPage(reader, page, its);

                    strText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(strText)));
                    string [] lines = strText.Split('\n');
                    foreach (string line in lines)
                    {
                        using (System.IO.StreamWriter file = new System.IO.StreamWriter(outPath, true))
                        {
                            file.WriteLine(line);
                        }
                    }
                }
                reader.Close();
            }
            catch (Exception ex)
            {
                Console.Write(ex);
            }
        }
    }
}
Imports Microsoft.VisualBasic
Imports System
Imports System.Text
Imports iTextSharp.text.pdf
Imports iTextSharp.text.pdf.parser

Namespace PDFApp2
	Friend Class Program
		Shared Sub Main(ByVal args() As String)
			Dim filePath As String = "C:\Users\buttw\OneDrive\Desktop\highlighted PDF.pdf"
			Dim outPath As String = "C:\Users\buttw\OneDrive\Desktop\name.txt"
			Dim pagesToScan As Integer = 2

			Dim strText As String = String.Empty
			Try
				Dim reader As New PdfReader(filePath)
				For page As Integer = 1 To pagesToScan
					Dim its As ITextExtractionStrategy = New iTextSharp.text.pdf.parser.LocationTextExtractionStrategy()
					strText = PdfTextExtractor.GetTextFromPage(reader, page, its)

					strText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(strText)))
					Dim lines() As String = strText.Split(ControlChars.Lf)
					For Each line As String In lines
						Using file As New System.IO.StreamWriter(outPath, True)
							file.WriteLine(line)
						End Using
					Next line
				Next page
				reader.Close()
			Catch ex As Exception
				Console.Write(ex)
			End Try
		End Sub
	End Class
End Namespace
VB   C#

Le code fourni est un programme C# qui utilise la bibliothèque iTextSharp pour extraire du texte de pages spécifiques d'un document PDF et l'enregistrer dans un fichier texte. Tout d'abord, les espaces de noms nécessaires sont importés, y compris System.Text, iTextSharp.text.pdf, et iTextSharp.text.pdf.parser. Le programme spécifie le nom du fichier, le chemin du fichier PDF d'entrée, le chemin du fichier texte de sortie et le nombre de pages à numériser. Il utilise ensuite le logiciel iTextSharp's PdfReader pour lire le fichier PDF. Pour chaque page spécifiée, il utilise la nouvelle stratégie LocationTextExtractionStrategy d'iTextSharp pour extraire le texte, en convertissant l'encodage en UTF-8. Le texte extrait est divisé en lignes, et le nouveau texte StringBuilder du code PDF fonctionne dans la bonne direction. Toutes les exceptions rencontrées au cours du processus sont capturées et affichées dans la console. Le programme se termine par la fermeture de PdfReader.

Extraire du texte d'un PDF en C# à l'aide d'iTextSharp VS IronPDF Figure 5 - Extraire du texte à l'aide d'iTextSharp

Conclusion

iTextSharp, une bibliothèque C# puissante et polyvalente, révolutionne la manipulation des PDF en permettant la création, la modification et l'extraction de contenu en toute transparence. Ses fonctionnalités robustes en font une solution de choix pour les développeurs, leur permettant de générer des PDF sophistiqués et de gérer efficacement le contenu textuel des PDF. En outre, IronPDF, une autre bibliothèque de premier plan dans le domaine .NET, offre une suite complète d'outils pour la génération de PDF et la manipulation d'images, améliorant ainsi la capacité des développeurs à créer, modifier et restituer sans effort des PDF de haute qualité à partir de diverses sources. Si l'on compare ces deux bibliothèques PDF, IronPDF prend l'avantage grâce à son API bien documentée et facile à utiliser, qui réalise également toute l'extraction de texte en quelques lignes de code seulement, alors qu'en utilisant iTextSharp, il faut écrire un code long et complexe et avoir une connaissance approfondie de la bibliothèque et de C# ;

Pour en savoir plusCaractéristiques d'IronPDF pour en savoir plus sur le logiciel et ses caractéristiques, consultez la page web officielle. Le tutoriel complet pour l'extraction de texte à l'aide d'IronPDF se trouve à l'adresse suivanteTutoriel d'extraction de texte IronPDF. Pour un tutoriel complet sur IronPDF et iTextSharp, veuillez consulter le site web de l'entrepriseComparaison IronPDF vs iTextSharp.

< PRÉCÉDENT
examen de la documentation iTextSharp VS IronPDF
SUIVANT >
IronPDF et Puppeteer C# : Une comparaison