UTILISATION D'IRONPDF

C# Extraire le texte d'un PDF (Tutoriel d'exemple de code)

Mise à jour décembre 3, 2023
Partager:

Les fichiers au format Portable Document Format sont utilisés dans un grand nombre d'entreprises. Lors de l'élaboration de documents, les développeurs utilisent le format PDF pour aider leurs clients. Grâce aux bibliothèques actuelles, la création de PDF n'a jamais été aussi simple. Nous devons évaluer des éléments tels que la construction, la lecture et la conversion afin de déterminer quelle bibliothèque commerciale est la plus appropriée pour un projet.

1. Caractéristiques d'IronPDF

IronPDF est un convertisseur PDF robuste qui peut effectuer presque toutes les opérations qu'un navigateur peut effectuer. La création, la lecture et la manipulation de documents PDF sont simples grâce à la bibliothèque .NET pour les développeurs. IronPDF convertit des documents HTML en documents PDF en utilisant le moteur Chrome. IronPDF prend en charge HTML, ASPX, Razor HTML et MVC View, entre autres composants web. L'application Microsoft .NET est prise en charge par IronPDF for .NET(à la fois les applications Web ASP.NET et les applications Windows traditionnelles). IronPDF peut également être utilisé pour créer un document PDF visuellement attrayant.

Nous pouvons créer un document PDF à partir de HTML5, de JavaScript, de CSS et d'images avec IronPDF. En outre, les fichiers peuvent comporter des en-têtes et des pieds de page. Grâce à IronPDF, nous pouvons facilement lire un document PDF. IronPDF dispose également d'un moteur de conversion PDF complet et d'un puissant convertisseur HTML-PDF capable de traiter les documents PDF.

  • Les sources qui peuvent être utilisées pour créer un fichier PDF comprennent HTML, HTML5, ASPX etVue Razor/MVC avec IronPDF. Nous pouvons non seulement convertir des fichiers HTML en PDF, mais aussiconvertir des fichiers images au format PDF.
  • IronPDF vous permet de créer des documents PDF interactifs, de remplir et de soumettre des formulaires interactifs,fusionner et diviser des documents PDF de manière efficaceil permet d'extraire du texte et des images de fichiers PDF, de rechercher du texte dans un fichier PDF, de convertir des pages PDF en images, de convertir des PDF en HTML et d'imprimer des documents PDF.
  • IronPDF est capable de créer un document à partir d'une URL. Il prend également en charge les identifiants de connexion au réseau, les agents utilisateurs, les serveurs mandataires, les cookies, les en-têtes HTTP et les variables de formulaire personnalisés pournaviguer dans des formulaires HTML protégés par un login.
  • IronPDF est un programme qui vous permet de visualiser et deremplir des documents PDF à l'aide de données de formulaire.
  • Les images peuvent être extraites des documents à l'aide d'IronPDF.
  • IronPDF nous permet de personnaliser les documents avecen-têtes, pieds de page et éléments personnalisésles pages d'accueil, les pieds de page, le texte, les images, les signets,filigranes personnaliséset bien d'autres choses encore.
  • Nous pouvons joindre et diviser des pages dans un document nouveau ou existant à l'aide d'IronPDF.
  • Sans visionneuse Acrobat, nous pouvons convertir des documents en objets PDF.
  • Un fichier CSS peut être converti en document PDF.
  • Les fichiers CSS de type média peuvent être transformés en documents.

2. Création d'un nouveau projet dans Visual Studio

Ouvrez le logiciel Visual Studio et allez dans le menu Fichier. Sélectionnez "Nouveau projet", puis "Application console". Dans cet article, nous allons utiliser une application console pour générer des documents PDF.

C# Extraction de texte à partir d'un PDF(Exemple de code Tutoriel), Figure 1 : Créer un nouveau projet dans Visual Studio

Créer un nouveau projet dans Visual Studio

Saisissez le nom du projet et sélectionnez le chemin d'accès au fichier dans la zone de texte appropriée. Cliquez ensuite sur le bouton Create et sélectionnez le Framework .NET requis, comme dans la capture d'écran ci-dessous.

C# Extraction de texte à partir d'un PDF(Exemple de code Tutoriel), Figure 2 : Configurer un nouveau projet dans Visual Studio

Configurer un nouveau projet dans Visual Studio

Le projet Visual Studio va maintenant générer la structure de l'application sélectionnée et, si vous avez choisi l'application Console, Windows et Web, il ouvrira le fichier program.cs dans lequel vous pourrez entrer le code et construire/exécuter l'application.

C# Extraction de texte à partir d'un PDF(Exemple de code Tutoriel), Figure 3 : Sélection de .NET Core

Sélectionner .NET Core

Ensuite, nous pouvons ajouter la bibliothèque pour tester le code.

3. Installer la bibliothèque IronPDF

La bibliothèque IronPDF peut être téléchargée et installée de quatre façons.

Il s'agit de

  • Utilisation de Visual Studio.
  • Utilisation de la ligne de commande de Visual Studio.
  • Téléchargement direct depuis le site NuGet.
  • Téléchargement direct depuis le site web d'IronPDF.

3.1 Utilisation de Visual Studio

Le logiciel Visual Studio propose l'option NuGet Package Manager pour installer le paquet directement dans la solution. La capture d'écran ci-dessous montre comment ouvrir le gestionnaire de paquets NuGet.

C# Extraction de texte à partir d'un PDF(Exemple de code Tutoriel), Figure 4 : Fichier program.cs de Visual Studio

Fichier programme.cs de Visual Studio

Il fournit un champ de recherche pour afficher la liste des paquets du site web de NuGet. Dans le gestionnaire de paquets, nous devons rechercher le mot-clé "IronPDF", comme dans la capture d'écran ci-dessous.

C# Extraction de texte à partir d'un PDF(Exemple de code Tutoriel), Figure 5 : NuGet Package Manager

NuGet Package Manager

Dans l'image ci-dessus, nous pouvons voir la liste des éléments de recherche liés. Nous devons sélectionner l'option requise pour installer le paquet dans la solution.

3.2 Utilisation de la ligne de commande de Visual Studio

Dans Visual Studio, cliquez sur Outils > NuGet Package Manager > Console du gestionnaire de paquets

Saisissez la ligne suivante dans l'onglet de la console du gestionnaire de paquets :

Install-Package IronPdf

Le paquet sera alors téléchargé/installé dans le projet en cours et prêt à être utilisé.

C# Extraction de texte à partir d'un PDF(Exemple de code Tutoriel), Figure 6 : La bibliothèque IronPDF dans le gestionnaire de paquets NuGet

La bibliothèque IronPDF dans le gestionnaire de paquets NuGet

3.3 Téléchargement direct depuis le site NuGet

La troisième méthode consiste à télécharger lePaquet NuGet IronPDF directement à partir de leur site web.

  • Accédez au package IronPDF sur NuGet.
  • Sélectionnez l'option de téléchargement dans le menu de droite.
  • Double-cliquez sur le paquet téléchargé. Il sera installé automatiquement.
  • Ensuite, rechargez la solution et commencez à l'utiliser dans le projet.

3.4 Téléchargement direct à partir du site web d'IronPDF

Visiterle site officiel d'IronPDF pour télécharger le dernier paquet directement depuis leur site web. Une fois téléchargé, suivez les étapes ci-dessous pour ajouter le paquet au projet.

  • Cliquez avec le bouton droit de la souris sur le projet dans la fenêtre de la solution.
  • Ensuite, sélectionnez les options de référence et recherchez l'emplacement de la référence téléchargée.
  • Cliquez ensuite sur OK pour ajouter la référence.

4. Extraire du texte à l'aide d'IronPDF

Le programme IronPDF nous permet d'effectuer l'extraction de texte du fichier PDF et de convertir les pages PDF en objets PDF. Voici un exemple d'utilisation d'IronPDF pour lire un PDF existant.

La première approche consiste à extraire le texte d'un PDF et l'exemple de code est présenté ci-dessous.

using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Imports IronPdf

Private pdfDocument = PdfDocument.FromFile("result.pdf")
Private AllText As String = pdfDocument.ExtractAllText()
VB   C#

LesFromFile la méthode statique est utilisée pour charger le document PDF à partir d'un fichier existant et le transformer enPDFDocument comme le montre le code ci-dessus. Cet objet permet de lire le texte et les images accessibles sur les pages du PDF. L'objet possède une méthode appeléeExtraireToutTexte qui extrait tout le texte de l'ensemble du document PDF, puis conserve le texte extrait dans une chaîne de caractères que nous pouvons utiliser pour le traiter.

Voici l'exemple de code pour la deuxième méthode que nous pouvons utiliser pour extraire le texte d'un fichier PDF, page par page.

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
	For index = 0 To pdf.PageCount - 1
		Dim Text As String = pdf.ExtractTextFromPage(index)
	Next index
End Using
VB   C#

Dans le code ci-dessus, nous voyons qu'il va d'abord charger l'ensemble du document PDF et le convertir en un objet PDF. Ensuite, nous obtenons le nombre de pages de l'ensemble du document PDF à l'aide d'une méthode intégrée appeléePageCountle nombre total de pages disponibles dans le document PDF chargé est alors affiché. L'utilisation de la "boucle pour" et de laExtraitTexteDePage permet de passer le numéro de page en paramètre pour extraire le texte du document chargé. Le texte exact sera alors enregistré dans la variable "string". De même, il extraira le texte du PDF page par page à l'aide de la boucle "for" ou "for each".

5. Conclusion

IronPDF est l'une des bibliothèques PDF les plus utilisées. Il ne dépend d'aucune autre bibliothèque tierce. Il est indépendant et ne nécessite pas l'installation d'Adobe Reader sur votre machine. Il fonctionne sur plusieurs plateformes. Le prix de lancement d'IronPDF est de $749. Il existe une option permettant de payer une redevance d'un an pour l'assistance et les mises à jour du produit, et IronPDF fournit également une couverture de redistribution libre de droits moyennant un coût supplémentaire. Pour plus de détails, veuillez consulter le sitePage de tarification d'IronPDF.

< PRÉCÉDENT
Comment générer des PDF en ASP.NET à l'aide de C#
SUIVANT >
Comment extraire des données d'un PDF en C#