UTILISATION D'IRONPDF

Comment lire un PDF ligne par ligne en C#

Publié avril 29, 2024
Partager:

Vous pensez peut-être que les PDF sont des documents statiques, mais ils deviennent de plus en plus dynamiques. Grâce aux PDF, vous pouvez créer un document à la fois interactif et partageable. Vous pouvez comprendre la structure du PDF en lisant le "Portable Document Format Reference" dans l'Acrobat SDK sur le site web d'Adobe. Les deux raisons les plus courantes de créer des PDF par programme sont les suivantes :

  1. Pour les bulletins d'information et autres publications numériques qui nécessitent des graphiques et une mise en forme qui ne peuvent pas être réalisés avec des PDF prêts à imprimer.

  2. Pour créer de l'interactivité dans les ebooks ou les magazines numériques.

    La lecture programmatique des fichiers PDF est une tâche difficile car l'extraction de texte d'un fichier PDF n'est pas simple. La structure du PDF est complexe, d'autant plus qu'il peut également contenir des images. Quelle est donc la solution pour les développeurs qui ont besoin d'extraire du texte de fichiers PDF ligne par ligne sans utiliser Adobe Acrobat ? La réponse est la bibliothèque IronPDF C# PDF. Ce tutoriel explique comment lire des fichiers PDF par programmation en C# à l'aide de la bibliothèque IronPDF C#.

Comment lire un PDF ligne par ligne en C# ;

Le contenu de cet article est listé comme suit :

  1. IronPDF : Une bibliothèque PDF en C#

  2. Étapes de la lecture des documents PDF

  3. Créer un projet C# dans Visual Studio

  4. Installer la bibliothèque IronPDF avec le gestionnaire de paquets NuGet

  5. Écrire du code pour lire des fichiers PDF

  6. Conclusion : la meilleure bibliothèque pour lire les PDF

IronPDF : Une bibliothèque de C# ; PDF

IronPDF est une bibliothèque PDF .NET qui offre aux développeurs un moyen simple et puissant de générer et de lire des fichiers PDF. Il a été conçu dès le départ pour être compatible avec .NET Core, ASP.NET Core et .NET Standard.

IronPDF fournit aux développeurs de riches API pour créer, manipuler et générer des fichiers PDF. Les développeurs peuvent créer par programme un nouveau fichier PDF ou ouvrir un fichier existant à l'aide de son API intuitive. La bibliothèque prend en charge divers documents, tels que des images, des vidéos, des documents textuels et des graphiques vectoriels générés dans le document PDF.

Voyons comment lire les PDF ligne par ligne à l'aide d'IronPDF.

Créer un projet C# dans Visual Studio

J'utiliserai Visual Studio 2022 pour créer le projet C#. N'importe quelle version devrait fonctionner, mais il est recommandé d'utiliser la version la plus récente pour une meilleure expérience. IronPDF fonctionne bien avec la dernière version du Framework de Microsoft, .NET 6. Si vous avez besoin d'une assistance et d'une stabilité étendues, il est conseillé d'utiliser ce Framework.

Ensuite, suivez les étapes suivantes pour créer un projet C# dans Microsoft Visual Studio :

  1. Ouvrez Visual Studio 2022.

  2. Cliquez sur le bouton "Créer un nouveau projet" en bas de page.

  3. Sélectionnez le modèle "Application console" pour ce tutoriel. Vous pouvez utiliser n'importe quel modèle en fonction de vos besoins.

  4. Donner un nom propre au projet.

  5. Sélectionnez le Framework .NET 6 parce qu'il est le plus récent et qu'il bénéficie d'une prise en charge étendue.

  6. Cliquez sur le bouton "Créer".

    En suivant les étapes ci-dessus, vous pourrez facilement créer un projet C# dans Visual Studio. Il est maintenant temps d'installer la bibliothèque IronPDF. Vous pouvez utiliser un projet existant pour l'utiliser avec la bibliothèque IronPDF. Vous devez ouvrir une affectation et installer la bibliothèque. Dans la section suivante, nous apprendrons à installer la bibliothèque IronPDF.

Installation de la bibliothèque IronPDF

IronPDF prend en charge l'installation d'une bibliothèque IronPDF de plusieurs façons. IronPDF est une bibliothèque qui vous permet de l'utiliser dans divers scénarios. Vous pouvez installer le programme avec NuGet Package et l'utiliser ensuite via la console du gestionnaire de paquets. Il suffit d'exécuter la commande suivante pour que la bibliothèque IronPDF soit installée dans votre projet :

Install-Package IronPDF

Vous pouvez également obtenir la bibliothèque IronPDF C# en téléchargeant et en extrayant un fichier ZIP dans n'importe quel dossier de votre disque dur - elle ne nécessite aucune installation. Tout d'abord, ouvrez le projet Visual Studio dans lequel vous souhaitez installer IronPDF. Une fois dans l'IDE, cliquer sur Project References dans l'explorateur de solutions et cliquer sur Add Reference. Recherchez et sélectionnez le fichier zip "IronPDF" que nous avons téléchargé précédemment. Cliquez sur le bouton "OK", et IronPDF sera ajouté comme référence dans le projet.

Maintenant, notre projet est prêt pour IronPDF. Commençons à écrire du code pour lire les documents PDF ligne par ligne.

Écrire du code pour lire un fichier PDF

Je vais maintenant vous montrer comment lire un fichier PDF avec seulement deux lignes de code. Les fonctions d'IronPDF sont excellentes et très efficaces. Voyons un exemple de code :

using IronPdf;
using System.Drawing;
//Select the Desired PDF File
using PdfDocument PDF = PdfDocument.FromFile("test.pdf");
//Using ExtractAllText() method, extract every single text from an pdf
string line = PDF.ExtractAllText();
//Get all Images
IEnumerable<Image> AllImages = PDF.ExtractAllImages();
//View text in an Label or textbox
Console.WriteLine(line);
using IronPdf;
using System.Drawing;
//Select the Desired PDF File
using PdfDocument PDF = PdfDocument.FromFile("test.pdf");
//Using ExtractAllText() method, extract every single text from an pdf
string line = PDF.ExtractAllText();
//Get all Images
IEnumerable<Image> AllImages = PDF.ExtractAllImages();
//View text in an Label or textbox
Console.WriteLine(line);
Imports IronPdf
Imports System.Drawing
'Select the Desired PDF File
Private PdfDocument As using
'Using ExtractAllText() method, extract every single text from an pdf
Private line As String = PDF.ExtractAllText()
'Get all Images
Private AllImages As IEnumerable(Of Image) = PDF.ExtractAllImages()
'View text in an Label or textbox
Console.WriteLine(line)
VB   C#

Le code ci-dessus nous aide à lire le fichier PDF. Dans le paramètre "FromFile", nous indiquons le chemin du fichier PDF d'entrée. Ensuite, la fonction ExtractAllText extrait le texte de toutes les pages du PDF de test. Nous pouvons enregistrer le texte dans un fichier texte ou l'afficher dans la console. Vous pouvez consulter d'autres tutoriels sur le sitePage d'exemples d'extraction de texte IronPDF. Nous pouvons écrire la fonction suivante sous la forme d'une fonction à utiliser n'importe où dans le programme, comme ceci :

private void Extract()
{
    // Select the Desired PDF File
    using PdfDocument PDF = PdfDocument.FromFile("any.pdf");
    //Using ExtractAllText() method, extract every single text from an pdf
    string line = PDF.ExtractAllText();
    //View text in the console
    Console.WriteLine(line);
}
private void Extract()
{
    // Select the Desired PDF File
    using PdfDocument PDF = PdfDocument.FromFile("any.pdf");
    //Using ExtractAllText() method, extract every single text from an pdf
    string line = PDF.ExtractAllText();
    //View text in the console
    Console.WriteLine(line);
}
Private Sub Extract()
	' Select the Desired PDF File
	Using PDF As PdfDocument = PdfDocument.FromFile("any.pdf")
		'Using ExtractAllText() method, extract every single text from an pdf
		Dim line As String = PDF.ExtractAllText()
		'View text in the console
		Console.WriteLine(line)
	End Using
End Sub
VB   C#

Examinons le résultat généré par IronPDF.

Texte de sortie

Comment lire un PDF ligne par ligne en C# : Figure 1

IronPDF extrait le texte parfaitement, sans erreur. Les résultats sont de premier ordre.

Conclusion : La meilleure bibliothèque pour la lecture des PDF

De nombreux développeurs utilisent différentes bibliothèques de lecture de PDF dans leurs logiciels ou autres programmes. De nombreuses bibliothèques sont disponibles pour manipuler et lire les fichiers PDF. Cependant, IronPDF est la meilleure bibliothèque pour toutes les opérations qui impliquent des PDF.

De nombreux secteurs et domaines utilisent des programmes de génération de PDF pour générer et imprimer des documents PDF. De nombreuses bibliothèques sur le marché, telles que la bibliothèque PDF Sharp et de nombreuses autres bibliothèques .NET, vous permettent de créer rapidement des PDF avec votre contenu. Mais la meilleure bibliothèque pour la génération programmatique de PDF est IronPDF. IronPDF offre de nombreuses fonctionnalités, notamment le cryptage, la protection par mot de passe et la conversion des formats MS Office en PDF. Avec IronPDF, vous pouvez facilement créer des documents PDF à l'aide de ces puissants outils.

IronPDF est une bibliothèque gratuite, mais son utilisation commerciale est payante. Une période d'essai de 30 jours est disponible pour le tester en production. IronPDF est disponible à un prix très abordable, et vous pouvez également acheter actuellement un ensemble complet de 5 logiciels différents pour le coût de seulement deux. Vous trouverez toutes les informations sur le plan tarifaire sur la pagePage de licences IronPDF.

< PRÉCÉDENT
Comment utiliser C# pour convertir un PDF en bitmap ?
SUIVANT >
Comment créer une application de reporting en C#