using IronPdf;
// Disable local disk access or cross-origin requests
Installation.EnableWebSecurity = true;
// Instantiate Renderer
var renderer = new ChromePdfRenderer();
// Create a PDF from a HTML string using C#
var pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>");
// Export to a file or Stream
pdf.SaveAs("output.pdf");
// Advanced Example with HTML Assets
// Load external html assets: Images, CSS and JavaScript.
// An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
var myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", @"C:\site\assets\");
myAdvancedPdf.SaveAs("html-with-assets.pdf");
C# Extraire le texte d'un PDF (Tutoriel d'exemple de code)
Kye Stuart
juin 27, 2022
Mise à jour décembre 3, 2023
Partager:
Votre entreprise dépense trop pour des abonnements annuels pour la sécurité et la conformité des PDF. Envisagez IronSecureDoc par Iron Software, qui propose des solutions pour gérer les services SaaS tels que la signature numérique, la rédaction, le cryptage et la protection, le tout moyennant un paiement unique. Découvrez IronSecureDoc aujourd'hui
Les fichiers PDF (Portable Document Format) jouent un rôle essentiel dans d'innombrables industries, permettant aux entreprises de partager, stocker et gérer des documents en toute sécurité. Pour les développeurs, travailler avec des PDFs implique souvent de créer, lire, convertir et extraire du contenu pour répondre aux besoins des clients. L'extraction de texte à partir de PDF est essentielle pour des tâches telles que l'analyse de données, l'indexation de documents, la migration de contenu ou l'activation des fonctionnalités d'accessibilité. Les bibliothèques modernes comme IronPDF simplifient ces tâches plus que jamais, en offrant des outils puissants pour manipuler les fichiers PDF avec un minimum d'effort.
Ce guide se concentre sur l'une des exigences les plus courantes : extraire du texte d'un PDF en C#. Nous vous guiderons pour configurer un projet dans Visual Studio, installer IronPDF et l'utiliser pour effectuer l'extraction de texte avec des exemples de code concis. En cours de route, nous mettrons en lumière les fonctionnalités robustes d'IronPDF, y compris sa capacité à créer, manipuler et convertir des fichiers PDF en utilisant .NET. Que vous développiez des applications nécessitant une gestion intensive des documents ou que vous ayez simplement besoin d'une manipulation efficace des PDF, ce tutoriel vous aidera à démarrer.
Visualisez votre sortie texte à partir d'un document PDF
1. Caractéristiques d'IronPDF
IronPDF est un convertisseur PDF robuste qui peut effectuer presque toutes les opérations qu'un navigateur peut effectuer. La création, la lecture et la manipulation de documents PDF sont simples grâce à la bibliothèque .NET pour les développeurs. IronPDF convertit des documents HTML en documents PDF en utilisant le moteur Chrome. IronPDF prend en charge HTML, ASPX, Razor HTML et MVC View, entre autres composants web. L'application Microsoft .NET est prise en charge par IronPDF (à la fois les applications Web ASP.NET et les applications Windows traditionnelles). IronPDF peut également être utilisé pour créer un document PDF visuellement attrayant.
Nous pouvons créer un document PDF à partir de HTML5, de JavaScript, de CSS et d'images avec IronPDF. En outre, les fichiers peuvent comporter des en-têtes et des pieds de page. Grâce à IronPDF, nous pouvons facilement lire un document PDF. IronPDF dispose également d'un moteur de conversion PDF complet et d'un puissant convertisseur HTML-PDF capable de traiter les documents PDF.
Création de PDF : Générer des PDF à partir de HTML, JavaScript, CSS, images ou URL. Ajoutez des en-têtes, pieds de page, signets, filigranes et autres éléments personnalisés pour améliorer le design.
Conversion HTML en PDF : Convertir des fichiers HTML, Razor/MVC Views et CSS de type média directement en format PDF.
Fonctionnalités PDF interactives : Créez, remplissez et soumettez des formulaires PDF interactifs.
Extraction de texte et d'image : Extraire du texte ou des images à partir de documents PDF existants pour le traitement des données ou la réutilisation.
Manipulation de documents :Fusionner, diviser et réorganiser les pages dans les fichiers PDF nouveaux ou existants.
Gestion des images et des pages : Rasterisez les pages PDF en images et convertissez les images au format PDF.
Travailler avec des identifiants de connexion personnalisés : IronPDF est capable de créer un document à partir d'une URL. Il prend également en charge les identifiants de connexion réseau personnalisés, les agents utilisateurs, les proxys, les cookies, les en-têtes HTTP et les variables de formulaire pour la connexion derrière les formulaires de connexion HTML.
Recherche et Accessibilité : Recherchez du texte dans des documents PDF et assurez-vous qu'ils répondent aux normes d'accessibilité.
Polyvalence de Conversion : Transformez des PDFs en d'autres formats tels que HTML et travaillez avec des fichiers CSS pour générer des PDFs.
Fonctionnalité autonome : Fonctionne indépendamment sans nécessiter Adobe Acrobat ou des outils tiers supplémentaires.
2. Création d'un nouveau projet dans Visual Studio
Ouvrez le logiciel Visual Studio et allez dans le menu Fichier. Sélectionnez "Nouveau projet", puis "Application console". Dans cet article, nous allons utiliser une application console pour générer des documents PDF.
Créer un nouveau projet dans Visual Studio
Saisissez le nom du projet et sélectionnez le chemin d'accès au fichier dans la zone de texte appropriée. Ensuite, cliquez sur le bouton Créer et sélectionnez le .NET Framework requis, comme dans la capture d'écran ci-dessous.
Configurer un nouveau projet dans Visual Studio
Le projet Visual Studio générera maintenant la structure pour l'application sélectionnée, et si vous avez sélectionné l'application Console, Windows ou Web, il ouvrira le fichier program.cs où vous pouvez entrer le code et construire/exécuter l'application.
Sélection de .NET Core
Ensuite, nous pouvons ajouter la bibliothèque pour tester le code.
3. Installer la bibliothèque IronPDF
La bibliothèque IronPDF peut être téléchargée et installée de quatre façons.
Il s'agit de
Utilisation de Visual Studio.
Utilisation de la ligne de commande de Visual Studio.
Téléchargement direct depuis le site NuGet.
Téléchargement direct depuis le site web d'IronPDF.
3.1 Utilisation de Visual Studio
Le logiciel Visual Studio propose l'option NuGet Package Manager pour installer le paquet directement dans la solution. La capture d'écran ci-dessous montre comment ouvrir le gestionnaire de paquets NuGet.
Fichier program.cs de Visual Studio
Il fournit un champ de recherche pour afficher la liste des paquets du site web de NuGet. Dans le gestionnaire de paquets, nous devons rechercher le mot-clé "IronPDF", comme dans la capture d'écran ci-dessous.
Gestionnaire de paquets NuGet
Dans l'image ci-dessus, nous pouvons voir la liste des éléments de recherche liés. Nous devons sélectionner l'option requise pour installer le paquet dans la solution.
3.2 Utilisation de la ligne de commande de Visual Studio
Dans Visual Studio, cliquez sur Outils > NuGet Package Manager > Console du gestionnaire de paquets
Saisissez la ligne suivante dans l'onglet de la console du gestionnaire de paquets :
Install-Package IronPdf
Le paquet sera alors téléchargé/installé dans le projet en cours et prêt à être utilisé.
bibliothèque IronPdf dans le gestionnaire de packages NuGet
3.3 Téléchargement direct depuis le site NuGet
Installer avec NuGet
PM > Install-Package IronPdf
Découvrez IronPDF sur NuGet pour une installation rapide. Avec plus de 10 millions de téléchargements, il transforme le développement de PDF avec C#. Vous pouvez également télécharger le DLL ou l'installateur Windows.
La troisième méthode consiste à télécharger directement le package NuGet d'IronPDF depuis leur site web.
Accédez au package IronPDF sur NuGet.
Sélectionnez l'option de téléchargement dans le menu de droite.
Double-cliquez sur le paquet téléchargé. Il sera installé automatiquement.
Ensuite, rechargez la solution et commencez à l'utiliser dans le projet.
3.4 Téléchargement direct à partir du site web d'IronPDF
Envisagez d'installer directement la DLL IronPDF. Téléchargez-la et installez-la manuellement pour votre projet ou GAC depuis /fr/packages/IronPdf.zip. Vous pouvez également l'installer via NuGet.
Visitez le site officiel d'IronPDF pour télécharger le dernier package directement depuis leur site web. Une fois téléchargé, suivez les étapes ci-dessous pour ajouter le package au projet.
Cliquez avec le bouton droit de la souris sur le projet dans la fenêtre de la solution.
Ensuite, sélectionnez les options de référence et recherchez l'emplacement de la référence téléchargée.
Cliquez ensuite sur OK pour ajouter la référence.
4. Extraire du texte à l'aide d'IronPDF
Le programme IronPDF nous permet d'effectuer l'extraction de texte du fichier PDF et de convertir les pages PDF en objets PDF. Voici un exemple d'utilisation d'IronPDF pour lire un PDF existant.
La première approche consiste à extraire le texte d'un PDF et l'exemple de code est présenté ci-dessous.
using IronPdf;
var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
using IronPdf;
var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
La méthode statique FromFile est utilisée pour charger le document PDF à partir d'un fichier existant et le transformer en objets PDFDocument, comme illustré dans le code ci-dessus. Cet objet permet de lire le texte et les images accessibles sur les pages du PDF. L'objet possède une méthode appelée ExtractAllText qui extrait tout le texte de l'intégralité du document PDF, puis stocke le texte extrait dans la chaîne que nous pouvons utiliser pour le traitement.
Voici l'exemple de code pour la deuxième méthode que nous pouvons utiliser pour extraire le texte d'un fichier PDF, page par page.
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
For index = 0 To pdf.PageCount - 1
Dim Text As String = pdf.ExtractTextFromPage(index)
Next index
End Using
$vbLabelText $csharpLabel
Dans le code ci-dessus, nous voyons qu'il va d'abord charger l'ensemble du document PDF et le convertir en un objet PDF. Ensuite, nous obtenons le nombre de pages de l'ensemble du document PDF en utilisant une méthode intégrée appelée PageCount, et cela récupérera le nombre total de pages disponibles dans le document PDF chargé. L'utilisation de la boucle "for" et de la fonction ExtractTextFromPage nous permet de passer le numéro de page en tant que paramètre pour extraire le texte du document chargé. Le texte exact sera alors enregistré dans la variable "string". De même, il extraira le texte du PDF page par page à l'aide de la boucle "for" ou "for each".
5. Conclusion
IronPDF est une bibliothèque PDF polyvalente et puissante conçue pour rendre le travail avec les PDF dans les applications .NET fluide. Ses fonctionnalités robustes permettent aux développeurs de créer, manipuler et extraire du contenu des PDFs sans dépendre de tiers comme Adobe Reader. L'une des capacités remarquables d'IronPDF est sa capacité à extraire du texte des documents PDF. Cette fonctionnalité est inestimable pour automatiser des tâches telles que l'analyse des données, l'indexation des documents, la migration de contenu et l'activation des fonctionnalités d'accessibilité. En permettant aux développeurs de récupérer et de traiter du texte par programmation, IronPDF simplifie les flux de travail et ouvre de nouvelles possibilités pour la gestion du contenu PDF.
Avec une intégration simple et un support multiplateforme, IronPDF est un excellent choix pour les développeurs cherchant à gérer efficacement les documents PDF. De plus, IronPDF offre une version d'essai gratuite, vous permettant d'explorer toute sa gamme de fonctionnalités sans risque avant de vous engager. Pour connaître les détails des prix et en savoir plus sur les options de licence, visitez notre page de tarification.
Kye Stuart allie passion pour le codage et compétences en écriture chez Iron Software. Formé au Yoobee College en déploiement logiciel, il transforme désormais des concepts techniques complexes en contenu éducatif clair. Kye valorise l'apprentissage tout au long de la vie et accueille les nouveaux défis technologiques.
En dehors du travail, il apprécie les jeux PC, le streaming sur Twitch, et les activités de plein air comme le jardinage et les promenades avec son chien, Jaiya. L'approche directe de Kye en fait un élément clé de la mission d'Iron Software pour démystifier la technologie pour les développeurs du monde entier.
< PRÉCÉDENT Comment générer des PDF en ASP.NET à l'aide de C#
SUIVANT > Comment extraire des données d'un PDF en C#
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucun engagement de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre démo en direct gratuite
Fiable par plus de 2 millions d'ingénieurs dans le monde entier