Passer au contenu du pied de page
UTILISATION DE IRONPDF
C# Extraire Texte De PDF

C# Convertir PDF en Texte (Exemple de Code)

Cet article décrit le processus pour les développeurs .NET de convertir des fichiers PDF en format TXT pour un accès plus efficace.

class="hsg-featured-snippet">

Comment convertir un PDF en fichier texte en utilisant C#

  1. Télécharger la bibliothèque de conversion PDF en texte C#
  2. Créer un nouveau projet dans Visual Studio
  3. Installer la bibliothèque dans votre projet
  4. Ouvrir le document PDF en utilisant la fonction PdfDocument.FromFile
  5. Voir le texte extrait de la sortie

Sujets couverts dans le tutoriel

  • IronPDF
  • Étapes pour créer des fichiers PDF par programmation
  • Étape 1 : Créer un projet C#
  • Étape 2 : Installer la bibliothèque IronPDF
    • Méthode 1 : Gestionnaire de paquets NuGet
    • Méthode 2 : Console du gestionnaire de paquets NuGet
    • Méthode 3 : Utilisation du fichier DLL
  • Étape 3 : Ajouter l'espace de noms IronPDF
  • Étape 4 : Convertir un PDF en texte
    • Sortie
  • Conclusion

IronPDF

IronPDF est une bibliothèque .NET pour la génération de PDF. C'est une bibliothèque native .NET et ne dépend pas de DLL externes ou d'autres outils. IronPDF est une bibliothèque multiplateforme écrite en C# et .NET qui offre toutes les fonctionnalités nécessaires pour travailler avec des documents PDF. Elle contient le rendu de documents, l'édition de formulaires, l'extraction de texte, le cryptage de fichiers ainsi que d'autres fonctionnalités. Toutes ces opérations peuvent être effectuées via une API intuitive qui a été largement testée sur diverses plateformes telles que Windows Forms, WPF, ASP.NET MVC, etc.

La version actuelle de IronPDF offre un accès simple à ces fonctionnalités :

Accès en lecture seule aux éléments internes du document (vue, navigation, annotations) :

Accès aux métadonnées et propriétés du document (titre, mots-clés, auteur, sujet) :

IronPDF contient également des classes d'assistance supplémentaires qui aident à convertir des documents HTML en fichiers PDF entièrement formatés avec extraction de texte. IronPDF offre des API très simples pour convertir un PDF en fichier texte.

Commençons par voir comment utiliser la bibliothèque IronPDF pour convertir un document PDF en fichier texte.

Étapes pour convertir un document PDF en fichier texte

La première étape est de créer un projet C# dans Visual Studio. Vous pouvez choisir n'importe quel modèle d'application C# selon vos besoins. Pour des raisons de simplicité, ce tutoriel utilisera le modèle d'application console. Vous pouvez utiliser un projet C# déjà existant pour convertir des fichiers PDF en TXT.

Étape 1 : Créer un projet C

Créer un projet C# dans Visual Studio ou ouvrir un projet existant. La dernière version de Visual Studio est recommandée pour un fonctionnement fluide. Suivez les étapes données pour créer un projet C# dans Visual Studio.

  1. Ouvrez Visual Studio.
  2. Sélectionner le modèle d'application console C# ou ouvrir un projet existant.
  3. Donner un nom approprié au projet.
  4. Sélectionner la version .NET Framework 6.0. C'est le dernier et le plus stable des frameworks .NET, mais vous pouvez choisir un autre framework .NET selon vos besoins.

Étape 2 : Installer la bibliothèque IronPDF

IronPDF propose également un processus d'installation facile qui accélère le temps de développement et réduit la confusion. La bibliothèque IronPDF offre plusieurs façons d'installer :

  • En utilisant le gestionnaire de paquets NuGet
  • En utilisant le gestionnaire de paquets NuGet Console
  • Par fichier DLL

Méthode 1 : Gestionnaire de paquets NuGet

Pour utiliser le gestionnaire de paquets NuGet, suivez les étapes données pour ouvrir l'onglet du gestionnaire de paquets.

Ouvrez le projet C# et cliquez sur Outils > Gestionnaire de paquets NuGet > Gérer les paquets NuGet pour la solution.

C# Convertir PDF en Texte (Exemple de code), Figure 0 : Naviguer vers le gestionnaire de paquets NuGet Naviguer vers le gestionnaire de paquets NuGet

  • Maintenant, allez dans l'onglet de recherche et recherchez IronPDF.
  • Sélectionnez IronPDF dans les résultats de recherche et cliquez sur Installer. Cela installera la bibliothèque IronPDF permettant d'utiliser le projet avec la bibliothèque IronPDF.

C# Convertir PDF en Texte (Exemple de code), Figure 1 : Package IronPdf à partir du résultat de recherche du gestionnaire de paquets NuGet Package IronPdf à partir du résultat de recherche du gestionnaire de paquets NuGet

Méthode 2 : Console du gestionnaire de paquets NuGet

L'installation de la bibliothèque IronPDF avec la console du gestionnaire de paquets est le moyen le plus simple. Suivez ces étapes simples :

  • Ouvrez la console du gestionnaire de paquets.
  • Écrivez la ligne suivante dans la console et appuyez sur Entrée. Cela installera immédiatement la bibliothèque IronPDF.
Install-Package IronPdf

C# Convertir PDF en Texte (Exemple de code), Figure 2 : Le progrès de l'installation affiché dans l'interface utilisateur de la console du gestionnaire de paquets NuGet Le progrès de l'installation affiché dans l'interface utilisateur de la console du gestionnaire de paquets NuGet

Méthode 3 : Utilisation d'un fichier DLL

Vous pouvez télécharger le fichier DLL IronPDF depuis le site web d'Iron Software. Une fois le téléchargement terminé, utilisez-le comme référence dans votre projet.

Visitez le guide d'installation d'IronPDF pour un guide d'installation plus détaillé.

L'installation de la bibliothèque IronPDF est maintenant terminée. Les étapes suivantes vous guideront pour convertir un fichier PDF en fichier texte.

Étape 3 : Ajouter l'espace de noms IronPDF

Pour utiliser IronPDF, il est nécessaire d'ajouter l'espace de noms IronPDF à chaque fichier de code. Écrivez la ligne de code suivante en haut de chaque fichier de code concerné. Cela vous permettra d'utiliser les fonctionnalités d'IronPDF dans votre programme.

using IronPdf;
using IronPdf;
Imports IronPdf
$vbLabelText   $csharpLabel

Étape 4 : Convertir le document PDF en fichier texte

Nous devons maintenant convertir le fichier PDF en fichier TXT ou extraire seulement le texte. Écrivez donc le code d'exemple suivant dans votre fichier de code :

using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
Imports IronPdf
Imports System

Friend Class Program
	Shared Sub Main()
		' Extracting image and text content from PDF Document

		' Open a 128-bit encrypted PDF
		Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
	
			' Get all text to put in a search index
			Dim allText As String = pdf.ExtractAllText()
	
			' Display the extracted text in the console
			Console.WriteLine(allText)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

First, open the PDF document using the FromFile function from the PdfDocument class. Dans les paramètres, passez le nom du fichier et le mot de passe (le cas échéant). Ensuite, utilisez la fonction ExtractAllText pour extraire tout le texte du fichier PDF et stockez-le dans une variable nommée allText. Après cela, affichez le texte de sortie dans la console.

Sortie

C# Convertir PDF en Texte (Exemple de code), Figure 3 : Le texte extrait du document PDF Le texte extrait du document PDF

Voici le texte de sortie extrait par IronPDF. C'est le même texte que celui vu sur le fichier PDF, montrant que la précision d'IronPDF est très précise.

Conclusion

Cet article montre comment extraire facilement du texte des fichiers PDF en utilisant la bibliothèque PDF .NET IronPDF. Cela a été accompli en n'écrivant que quelques lignes de code avec un pourcentage élevé de précision. De plus, IronPDF possède également de nombreuses fonctionnalités utiles telles que la conversion de HTML en PDF, des outils de mise en forme PDF, et bien d'autres fonctionnalités PDF de base qui sont essentielles pour l'édition de PDF. IronPDF élimine également la dépendance à Adobe Acrobat.

IronPDF est gratuit pour le développement et offre également une version d'essai gratuite pour les tests en production. IronPDF propose une variété de plans tarifaires que vous pouvez obtenir selon vos besoins. Le prix d'IronPDF est relativement significativement inférieur à celui de ses concurrents. Avec une variation de prix allant des particuliers aux grandes entreprises, il s'avère être un achat convaincant avec des performances impressionnantes.

C# Convertir PDF en Texte (Exemple de code), Figure 4 : Les plans tarifaires pour la suite d'Iron Software Les plans tarifaires pour la suite d'Iron Software

En outre, Iron Software propose une suite de cinq packages Iron Software pour le prix de seulement deux. Veuillez visiter les détails des licences d'Iron Software pour plus d'informations.

Questions Fréquemment Posées

Comment puis-je convertir un document PDF en texte dans une application C#?

Vous pouvez utiliser IronPDF pour convertir un document PDF en texte dans une application C# en utilisant la méthode PdfDocument.FromFile pour charger le PDF, puis en appelant la méthode ExtractAllText pour récupérer le contenu du texte.

Quel est le processus pour configurer IronPDF dans un projet C# Visual Studio?

Pour configurer IronPDF dans un projet C# Visual Studio, vous devez créer un nouveau projet, installer IronPDF via le NuGet Package Manager, la Console du gestionnaire de packages, ou en ajoutant le DLL manuellement, puis inclure l'espace de noms IronPDF dans vos fichiers de code.

IronPDF peut-il gérer les fichiers PDF cryptés?

Oui, IronPDF peut ouvrir et traiter les fichiers PDF cryptés, vous permettant d'en extraire le contenu textuel.

Quels sont les avantages de convertir un PDF en format TXT?

Convertir un PDF en format TXT avec IronPDF permet une meilleure accessibilité et une manipulation plus facile des données textuelles, ce qui est bénéfique pour les applications nécessitant le traitement ou la recherche de texte.

Comment IronPDF garantit-il l'exactitude de l'extraction de texte à partir de fichiers PDF?

IronPDF garantit une grande précision dans l'extraction de texte en maintenant l'intégrité du texte tel qu'il apparaît dans le PDF, fournissant une sortie fiable pour un traitement ultérieur.

Une version d'essai gratuite est-elle disponible pour tester la bibliothèque IronPDF?

Oui, IronPDF propose une version d'essai gratuite à des fins de développement et de test, vous permettant d'évaluer ses fonctionnalités et ses capacités avant d'acheter.

Qu'est-ce qui rend IronPDF un choix approprié pour le développement multiplateforme?

IronPDF est écrit en C# et .NET, ce qui en fait un choix approprié pour le développement multiplateforme sans besoin d'outils externes supplémentaires.

IronPDF peut-il être utilisé à des fins autres que l'extraction de texte?

Oui, IronPDF offre une variété de fonctionnalités au-delà de l'extraction de texte, y compris la génération de PDF, le cryptage de documents, la gestion de formulaires, et la conversion de HTML en PDF.

Dans quelle mesure IronPDF prend-il en charge .NET 10 pour la conversion de PDF en texte ?

IronPDF est entièrement compatible avec .NET 10 et le prend en charge nativement, sans aucune configuration particulière. En utilisant IronPDF sous .NET 10 pour convertir des PDF en texte, vous bénéficiez de performances accrues, notamment une réduction de l'allocation de mémoire et des améliorations au niveau de l'exécution, ce qui se traduit par une extraction plus rapide et une consommation de mémoire optimisée.

Quelles plateformes et quels types de projets sont pris en charge lors de l'utilisation d'IronPDF avec .NET 10 ?

IronPDF pour .NET 10 est compatible avec de nombreuses plateformes, notamment Windows (10+, Server), macOS, Linux et les environnements conteneurisés. Il fonctionne avec des types de projets tels que Console, Desktop (WPF, MAUI) et Web (MVC, Blazor), et prend en charge des langages comme C#, F# et VB.NET.

Curtis Chau
Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Lire la suite