Passer au contenu du pied de page
UTILISATION DE IRONPDF
Comment extraire du texte des PDFs en utilisant IronPDF

Comment extraire des données d'un PDF en C#

role="alert">Votre entreprise dépense trop en abonnements annuels pour la sécurité et la conformité des PDF. Envisagez IronSecureDoc, qui fournit des solutions pour gérer les services SaaS comme la signature numérique, la rédaction, le chiffrement et la protection, le tout pour un paiement unique. En savoir plus sur IronSecureDoc

Extraire des données des PDF est crucial pour gagner du temps sur la saisie manuelle. Cet article explique comment les développeurs peuvent utiliser la bibliothèque IronPDF pour extraire du texte et des images des documents PDF.

class="hsg-featured-snippet">

Comment Extraire des Données d'un PDF en C#

  1. Télécharger Extraire des Données de PDF bibliothèque C#
  2. Créer un Nouveau Projet dans Visual Studio
  3. Installer la Bibliothèque dans votre Projet
  4. Extraire les données de pages spécifiques et extraire des spécifiques du PDF
  5. Voir la Sortie des Données du Document PDF

IronPDF : Bibliothèque PDF C

IronPDF est une bibliothèque .NET qui peut être utilisée pour créer, éditer et convertir des fichiers PDF. Elle offre une API facile à utiliser pour les développeurs à utiliser dans leurs applications. C'est l'une des bibliothèques les plus populaires pour créer, éditer et convertir des fichiers PDF à l'échelle mondiale. Avec IronPDF, vous pouvez créer une solution simple et rapide pour les PDF. Your text will be customized for each document, votre mise en page sera configurée pour une lecture facile, et vos graphiques seront conçus avec l'aide du programme .NET accompagnant.

La bibliothèque IronPDF a une fonctionnalité fantastique pour extraire des données des fichiers PDF. Cet article examinera comment extraire des données à l'aide de IronPDF. Tout d'abord, un Projet C# doit être créé ou ouvert. Passons à la section suivante.

Créer ou Ouvrir un Projet C# dans Visual Studio

Ce tutoriel recommande d'utiliser la dernière version de Visual Studio.

Une fois Visual Studio ouvert, suivez les étapes ci-dessous pour créer un nouveau Projet C#. Si vous avez un projet existant que vous souhaitez utiliser, alors passez ces prochaines étapes et passez directement à la section suivante.

  • Ouvrir Visual Studio
  • Cliquez sur le bouton "Créer un nouveau projet".

Comment Extraire des Données des PDF en C#, Figure 1 : Interface d'ouverture de Visual Studio Interface d'ouverture de Visual Studio

  • Sélectionnez l'"Application Console C#" parmi les modèles.

Comment Extraire des Données des PDF en C#, Figure 2 : Créer un nouveau projet Créer un nouveau projet

  • Donnez un nom au Projet et cliquez sur le bouton Suivant.
  • Sélectionnez un Framework .NET selon les besoins de votre projet et cliquez sur le bouton Créer.

Comment Extraire des Données des PDF en C#, Figure 3 : Sélection de framework .NET Sélection du framework .NET

Visual Studio va maintenant générer un nouveau projet C# .NET.

Installer la Bibliothèque IronPDF

La bibliothèque IronPDF peut être installée de plusieurs manières.

Utilisation de la console du gestionnaire de packages

  • Ouvrez la Console du Gestionnaire de Paquets en allant dans Outils > Gestionnaire de Paquets NuGet > Console du Gestionnaire de Paquets.
  • Exécutez la commande suivante pour installer la bibliothèque IronPDF :
Install-Package IronPdf

Comment Extraire des Données des PDF en C#, Figure 4 : Progression de l'installation dans l'onglet Console du Gestionnaire de Paquets Progression de l'installation dans l'onglet Console du Gestionnaire de Paquets

Après l'installation, vous verrez la dépendance IronPDF dans la section dépendances de l'Explorateur de Solution, comme montré ci-dessous.

Comment Extraire des Données des PDF en C#, Figure 5 : Référence du package IronPdf dans l'Explorateur de Solution Référence du package IronPdf dans l'Explorateur de Solution

Utilisation du Gestionnaire de Paquets NuGet

Une autre manière d'installer la bibliothèque IronPDF est d'utiliser l'interface utilisateur intégrée du Gestionnaire de Paquets NuGet dans Visual Studio.

  • Allez dans les Outils du menu principal. Passez la souris sur "Gestionnaire de Paquets NuGet" dans le menu déroulant et sélectionnez "Gérer les Packages NuGet pour la Solution...".

Comment Extraire des Données des PDF en C#, Figure 6 : Naviguer vers le Gestionnaire de Paquets NuGet Accéder au gestionnaire de package NuGet

  • Cela ouvrira la fenêtre du gestionnaire de packages NuGet. Allez dans l'onglet Parcourir, écrivez IronPdf dans la recherche, et appuyez sur Entrée.
  • Sélectionnez IronPDF parmi les résultats de recherche et cliquez sur le bouton "Installer" pour commencer l'installation.

Comment Extraire des Données des PDF en C#, Figure 7 : Installer le package IronPdf depuis le Gestionnaire de Paquets NuGet Installer le package IronPdf depuis le gestionnaire de packages NuGet

Extraire les Données des Fichiers PDF

Voyons le code suivant pour extraire des données à l'aide d'IronPDF :

// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
' Import necessary namespaces
Imports IronPdf
Imports System.Collections.Generic
Imports System.Drawing

Public Class PDFExtractor
	Public Sub ExtractDataFromPDF()
		' Open a 128-bit encrypted PDF file by providing the filename and password
		Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
	
			' Extract all text from the PDF document
			Dim allText As String = pdf.ExtractAllText()
	
			' Extract all images from the PDF document
			Dim allImages As IEnumerable(Of Image) = pdf.ExtractAllImages()
	
			' Iterate over each page in the PDF document
			For index = 0 To pdf.PageCount - 1
				Dim pageNumber As Integer = index + 1
	
				' Extract text from the specific page
				Dim text As String = pdf.ExtractTextFromPage(index)
	
				' Extract images from the specific page
				Dim images As IEnumerable(Of Image) = pdf.ExtractImagesFromPage(index)
	
				' Code to process the extracted text and images
				'...
			Next index
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

Dans cet exemple de code :

  1. La méthode FromFile est utilisée pour charger le document PDF d'entrée, qui est chiffré et nécessite un mot de passe.
  2. La méthode ExtractAllText extrait tout le contenu textuel du PDF.
  3. La méthode ExtractAllImages récupère toutes les images intégrées.
  4. Une boucle parcourt chaque page du document pour extraire le texte et les images de cette page spécifique en utilisant ExtractTextFromPage et ExtractImagesFromPage.

Conclusion

IronPDF permet aux développeurs d'extraire facilement du texte et des images des fichiers PDF. En utilisant ExtractAllText et ExtractAllImages, le contenu entier d'un fichier PDF peut être extrait instantanément. Alternativement, ces méthodes peuvent être utilisées pour extraire le contenu d'une page spécifique. Le code précédent a démontré comment utiliser les deux méthodes pour lire texte et images sur un ensemble de pages.

Additionally, IronPDF offers features like rendering charts, adding barcodes, enhancing security with passwords, watermarking, and handling PDF forms programmatically.

IronPDF est disponible gratuitement pendant le développement, avec paiement requis pour un usage commercial. Une version d'essai gratuite de IronPDF est disponible pour une utilisation en production sans paiement.

Purchase the full suite of Iron Software's document libraries for the cost of two IronPDF Lite Licenses.

Téléchargez IronPDF maintenant pour commencer à extraire des données des PDF aujourd'hui !

Questions Fréquemment Posées

Comment puis-je extraire du texte d'un PDF en C# ?

Vous pouvez utiliser la méthode ExtractAllText d'IronPDF pour extraire tout le texte d'un document PDF. Cette méthode simplifie le processus en permettant un accès facile au contenu textuel du PDF.

Quel est le processus pour extraire des images d'un PDF utilisant C# ?

Avec IronPDF, vous pouvez extraire des images d'un PDF en utilisant la méthode ExtractAllImages. Cette méthode récupère efficacement toutes les images intégrées dans le fichier PDF.

Comment installer une bibliothèque de manipulation de PDF dans un projet C# ?

Pour installer IronPDF dans un projet C#, vous pouvez utiliser la Console du gestionnaire de paquets avec la commande Install-Package IronPdf ou naviguer à travers l'interface utilisateur du gestionnaire de paquets NuGet dans Visual Studio pour installer le package.

Est-il possible de gérer des fichiers PDF chiffrés en C# ?

Oui, IronPDF vous permet d'ouvrir et de manipuler des fichiers PDF chiffrés en utilisant la méthode FromFile, où vous pouvez fournir le nom de fichier et le mot de passe pour accéder au contenu.

Puis-je extraire des données à partir de pages spécifiques d'un PDF en C# ?

IronPDF vous permet de parcourir chaque page d'un document PDF et d'utiliser des méthodes comme ExtractTextFromPage et ExtractImagesFromPage pour extraire des données de pages spécifiques.

Quelles sont les fonctionnalités supplémentaires de la bibliothèque PDF pour C# ?

En plus de l'extraction de données, IronPDF offre des fonctionnalités telles que le rendu de graphiques, l'ajout de codes-barres, l'amélioration de la sécurité des documents avec des mots de passe, le filigrane et la gestion des formulaires PDF par programmation.

Comment puis-je convertir HTML en PDF en C# ?

Vous pouvez utiliser la méthode RenderHtmlAsPdf d'IronPDF pour convertir des chaînes HTML en PDF, ce qui est particulièrement utile pour créer des documents PDF à partir de contenu web.

Existe-t-il une version d'essai disponible pour la bibliothèque PDF pour C# ?

IronPDF est gratuit à utiliser pendant le développement, vous permettant de tester ses capacités. Pour l'utilisation en production, une licence commerciale est requise, mais une version d'essai gratuite est également disponible.

Comment puis-je commencer à utiliser la bibliothèque C# pour l'extraction de données de PDF ?

Pour commencer à utiliser IronPDF pour l'extraction de données, téléchargez la bibliothèque, créez ou ouvrez un projet C# dans Visual Studio, installez IronPDF, et suivez les exemples de code pour extraire efficacement du texte et des images de PDFs.

Compatibilité .NET 10 : Puis-je utiliser les fonctionnalités d’extraction de données d’IronPDF avec .NET 10 ?

Oui, IronPDF est entièrement compatible avec .NET 10, y compris ses fonctionnalités d'extraction de données telles que l'extraction de texte et d'images. Vous pouvez utiliser IronPDF dans vos projets .NET 10 sans configuration particulière. Il prend en charge .NET 10, .NET 9, .NET 8 et les versions antérieures, ainsi que .NET Standard et .NET Framework. (ironpdf.com)

Curtis Chau
Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Lire la suite