using IronPdf; // Disable local disk access or cross-origin requests Installation.EnableWebSecurity = true; // Instantiate Renderer var renderer = new ChromePdfRenderer(); // Create a PDF from a HTML string using C# var pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>"); // Export to a file or Stream pdf.SaveAs("output.pdf"); // Advanced Example with HTML Assets // Load external html assets: Images, CSS and JavaScript. // An optional BasePath 'C:\site\assets\' is set as the file location to load assets from var myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", @"C:\site\assets\"); myAdvancedPdf.SaveAs("html-with-assets.pdf");

UTILISATION D'IRONPDF

Comment extraire des données d'un PDF en C#

Name: IronPDF
Brand: Iron Software
Availability: InStock
Rating: 4.87 (307 reviews)

Chaknith Bin

juin 26, 2022

Mise à jour janvier 21, 2024

Introduction

Votre entreprise dépense trop pour des abonnements annuels pour la sécurité et la conformité des PDF. Envisagez IronSecureDoc, qui propose des solutions pour gérer les services SaaS tels que la signature numérique, la rédaction, le cryptage et la protection, le tout moyennant un paiement unique. En savoir plus sur IronSecureDoc

L'extraction de données à partir de PDF est essentielle pour gagner du temps lors de la saisie manuelle. Cet article explique comment les développeurs peuvent utiliser la bibliothèque IronPDF pour extraire du texte et des images des documents PDF.

Comment extraire des données d'un PDF en C#

Télécharger la bibliothèque C# pour extraire des données de PDF
Créer un nouveau projet dans Visual Studio
Installer la bibliothèque dans votre projet
Extraire les données de pages spécifiques et extraire des données spécifiques d'un PDF
Visualiser les données issues d'un document PDF

IronPDF : C&num ; Bibliothèque PDF

IronPDF est une bibliothèque .NET qui peut être utilisée pour créer, modifier et convertir des fichiers PDF. Il fournit aux développeurs une API facile à utiliser dans leurs applications. Il s'agit de l'une des bibliothèques les plus populaires pour la création, l'édition et la conversion de fichiers PDF dans le monde entier. Avec IronPDF, vous pouvez créer une solution simple et rapide pour les PDF. Votre texte sera personnalisé pour chaque document, votre mise en page sera configurée pour une lecture facile, et vos graphiques seront conçus avec l'aide du programme .NET accompagnant.

La bibliothèque IronPDF dispose d'une fonction fantastique pour l'extraction de données à partir de fichiers PDF. Cet article explique comment extraire des données à l'aide d'IronPDF. Tout d'abord, un projet C# doit être créé ou ouvert. Passons à la section suivante.

Créer ou ouvrir un projet C# dans Visual Studio

Ce tutoriel recommande d'utiliser la dernière version de Visual Studio.

Une fois Visual Studio ouvert, suivez les étapes ci-dessous pour créer un nouveau projet C#. Si vous souhaitez utiliser un projet existant, ignorez les étapes suivantes et passez directement à la section suivante.

Ouvrir Visual Studio
Cliquez sur le bouton "Créer un nouveau projet".

Interface utilisateur d'ouverture de Visual Studio
Sélectionnez l'"Application de console C#" dans les modèles.

Créer un nouveau projet
Donnez un nom au projet et cliquez sur le bouton Suivant.
Sélectionnez un .NET Framework selon les besoins de votre projet et cliquez sur le bouton Créer.

Sélection du .NET Framework

Visual Studio va maintenant générer un nouveau projet C# .NET.

Installer la bibliothèque IronPDF

La bibliothèque IronPDF peut être installée de plusieurs façons.

Utilisation de la console du gestionnaire de paquets

Ouvrez la Console du Gestionnaire de Packages en allant dans Outils > Gestionnaire de Packages NuGet > Console du Gestionnaire de Packages.
Exécutez la commande suivante :

Install-Package IronPdf

Comment extraire des données des PDFs en C#, Figure 4 : Progression de l'installation dans l'onglet Console du gestionnaire de packages

Progression de l'installation dans l'onglet Console du gestionnaire de packages

Après l'installation, vous verrez la dépendance IronPDF dans la section dependencies de l'Explorateur de solution, comme illustré ci-dessous.

Comment extraire des données des PDFs en C#, Figure 5 : Référencer le package IronPdf dans l'Explorateur de solutions

Référencer le package IronPdf dans l'Explorateur de solutions

Utilisation du gestionnaire de paquets NuGet

Une autre façon d'installer la bibliothèque IronPDF consiste à utiliser l'interface utilisateur intégrée NuGet Package Manager de Visual Studio.

Allez dans la section Outils du menu principal. Cliquez sur "NuGet Package Manager" dans le menu déroulant et sélectionnez "NuGet Package Manager Solution".

Accédez au gestionnaire de packages NuGet
La fenêtre du gestionnaire de paquets NuGet s'ouvre alors. Allez à l'onglet Parcourir, écrivez IronPdf dans la recherche, et appuyez sur Entrée.
Sélectionnez IronPDF dans les résultats de la recherche et cliquez sur le bouton "Installer" pour commencer l'installation.

Installer le package IronPdf depuis le gestionnaire de packages NuGet

Extraire des données de fichiers PDF

Examinons le code suivant pour savoir comment extraire des données à l'aide d'IronPDF :

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}

'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing

'  Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private PdfDocument As using

'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()

'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()

'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim PageNumber As Integer = index + 1
	Dim Text As String = pdf.ExtractTextFromPage(index)
	Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
	'''...
Next index

Tout d'abord, la méthode FromFile est utilisée pour charger le document PDF d'entrée dans le programme. Un fichier PDF chiffré est fourni, nécessitant un mot de passe pour accéder au fichier. Ensuite, les données texte sont extraites en utilisant la méthode ExtractAllText pour transférer toutes les données texte dans une variable de type String. À partir d'ici, PdfDocument offre de nombreuses fonctionnalités : le sortir en texte brut, le déposer dans un fichier TXT, le stocker dans une base de données, etc.

IronPDF peut extraire du texte des tableaux PDF pour l'inclure dans un ou plusieurs fichiers CSV.

La ligne 11 utilise la méthode ExtractAllImages pour extraire toutes les images intégrées du document PDF.

IronPDF peut également extraire le contenu de pages PDF spécifiques. Les lignes de code restantes dans l'exemple ci-dessus montrent comment utiliser les méthodes ExtractTextFromPage et ExtractImagesFromPage pour récupérer le texte et les images d'un sous-ensemble de pages. Les deux méthodes acceptent un argument entier qui représente l'index à base zéro de la page souhaitée.

Conclusion

IronPDF permet aux développeurs d'extraire du texte et des images de fichiers PDF en aussi peu qu'une seule ligne de code, en utilisant ExtractAllText et ExtractAllImages pour extraire instantanément tout le contenu d'un fichier PDF. Alternativement, appeler ExtractAllImage ou ExtractAllText récupérera le texte et les images d'une seule page PDF en particulier. L'exemple de code précédent montrait comment utiliser les deux méthodes pour lire du texte et des images à partir d'une série de pages.

De plus, IronPDF est également capable de rendre des graphiques dans des PDF, ajouter des codes-barres, améliorer la sécurité avec des mots de passe et ajouter des filigranes, et même de gérer des formulaires PDF par programmation.

IronPDF est entièrement libre de développement. Bien qu'un paiement soit nécessaire pour une utilisation commerciale, vous pouvez accéder à la version d'essai gratuite de IronPDF pour la production sans aucun paiement.

Achetez la suite complète des bibliothèques de documents d'Iron Software pour le prix de deux IronPDF Lite Licenses.

Téléchargez IronPDF maintenant pour commencer à extraire des données des PDFs dès aujourd'hui !

Chaknith Bin

Discutez avec l'équipe d'ingénierie maintenant

Ingénieur logiciel

Chaknith travaille sur IronXL et IronBarcode. Il possède une expertise approfondie en C# et .NET, aidant à améliorer le logiciel et à soutenir les clients. Ses idées issues des interactions avec les utilisateurs contribuent à de meilleurs produits, une documentation améliorée et une expérience globale enrichie.

< PRÉCÉDENT
C# Extraire le texte d'un PDF (Tutoriel d'exemple de code)

SUIVANT >
Comment ajouter des numéros de page dans un PDF à l'aide de C#