Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
L'extraction de données à partir de PDF est essentielle pour gagner du temps lors de la saisie manuelle. Cet article explique comment les développeurs peuvent utiliser la bibliothèque IronPDF pourextraire du texte et des images à partir de documents PDF.
IronPDF est une bibliothèque .NET qui peut être utilisée pour créer, modifier et convertir des fichiers PDF. Il fournit aux développeurs une API facile à utiliser dans leurs applications. Il s'agit de l'une des bibliothèques les plus populaires pour la création, l'édition et la conversion de fichiers PDF dans le monde entier. Avec IronPDF, vous pouvez créer une solution simple et rapide pour les PDF. Votre texte sera personnalisé pour chaque document,la mise en page sera conçu pour faciliter la lecture, et vos graphiques seront conçus avec l'aide du programme .NET qui l'accompagne.
La bibliothèque IronPDF dispose d'une fonction fantastique pour l'extraction de données à partir de fichiers PDF. Cet article explique comment extraire des données à l'aide d'IronPDF. Tout d'abord, un projet C# doit être créé ou ouvert. Passons à la section suivante.
Ce tutoriel recommande d'utiliser la dernière version de Visual Studio.
Une fois Visual Studio ouvert, suivez les étapes ci-dessous pour créer un nouveau projet C#. Si vous souhaitez utiliser un projet existant, ignorez les étapes suivantes et passez directement à la section suivante.
Cliquez sur le bouton "Créer un nouveau projet".
Visual Studio opening UI
Sélectionnez l'"Application de console C#" dans les modèles.
Créer un nouveau projet
Sélectionnez un .NET Framework en fonction des exigences de votre projet et cliquez sur le bouton Créer.
Sélection du Framework .NET
Visual Studio va maintenant générer un nouveau projet C# .NET.
La bibliothèque IronPDF peut être installée de plusieurs façons.
Install-Package IronPdf
Progression de l'installation dans l'onglet Console du gestionnaire de paquets
Après l'installation, vous verrez la dépendance IronPDF dans la section dépendances
de l'explorateur de solutions, comme indiqué ci-dessous.
Référence au paquet IronPDF dans l'explorateur de solutions
Une autre façon d'installer la bibliothèque IronPDF consiste à utiliser l'interface utilisateur intégrée NuGet Package Manager de Visual Studio.
Allez dans la section Outils du menu principal. Cliquez sur "NuGet Package Manager" dans le menu déroulant et sélectionnez "NuGet Package Manager Solution".
Naviguer vers le gestionnaire de paquets NuGet
IronPDF
dans la recherche, et appuyez sur Entrée.Sélectionnez IronPDF dans les résultats de la recherche et cliquez sur le bouton "Installer" pour commencer l'installation.
Installer le paquetage IronPDF à partir du gestionnaire de paquets NuGet
Examinons le code suivant pour savoir comment extraire des données à l'aide d'IronPDF :
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing
' Extracting Image and Text content from Pdf Documents
' open a 128 bit encrypted PDF
Private PdfDocument As using
'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()
'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()
'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
Dim PageNumber As Integer = index + 1
Dim Text As String = pdf.ExtractTextFromPage(index)
Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
'''...
Next index
Premièrement, leFromFile
est utilisée pour charger le document PDF d'entrée dans le programme. Un fichier PDF crypté est fourni, nécessitant un mot de passe pour y accéder. Les données textuelles sont ensuite extraites à l'aide de la fonctionExtraireToutTexte
pour rassembler toutes les données textuelles dans une variable de type "String". A partir de là, PdfDocument
offre de nombreuses fonctionnalités :l'éditer sous forme de texte brutil est possible de l'enregistrer dans un fichier TXT, de le stocker dans une base de données, etc.
IronPDF peutextraire du texte à partir de tableaux PDF en vue de son inclusion dans un ou plusieursFichiers CSV.
La ligne 11 utilise la fonctionExtractAllImages
(Extraire toutes les images) pour extraire toutes les images incorporées dans le document PDF.
IronPDF peut également extraire le contenu de pages PDF spécifiques. Les lignes de code restantes de l'exemple ci-dessus montrent comment utiliser la fonctionExtraitTexteDePage
etExtractImagesFromPage
(Extraire les images de la page) pour récupérer le texte et les images d'un sous-ensemble de pages. Les deux méthodes acceptent un argument entier qui représente l'index à base zéro de la page souhaitée.
IronPDF permet aux développeurs d'extraire du texte et des images de fichiers PDF en une seule ligne de code, en utilisant ExtractAllText
et ExtractAllImages
pour extraire instantanément tout le contenu d'un fichier PDF. Il est également possible d'appeler ExtractAllImage
ou ExtractAllText
pour récupérer le texte et les images d'une seule page PDF en particulier. L'exemple de code précédent montrait comment utiliser les deux méthodes pour lire du texte et des images à partir d'une série de pages.
En outre, IronPDF est également capable degraphiques de rendu en PDF,ajout de codes-barres, renforcer la sécurité avec des mots de passe etfiligraneet mêmetraitement des formulaires PDF de manière programmatique.
IronPDF est entièrement libre de développement. L'utilisation commerciale est payante, mais vous pouvez accéder à la base de donnéesessai gratuit d'IronPDF pour la production sans aucun paiement.
Acheter lela suite complète des bibliothèques de documents d'Iron Software pour le prix de deuxLicences IronPDF Lite.
TéléchargerIronPDF maintenant pour commencer à extraire des données des PDF dès aujourd'hui!
9 produits de l'API .NET pour vos documents de bureau