Lire les fichiers PDF en C#

L'extraction de texte et d'images peut faciliter la migration de données lors de la transition d'un format de document à un autre. Le contenu extrait peut être préservé dans un format plus accessible et éditable, réduisant le risque de perte de données.

Les images et le texte intégrés peuvent être extraits indépendamment du document PDF. Le texte extrait sera sous forme de chaîne normale, tandis que les images extraites seront en format de mémoire tampon d'image et peuvent ensuite être exportées ou traitées davantage.

Utilisez la méthode extractText pour extraire le texte, et la méthode extractRawImages pour extraire les images d'un document PDF.

Voici un exemple corrigé et commenté de la façon dont vous pouvez le faire :

Dans le code C# ci-dessus :

  • Nous utilisons la bibliothèque IronPDF pour charger un document PDF.
  • La méthode ExtractText() est invoquée pour récupérer le texte du PDF. Ce texte est affiché dans la console.
  • La méthode ExtractImages() est utilisée pour extraire les images, qui sont stockées dans des tableaux d'octets. Chaque image est ensuite enregistrée dans le système de fichiers avec un nom de fichier spécifié.

Pour des instructions plus détaillées sur l'utilisation de ces méthodes, visitez la Documentation de IronPDF.

Explorez plus sur la lecture de texte PDF avec IronPDF

Prêt à commencer?
Version : 2025.11 vient de sortir