Lire des fichiers PDF en C#

La méthode PdfDocument.ExtractAllText de la bibliothèque PDF C# IronPDF est parfaite pour les tâches de lecture de texte PDF standard. Cette méthode permet de traiter sans problème les espaces blancs et les divergences de codage dans les documents PDF source.

PdfDocument.ExtractTextFromPage lit le texte des pages spécifiques d'un PDF. Dans l'exemple ci-dessus, il est utilisé de manière itérative pour extraire le contenu textuel d'une série spécifique de pages.

IronPDF peut également extraire des images brutes des PDF. Pour cela, utilisez l'une des méthodes de la classe PdfDocument ci-dessous :

  • ExtractAllImages : renvoie toutes les images incorporées dans un PDF sous forme d'objets IronSoftware.Drawing.AnyBitmap.
  • ExtractAllRawImages : récupère toutes les images intégrées sous forme de liste d'octets bruts (byte []).
  • ExtractImagesFromPage : extrait les images contenues sur une page indexée.
  • ExtractImagesFromPages : identique à ExtractImagesFromPage, mais à partir d'une plage de pages spécifique ou d'une liste de pages individuelles.
  • ExtractRawImagesFromPage et ExtractRawImagesFromPages : fonctionnent de la même manière que les deux méthodes précédentes, mais retournent les images extraites sous forme de tableaux d'octets au lieu d'objets IronSoftware.Drawing.AnyBitmap.