Comment extraire le texte intégré et les images depuis des PDFs en utilisant C#

How to Extract Embedded Text and Images from PDFs

This article was translated from English: Does it need improvement?
Translated
View the article in English
role="alert">Votre entreprise dépense trop en abonnements annuels pour la sécurité et la conformité des PDF. Envisagez IronSecureDoc, qui fournit des solutions pour gérer des services SaaS tels que la signature numérique, la rédaction, le cryptage et la protection, le tout pour un paiement unique. Explorez la documentation d'IronSecureDoc

L'extraction de texte et d'images intégrés implique la récupération de contenu textuel et d'éléments graphiques dans le document. Ce processus permet aux utilisateurs d'accéder et de réutiliser le contenu pour l'édition, la recherche ou la conversion du texte dans d'autres formats et de sauvegarder les images pour réutilisation ou analyse.

Pour extraire du texte et des images d'un PDF, utilisez IronPdf. L'image extraite peut être sauvegardée sur le disque ou convertie dans un autre format d'image et intégrée dans le nouveau document rendu.

Démarrage rapide : extraire du texte et des images avec IronPDF

Extrayez facilement du texte et des images des PDF en utilisant IronPDF en seulement quelques lignes de code. Ce guide de démarrage rapide équipe les développeurs des outils nécessaires pour récupérer le contenu intégré des documents PDF, facilitant la réutilisation et l'analyse du contenu. Que vous extrayiez du texte pour l'édition ou que vous sauvegardiez des images pour une utilisation ultérieure, IronPDF garantit une solution rationalisée et économique. Commencez à utiliser la bibliothèque IronPdf dès aujourd'hui et découvrez une gestion transparente du contenu des PDF.

Nuget IconGet started making PDFs with NuGet now:

  1. Install IronPDF with NuGet Package Manager

    PM > Install-Package IronPdf

  2. Copy and run this code snippet.

    var pdf = new IronPdf.PdfDocument("sample.pdf");
    string text = pdf.ExtractAllText();
    var images = pdf.ExtractAllImages();
  3. Deploy to test on your live environment

    Start using IronPDF in your project today with a free trial
    arrow pointer
class="hsg-featured-snippet">

Flux de travail minimal (5 étapes)

  1. Téléchargez la bibliothèque IronPdf C#
  2. Préparez le document PDF pour l'extraction de texte et d'images
  3. Utilisez la méthode ExtractAllText pour extraire le texte
  4. Utilisez la méthode ExtractAllImages pour extraire les images
  5. Spécifiez les pages particulières à partir desquelles extraire le texte et les images


Exemple d'extraction de texte

L'extraction de texte peut être effectuée sur les documents PDF nouvellement rendus et existants. Utilisez la méthode ExtractAllText pour extraire le texte intégré du document. La méthode renverra une chaîne contenant tout le texte du PDF donné. Les pages sont séparées par quatre caractères de nouvelle ligne consécutifs. Utilisons un PDF d'exemple que j'ai rendu à partir du site Wikipedia.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text.cs
using IronPdf;
using System.IO;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text
string text = pdf.ExtractAllText();

// Export the extracted text to a text file
File.WriteAllText("extractedText.txt", text);
Imports IronPdf
Imports System.IO

Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract text
Private text As String = pdf.ExtractAllText()

' Export the extracted text to a text file
File.WriteAllText("extractedText.txt", text)
$vbLabelText   $csharpLabel
class="content-img-align-center">
class="center-image-wrapper"> Texte extrait

Extraire le texte par ligne et caractère

Dans chaque page PDF, il est possible de récupérer les coordonnées des lignes de texte et des caractères. Tout d'abord, sélectionnez une page du PDF et accédez aux propriétés Lignes et Caractères. Les coordonnées sont disposées comme les valeurs Top, Right, Bottom et Left, représentant la position du texte.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-by-line-character.cs
using IronPdf;
using System.IO;
using System.Linq;

// Open PDF from file
PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text by lines
var lines = pdf.Pages[0].Lines;

// Extract text by characters
var characters = pdf.Pages[0].Characters;

File.WriteAllLines("lines.txt", lines.Select(l => $"at Y={l.BoundingBox.Bottom:F2}: {l.Contents}"));
Imports IronPdf
Imports System.IO
Imports System.Linq

' Open PDF from file
Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract text by lines
Private lines = pdf.Pages(0).Lines

' Extract text by characters
Private characters = pdf.Pages(0).Characters

File.WriteAllLines("lines.txt", lines.Select(Function(l) $"at Y={l.BoundingBox.Bottom:F2}: {l.Contents}"))
$vbLabelText   $csharpLabel
class="content-img-align-center">
class="center-image-wrapper"> Texte extrait par ligne et caractère

Exemple d'extraction d'images

Utilisez la méthode ExtractAllImages pour extraire toutes les images intégrées dans le document. La méthode renverra les images sous forme de liste d'objets AnyBitmap. En utilisant le même document de notre exemple précédent, nous avons extrait les images et les avons exportées dans le dossier 'images'.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-image.cs
using IronPdf;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract images
var images = pdf.ExtractAllImages();

for(int i = 0; i < images.Count; i++)
{
    // Export the extracted images
    images[i].SaveAs($"images/image{i}.png");
}
Imports IronPdf

Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract images
Private images = pdf.ExtractAllImages()

For i As Integer = 0 To images.Count - 1
	' Export the extracted images
	images(i).SaveAs($"images/image{i}.png")
Next i
$vbLabelText   $csharpLabel
class="content-img-align-center">
class="center-image-wrapper"> Images extraites

En plus de la méthode ExtractAllImages montrée ci-dessus, l'utilisateur peut utiliser les méthodes ExtractAllBitmaps et ExtractAllRawImages pour extraire des informations d'image du document. Tandis que la méthode ExtractAllBitmaps renverra une liste de AnyBitmap, comme l'exemple de code, la méthode ExtractAllRawImages extrait toutes les images d'un document PDF et les renvoie sous forme brute sous forme de tableaux d'octets (byte[]).


Extrait de texte et d'images sur des pages spécifiques

L'extraction de texte et d'images peut être effectuée sur une ou plusieurs pages spécifiées. Utilisez les méthodes ExtractTextFromPage et ExtractTextFromPages pour extraire du texte d'une seule page ou de plusieurs pages, respectivement. Pour extraire des images, utilisez les méthodes ExtractImagesFromPage et ExtractImagesFromPages.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-single-multiple.cs
using IronPdf;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text from page 1
string textFromPage1 = pdf.ExtractTextFromPage(0);

int[] pages = new[] { 0, 2 };

// Extract text from pages 1 & 3
string textFromPage1_3 = pdf.ExtractTextFromPages(pages);
Imports IronPdf

Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract text from page 1
Private textFromPage1 As String = pdf.ExtractTextFromPage(0)

Private pages() As Integer = { 0, 2 }

' Extract text from pages 1 & 3
Private textFromPage1_3 As String = pdf.ExtractTextFromPages(pages)
$vbLabelText   $csharpLabel

Questions Fréquemment Posées

Comment puis-je extraire du texte intégré d'un PDF en .NET C# ?

Vous pouvez utiliser la méthode ExtractAllText de la bibliothèque IronPdf pour extraire du texte intégré d'un PDF. Cette méthode retourne une chaîne contenant le texte séparé par quatre caractères de nouvelle ligne consécutifs pour chaque page.

Quelles étapes sont nécessaires pour extraire des images d'un PDF en utilisant C# ?

Pour extraire des images d'un PDF en C#, téléchargez d'abord la bibliothèque IronPdf via NuGet. Utilisez ensuite la méthode ExtractAllImages, qui retournera une liste d'objets AnyBitmap représentant les images.

Puis-je extraire du texte de pages spécifiques d'un document PDF ?

Oui, vous pouvez utiliser les méthodes ExtractTextFromPage et ExtractTextFromPages dans IronPdf pour extraire du texte de pages spécifiques ou de plusieurs pages d'un document PDF.

Quel est le but d'extraire du texte par coordonnées de ligne et de caractère ?

L'extraction de texte par coordonnées de ligne et de caractère vous permet de récupérer la position exacte du texte dans une page PDF. Cela peut être fait en utilisant les propriétés **Lines** et **Characters** dans IronPdf, qui fournissent des valeurs pour le haut, la droite, le bas et la gauche.

Comment puis-je extraire des images au format brut d'un PDF ?

Pour extraire des images au format brut, utilisez la méthode ExtractAllRawImages dans IronPdf. Cette méthode retourne les images sous forme de tableaux de bytes, vous permettant d'accéder aux données d'image d'origine.

Quels sont les avantages d'utiliser IronPdf pour extraire du texte et des images ?

Utiliser IronPdf pour extraire du texte et des images de PDFs est rentable car il offre une solution de paiement unique. Il aide à réutiliser le contenu pour l'édition, la recherche, la conversion en d'autres formats et la réutilisation des images pour l'analyse.

Comment puis-je commencer à utiliser IronPdf pour l'extraction du contenu PDF ?

Pour commencer à utiliser IronPdf, téléchargez la bibliothèque IronPdf C# depuis NuGet et suivez le guide pour préparer votre document PDF et utiliser des méthodes telles que ExtractAllText et ExtractAllImages pour l'extraction du contenu.

Est-il possible d'extraire à la fois le texte et les images d'une seule page PDF ?

Oui, IronPdf vous permet d'extraire à la fois le texte et les images d'une seule page PDF en utilisant les méthodes ExtractTextFromPage et ExtractImagesFromPage.

Quelles méthodes sont disponibles pour extraire des images de plusieurs pages ?

Vous pouvez utiliser la méthode ExtractImagesFromPages dans IronPdf pour extraire des images de plusieurs pages d'un document PDF.

IronPdf est-il compatible avec .NET 10 pour l'extraction de texte et d'images ?

Oui, IronPdf est compatible avec .NET 10, ainsi qu'avec les versions modernes antérieures telles que .NET 9, 8, 7, 6, Core, Standard et Framework. Vous pouvez utiliser les mêmes méthodes, comme ExtractAllText , ExtractAllImages , ExtractTextFromPage et ExtractImagesFromPages dans un projet .NET 10 sans avoir besoin de solutions de contournement ni d'ajustements de compatibilité.

Chaknith Bin
Ingénieur logiciel
Chaknith travaille sur IronXL et IronBarcode. Il a une expertise approfondie en C# et .NET, aidant à améliorer le logiciel et à soutenir les clients. Ses idées issues des interactions avec les utilisateurs contribuent à de meilleurs produits, documentation et expérience globale.
Prêt à commencer?
Nuget Téléchargements 16,154,058 | Version : 2025.11 vient de sortir