Lire les fichiers PDF en C#

VB C#

using IronPdf;
using IronSoftware.Drawing;
using System.Collections.Generic;

// Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
var pdf = PdfDocument.FromFile("encrypted.pdf", "password");

// Get all text to put in a search index
string text = pdf.ExtractAllText();

// Get all Images
var allImages = pdf.ExtractAllImages();

// Or even find the precise text and images for each page in the document
for (var index = 0 ; index < pdf.PageCount ; index++)
{
    int pageNumber = index + 1;
    text = pdf.ExtractTextFromPage(index);
    List<AnyBitmap> images = pdf.ExtractBitmapsFromPage(index);
    //...
}

Imports IronPdf
Imports IronSoftware.Drawing
Imports System.Collections.Generic

' Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private pdf = PdfDocument.FromFile("encrypted.pdf", "password")

' Get all text to put in a search index
Private text As String = pdf.ExtractAllText()

' Get all Images
Private allImages = pdf.ExtractAllImages()

' Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim pageNumber As Integer = index + 1
	text = pdf.ExtractTextFromPage(index)
	Dim images As List(Of AnyBitmap) = pdf.ExtractBitmapsFromPage(index)
	'...
Next index

Install-Package IronPdf

Lire les fichiers PDF en C#

La méthode PdfDocument.ExtractAllText de la bibliothèque PDF IronPDF C# est parfaite pour les tâches de lecture de texte PDF standard. Cette méthode gère les écarts d'espacement et de codage dans les documents PDF source sans aucun problème.

PdfDocument.ExtractTextFromPage lit le texte de pages spécifiques d'un PDF. Dans l'exemple ci-dessous, nous le voyons utilisé de manière itérative pour récupérer le contenu textuel d'une plage spécifique de pages.

IronPDF peut également extraire des images brutes à partir de PDFs. Pour cela, utilisez l'une des méthodes de la classe PdfDocument ci-dessous :

ExtractAllImages : renvoie toutes les images intégrées dans un PDF sous forme d'objets IronSoftware.Drawing.AnyBitmap.
ExtractAllRawImages : récupère toutes les images intégrées sous la forme d'une liste d'octets bruts (byte[]).
ExtractImagesFromPage : extrait les images contenues dans une page indexée.
ExtractImagesFromPages : identique à ExtractImagesFromPage, mais à partir d'une plage de pages spécifique ou d'une liste de pages individuelles.
ExtractRawImagesFromPage et ExtractRawImagesFromPages : fonctionnent de la même manière que les deux méthodes précédentes, mais renvoient les images extraites sous forme de tableaux d'octets plutôt que d'objets IronSoftware.Drawing.AnyBitmap.