Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
Ce tutoriel présente comment extraire par programme des textes et des images à partir de fichiers PDF avec le support de première classe d'IronPDF.
FromFile
méthode parse un fichier PDF en VB.NETExtractAllText
méthodeExtraire le texte des pages
méthode d'extraction de texte à partir de certaines pagesExtraire les images brutes de la page
méthodeConversion PDF efficace. Presque tout ce qu'une machine peut faire, IronPDF le peut aussi. Grâce à cette bibliothèque PDF, les développeurs peuvent rapidement créer, lire du contenu textuel, écrire, charger et manipuler des PDF.
IronPDF convertit le HTML en un document PDF à l'aide du moteur Chrome. Ainsi que Windows Forms, HTML, ASPX, Razor HTML, .NET Core, ASP.NET, Windows Forms et WPF. IronPDF prend également en charge les applications Xamarin, Blazor, Unity et HoloLense. IronPDF prend en charge les applications Microsoft .NET et .NET Core(Les paquets Web ASP.NET et les paquets Windows conventionnels). IronPDF peut être utilisé pour créer des PDF esthétiques.
IronPDF peut créer un PDF en utilisant HTML5, JavaScript, CSS et des images. IronPDF dispose également d'un puissant convertisseur HTML-PDF qui s'intègre au PDF. IronPDF dispose d'un solide mécanisme de conversion PDF utilisant le moteur de rendu Chromium. Il n'est pas non plus connecté à des sources extérieures.
Vous pouvez créer un fichier PDF à partir d'un fichier CSS.
Pour plus d'informations, consultez le site suivantPage d'information sur les licences IronPDF pour une clé limitée gratuite et une version professionnelle.
IronPDF- Formatage des polices
IronPDF peut également lire et extraire du texte des fichiers PDF à l'aide des bibliothèques IronPDF. Vous trouverez ci-dessous un modèle de code IronPDF qui peut être utilisé pour examiner les fichiers PDF présents.
L'exemple de code ci-dessous démontre la première méthode pour acquérir tout le contenu du PDF en tant que chaîne de caractères en quelques lignes seulement.
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractAllText()
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractAllText()
Console.WriteLine(AllText)
End Sub
End Module
L'exemple de code ci-dessus montre comment utiliser la méthode FromFile
pour lire un PDF à partir d'un fichier existant et le convertir en un objet document PDF. L'objet fournit une méthode appeléeExtraireToutTexte
qui extrait le texte brut du PDF et le transforme en chaîne de caractères.
L'exemple de code ci-dessous montre comment extraire des données d'un fichier PDF en utilisant le numéro de page.
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPage(0)
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPage(0)
Console.WriteLine(AllText)
End Sub
End Module
Le code ci-dessus montre comment lire un PDF à partir d'un fichier existant et le transformer en un objet document PDF à l'aide de la fonctionFromFile
fonction. Cet objet permet d'accéder aux textes et aux images sur le PDF. L'objet propose une méthode appeléeExtraitTexteDePage
qui permet d'envoyer un numéro de page comme paramètre pour obtenir une chaîne de caractères contenant tous les mots qui se trouvaient sur la page du PDF.
Le code ci-dessous montre comment extraire les données entre plusieurs pages.
Imports IronPdf
Module Program
Sub Main(args As String())
Dim Pages As List(Of Integer) = New List(Of Integer)
Pages.Add(3)
Pages.Add(5)
Pages.Add(7)
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPages(Pages)
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim Pages As List(Of Integer) = New List(Of Integer)
Pages.Add(3)
Pages.Add(5)
Pages.Add(7)
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPages(Pages)
Console.WriteLine(AllText)
End Sub
End Module
Le code ci-dessus montre comment utiliser la méthode FromFile
pour lire un PDF à partir d'un fichier existant et le convertir en un objet document PDF. Cet objet permet d'examiner le texte et les images en PDF. L'objet possède une méthode appeléeExtractTextFromPages
(Extraire le texte des pages) qui peut être utilisé pour obtenir une chaîne de caractères comprenant tout le contenu textuel d'une page donnée du document en passant une liste de numéros de page en tant que paramètre. Ci-dessous, le côté gauche est le PDF source et le côté droit les données extraites.
Extraire le texte entre les pages
IronPDF fournit une liste de méthodes d'extraction d'images telles que :
ExtractBitmapsFromPage
(Extraire des cartes de bits à partir d'une page)(Extraire des cartes de bits à partir d'une page)ExtractBitmapsFromPages
(Extraire des cartes de bits à partir de pages)(Extraire des cartes de bits à partir de pages)ExtractImagesFromPage
(Extraire les images de la page)(Extraire les images de la page)ExtractImagesFromPages
(Extraire les images des pages)(Extraire les images des pages)ExtractRawImagesFromPage
(Extraire les images brutes de la page)(Extraire les images brutes de la page)Chaque méthode permet d'extraire des images d'une page ou de plusieurs pages du document.
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each As Byte() In images
Dim ms As New IO.MemoryStream(CType(, Byte()))
Dim image = New Bitmap(ms)
image.Save("output//test.jpg")
Next
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each As Byte() In images
Dim ms As New IO.MemoryStream(CType(, Byte()))
Dim image = New Bitmap(ms)
image.Save("output//test.jpg")
Next
Le code ci-dessus montre comment lire un document à partir d'un fichier existant et le transformer en un objet document PDF à l'aide de la fonction FromFile
. En passant une liste de numéros de page à la méthode ExtractRawImagesFromPage
de l'objet, il est possible d'obtenir une liste d'octets contenant toutes les images présentes sur une page donnée du document. Utilisation d'une boucle foreach
pour traiter chaque octet et le transformer en un flux de mémoire. Il est ensuite transformé en bitmap, ce qui facilite la sauvegarde de l'image. L'image ci-dessous montre le résultat du code ci-dessus.
Extraire des images de la sortie PDF
Pour en savoir plus sur le tutoriel de code de l'API IronPDF, reportez-vous à la sectionDocumentation IronPDF. Vous pouvez également consulter d'autres tutoriels pour apprendre àanalyser le texte d'un PDF à l'aide de C#.
La licence de développement de la bibliothèque IronPDF est gratuite. Si IronPDF est utilisé dans un environnement de production, différentes licences peuvent être achetées en fonction des besoins du développeur. Le plan Lite commence à $749 et n'a pas de coûts permanents. Des alternatives de redistribution SaaS et OEM sont également proposées. Toutes les licences comprennent des mises à jour, un an d'assistance produit et une licence permanente. Ils sont également utiles pour la fabrication, la mise en place et le développement. Il s'agit d'un achat unique. D'autres licences gratuites et limitées dans le temps sont disponibles. Visitez le siteinformations complètes sur les licences IronPDF pour connaître tous les détails concernant les prix et les licences d'IronPDF. IronPDF fournit également des licences gratuites pour la protection contre la copie.
9 produits de l'API .NET pour vos documents de bureau