Cet article démontrera comment analyser les PDF à l'aide de Node.js avec la bibliothèque IronPDF, PDF parser Node.js.
Qu'est-ce que Node ?
L'environnement d'exécution JavaScript Node.js, multiplateforme et open-source, permet d'exécuter du code JavaScript en dehors d'un navigateur web. Les programmeurs peuvent créer des applications réseau évolutives, rapides et efficaces en activant l'exécution de modules JavaScript ou JS côté serveur. Comme Node.js est un modèle d'E/S non bloquant, piloté par les événements, il est idéal pour développer des applications en temps réel qui gèrent plusieurs connexions à la fois avec des éléments de formulaire interactifs.
Node.js est fréquemment utilisé pour créer une large gamme d'applications, y compris des serveurs web, des API, des applications de diffusion de structures de données, des applications de chat en temps réel, des dispositifs Internet des objets (IoT), et plus encore. Tout bien considéré, Node.js gagne en popularité en raison de son efficacité, de sa vitesse et de sa compatibilité avec JavaScript à la fois sur le front-end et le back-end, offrant ainsi un langage unique pour le développement full-stack. Consultez ce site d'explication pour les pages de documentation afin d'en savoir plus sur Node.js.
Pour analyser les PDF afin d'en faire un flux lisible, téléchargez le package Node.js.
Installez la bibliothèque IronPDF for Node.js.
Créez un nouveau PDF ou importez un PDF existant avec les données du document analysé.
Pour extraire chaque ligne de texte, utilisez la méthode extractText
.
- Voir le contenu PDF analysé pour la lecture de PDF bruts.
IronPDF for Node.js
Lors de ma dernière mise à jour des connaissances en janvier 2022, IronPDF était en grande partie une bibliothèque .NET construite pour fonctionner au sein du .NET Framework, permettant aux développeurs de travailler avec des documents PDF à l'aide de C# ou VB.NET. Cependant, il n'existait pas de version native ou directe d'IronPDF faite uniquement pour Node.js.
Comme IronPDF s'est développé pour prendre en charge et inclure des bindings pour Node.js, cela signifie probablement que les outils de création, d'édition et de traitement des documents PDF dans les applications Node.js sont désormais disponibles dans IronPDF for Node.js.
Caractéristiques d'IronPDF
- Génération de PDF à partir de HTML : La capacité de convertir du contenu HTML en documents PDF.
- L'ajout, la modification ou la suppression de texte, de formes, d'images et d'autres éléments à partir de fichiers PDF est appelé manipulation de texte et d'image.
- Combiner, extraire des pages de fichiers PDF, diviser des fichiers PDF, et chiffrer et déchiffrer sont tous des exemples de modifications de documents PDF.
- Gestion des formulaires comprend la complétion de formulaires, l'acquisition de données de formulaire et l'exploitation de formulaires PDF par programmation.
- La sécurité PDF est l'utilisation de signatures numériques, de cryptage, et de protection par mot de passe pour les documents PDF.
La récupération et la modification des fichiers PDF sont connues sous le nom de traitement des métadonnées des pages.
Si IronPDF a élargi sa gamme de produits pour inclure une version Node.js, cela pourrait permettre aux développeurs réalisant des apps Node.js d'utiliser la fonctionnalité de manipulation de PDF d'IronPDF. Cela pourrait être utile aux développeurs qui préfèrent travailler avec une bibliothèque offrant des fonctionnalités proches de celles d'IronPDF dans l'environnement .NET.
La documentation officielle, les notes de version ou les mises à jour de l'équipe IronPDF doivent toujours être consultées pour obtenir les informations les plus récentes et les plus actuelles concernant les fonctionnalités, la compatibilité et la prise en charge d'IronPDF pour Node.js. Rendez-vous ici pour en savoir plus sur l'IronPDF et les nouvelles fonctionnalités de chaque version. Pour en savoir plus sur l'IronPDF, consultez cette page de documentation officielle.
Exigences du paquet
- Visual Studio Code est l'IDE
- Node.js
- Yarn ou npm peuvent être utilisés pour la gestion des paquets, ce qui est nécessaire pour l'installation des paquets.
Installer le package IronPDF pour Node.js
Lancez l'invite de commande ou le terminal : Ouvrir l'invite de commande ou le terminal. Il existe plusieurs façons d'y accéder en fonction de votre système d'exploitation :
- Windows : PowerShell ou Invite de commande
- Terminal sur Mac OS X
Terminal sous Linux
Assembler le paquet : Pour installer un paquet, utilisez le nom du paquet et la commande npm install. Par exemple, pour installer le package @ironsoftware/ironpdf
, exécutez la commande suivante dans le terminal :
npm i @ironsoftware/ironpdf
Remplacez @ironsoftware/ironpdf
par le nom du package que vous souhaitez installer. Pour installer le paquet actuel.

Installer IronPDF
En expérimentant, vous pouvez voir qu'IronPDF offre de nombreuses fonctionnalités pour faciliter le traitement des PDF dans Node.js. Elle est axée sur la génération, la visualisation et la modification de tout document PDF dans les formats requis. Les fichiers PDF sont assez simples à analyser.
const { PdfDocument } = require("@ironsoftware/ironpdf");
const pdfprocess = async () => {
// Load the existing PDF document
const pdf = await PdfDocument.fromFile("Demo.pdf");
var data = await pdf.extractText();
console.log(data);
};
pdfprocess();
L'importance de la fonction fromFile
est démontrée par le code ci-dessus. La méthode fromFile
qui permet de lire des documents PDF et de convertir le fichier PDF en objets PdfDocument
, charge le fichier à partir d'un système de fichiers existant. Ainsi, PdfDocument
contient les métadonnées des PDFs. Les métadonnées du fichier dans l'objet pdf peuvent être utilisées comme le souhaite l'utilisateur. Les données du document analysé par cet objet sont le texte et les graphiques contenus dans l'objet page du PDF. La fonction extractText
est utilisée pour extraire tout le texte du fichier PDF fourni. Ensuite, le texte récupéré est enregistré sous forme de chaîne et préparé pour un traitement supplémentaire tel que la création d'un format JSON.
Vous trouverez ci-dessous le code de la deuxième approche, qui extrait explicitement le texte de chaque page du fichier PDF.
const pdf = await PdfDocument.fromFile("Demo.pdf");
var pagecount = await pdf.getPageCount();
for (var i = 0; i < pagecount; i++) {
var spdf = await pdf.extractText(i);
console.log(spdf);
}
La lecture brute d'un PDF déjà en mémoire est chargée depuis le répertoire spécifié dans son intégralité par cet exemple de code, qui crée ensuite un objet PdfDocument
nommé pdf. Un document PDF est une structure de données composée de plusieurs types d'objets de données fondamentaux. Chaque page du fichier PDF est récupérée à l'aide de son numéro de page ou de son index de page dans l'objet PDF afin de garantir qu'elle est traitée l'une après l'autre. Tout d'abord, nous utilisons la méthode getPageCount
de son objet PDF pour trouver le nombre total de pages dans le PDF fourni.
La boucle "for" parcourt chaque page en utilisant ce nombre de pages, en invoquant la fonction extractText
pour récupérer le texte de chaque page PDF. Le texte extrait peut être affiché sur l'écran de l'utilisateur ou enregistré dans une variable de type chaîne de caractères. Cette technique permet donc d'extraire le texte de pages PDF individuelles de manière organisée. Ces techniques démontrent comment IronPDF, une bibliothèque Node.js spécialement conçue pour les tâches liées aux PDF, peut facilement et minutieusement extraire du texte à partir de fichiers PDF. Cette accessibilité renforce l'utilité des PDF dans divers contextes et a de nombreuses applications pratiques.

Lire la page PDF par page
Les deux codes ci-dessus renvoient le même résultat, mais le seul changement est la mise en œuvre du code en fonction des besoins de l'utilisateur. Pour en savoir plus sur IronPDF, consultez ces pages de documentation détaillées.
Conclusion
La bibliothèque IronPDF offre des mesures de sécurité solides pour réduire les risques et garantir la sécurité des données. Il est compatible avec tous les navigateurs courants et ne se limite pas à l'un d'entre eux. Pour répondre aux différentes demandes des développeurs, la bibliothèque offre un large éventail d'options de licence, y compris une licence de développement gratuite et des licences de développement supplémentaires qui peuvent être achetées.
En plus d'une licence permanente, d'un an de maintenance logicielle et d'une garantie de remboursement de trente jours, le bundle Lite $749 comprend des possibilités de mise à jour. Les utilisateurs ont la possibilité d'évaluer le produit dans des circonstances d'application pratique tout au long de la période d'essai en filigrane. Veuillez consulter la page de licence fournie pour plus de détails sur le coût, la licence et la version d'essai d'IronPDF. Pour en savoir plus sur les autres produits proposés par Iron Software, consultez le site officiel.

Tarification d'Iron Software