Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
Cet article démontrera comment analyser les PDF à l'aide de Node.js avec la bibliothèque IronPDF, PDF parser Node.js.
L'environnement d'exécution JavaScript Node.js, multiplateforme et open-source, permet d'exécuter du code JavaScript en dehors d'un navigateur web. Les programmeurs peuvent créer des applications réseau évolutives, rapides et efficaces en activant l'exécution de modules JavaScript ou JS côté serveur. Comme Node.js est un modèle d'E/S non bloquant, piloté par les événements, il est idéal pour développer des applications en temps réel qui gèrent plusieurs connexions à la fois avec des éléments de formulaire interactifs.
Node.js est fréquemment utilisé pour créer un large éventail d'applications, notamment des serveurs web, des API, des applications de streaming de structure de données, des applications de chat en temps réel, l'Internet des objets..(IdO) et bien d'autres choses encore. Tout bien considéré, Node.js gagne en popularité en raison de son efficacité, de sa vitesse et de sa compatibilité avec JavaScript à la fois sur le front-end et le back-end, offrant ainsi un langage unique pour le développement full-stack. Vérifier cecisite web d'explication pour obtenir des pages de documentation permettant d'en savoir plus sur Node.js.
Pour analyser les PDF afin d'en faire un flux lisible, téléchargez le package Node.js.
Installez la bibliothèque IronPDF for Node.js.
Créez un nouveau PDF ou importez un PDF existant avec les données du document analysé.
Pour extraire chaque ligne de texte, utilisez la commandeextractText
méthode.
Lors de ma dernière mise à jour des connaissances en janvier 2022, IronPDF était en grande partie une bibliothèque .NET construite pour fonctionner au sein du .NET Framework, permettant aux développeurs de travailler avec des documents PDF à l'aide de C# ou VB.NET. Cependant, il n'existait pas de version native ou directe d'IronPDF faite uniquement pour Node.js.
Comme IronPDF s'est développé pour prendre en charge et inclure des bindings pour Node.js, cela signifie probablement que les outils de création, d'édition et de traitement des documents PDF dans les applications Node.js sont désormais disponibles dans IronPDF for Node.js.
La récupération et la modification des fichiers PDF sont connues sous le nom de traitement des métadonnées des pages.
Si IronPDF a élargi sa gamme de produits pour inclure une version Node.js, cela pourrait permettre aux développeurs réalisant des apps Node.js d'utiliser la fonctionnalité de manipulation de PDF d'IronPDF. Cela pourrait être utile aux développeurs qui préfèrent travailler avec une bibliothèque offrant des fonctionnalités proches de celles d'IronPDF dans l'environnement .NET.
La documentation officielle, les notes de version ou les mises à jour de l'équipe IronPDF doivent toujours être consultées pour obtenir les informations les plus récentes et les plus actuelles concernant les fonctionnalités, la compatibilité et la prise en charge d'IronPDF pour Node.js. Rendez-vous ici pour en savoir plus sur l'IronPDF et les nouvelles fonctionnalités de chaque version. Pour en savoir plus sur l'IronPDF, consultez cette pagepage de documentation officielle.
Lancez l'invite de commande ou le terminal : Ouvrir l'invite de commande ou le terminal. Il existe plusieurs façons d'y accéder en fonction de votre système d'exploitation :
Terminal sous Linux
Assembler le paquet : Pour installer un paquet, utilisez le nom du paquet et la commande npm install. Par exemple, pour installer le paquet @ironsoftware/ironpdf
, effectuez la commande suivante dans le terminal :
npm i @ironsoftware/ironpdf
Remplacez @ironsoftware/ironpdf
par le nom du paquet que vous souhaitez installer. Pour installer le paquet actuel.
Installer IronPDF
En expérimentant, vous pouvez voir qu'IronPDF offre de nombreuses fonctionnalités pour faciliter le traitement des PDF dans Node.js. Elle est axée sur la génération, la visualisation et la modification de tout document PDF dans les formats requis. Les fichiers PDF sont assez simples à analyser.
const { PdfDocument } = require("@ironsoftware/ironpdf");
const pdfprocess = async () => {
// Load the existing PDF document
const pdf = await PdfDocument.fromFile("Demo.pdf");
var data = await pdf.extractText();
console.log(data);
};
pdfprocess();
L'importance de lafromFile
le code ci-dessus illustre bien la fonction de la traduction. la méthode fromFile
qui permet de lire des documents PDF et de convertir le fichier PDF enPdfDocument
si vous utilisez des objets .NET, vous chargez le fichier à partir d'un système de fichiers existant. Ainsi, PdfDocument
contient les métadonnées du PDF. Les métadonnées du fichier dans l'objet pdf peuvent être utilisées comme le souhaite l'utilisateur. Les données du document analysé par cet objet sont le texte et les graphiques contenus dans l'objet page du PDF. La fonction extractText
est utilisée pour extraire tout le texte du fichier PDF fourni. Ensuite, le texte extrait est sauvegardé sous forme de chaîne de caractères et préparé pour un traitement supplémentaire tel que la création d'un format JSON.
Vous trouverez ci-dessous le code de la deuxième approche, qui extrait explicitement le texte de chaque page du fichier PDF.
const pdf = await PdfDocument.fromFile("Demo.pdf");
var pagecount = await pdf.getPageCount();
for (var i = 0; i < pagecount; i++) {
var spdf = await pdf.extractText(i);
console.log(spdf);
}
La lecture brute d'un PDF déjà en mémoire est chargée dans son intégralité à partir du répertoire spécifié par cet exemple de code, qui crée ensuite un objet PdfDocument
nommé pdf. Un document PDF est une structure de données composée de plusieurs types d'objets de données fondamentaux. Chaque page du fichier PDF est récupérée à l'aide de son numéro de page ou de son index de page dans l'objet PDF afin de garantir qu'elle est traitée l'une après l'autre. Tout d'abord, nous utilisons l'outilgetPageCount
l'auteur de la traduction a recours à la méthode de l'objet PDF pour trouver le nombre total de pages dans le PDF fourni.
La boucle For itère sur chaque page en utilisant le nombre de pages et invoque la fonction extractText
pour extraire le texte de chaque page du PDF. Le texte extrait peut être affiché sur l'écran de l'utilisateur ou enregistré dans une variable de type chaîne de caractères. Cette technique permet donc d'extraire le texte de pages PDF individuelles de manière organisée. Ces techniques démontrent comment IronPDF, une bibliothèque Node.js spécialement conçue pour les tâches liées aux PDF, peut facilement et minutieusement extraire du texte à partir de fichiers PDF. Cette accessibilité renforce l'utilité des PDF dans divers contextes et a de nombreuses applications pratiques.
**Lire le PDF page par page
Les deux codes ci-dessus renvoient le même résultat, mais le seul changement est la mise en œuvre du code en fonction des besoins de l'utilisateur. Pour en savoir plus sur IronPDF, consultez cette pagepages de documentation détaillée.
La bibliothèque IronPDF offre des mesures de sécurité solides pour réduire les risques et garantir la sécurité des données. Il est compatible avec tous les navigateurs courants et ne se limite pas à l'un d'entre eux. Pour répondre aux différentes demandes des développeurs, la bibliothèque offre un large éventail d'options de licence, y compris une licence de développement gratuite et des licences de développement supplémentaires qui peuvent être achetées.
En plus d'une licence permanente, d'un an de maintenance du logiciel et d'une garantie de remboursement de trente jours, l'offre $749 Lite comprend des possibilités de mise à niveau. Les utilisateurs ont la possibilité d'évaluer le produit dans des circonstances d'application pratique tout au long de la période d'essai en filigrane. Veuillez vérifier les informations fourniespage d'autorisation pour plus de détails sur le coût d'IronPDF, les licences et la version d'essai. Pour en savoir plus sur les autres produits proposés par Iron Software, consultez lesite officiel.
Tarification d'Iron Software
9 produits de l'API .NET pour vos documents de bureau