UTILISER IRONPDF POUR NODE.JS

Comment convertir un PDF en texte dans Node.js

Darrius Serrant
Darrius Serrant
janvier 4, 2024
Partager:

Introduction

La conversion de PDF en texte dans Node.js est une tâche courante dans de nombreuses applications, notamment lorsqu'il s'agit d'analyse de données, de systèmes de gestion de contenu ou même de simples utilitaires de conversion. Avec l'environnement Node.js et la bibliothèque IronPDF, les développeurs peuvent convertir sans effort des documents PDF en données textuelles utilisables. Ce tutoriel vise à guider les débutants dans le processus de mise en place d'un projet IronPDF for Node.js pour extraire du texte à partir de fichiers de pages PDF à l'aide d'IronPDF, en se concentrant sur des aspects clés tels que les détails de l'installation, la mise en œuvre de l'analyse syntaxique des PDF, la gestion des erreurs et les applications pratiques.

Comment convertir un PDF en texte dans NodeJS

  1. Créez une application Node.js dans votre IDE.

  2. Installez la bibliothèque PDF en utilisant npm.

  3. Chargez les pages PDF dans l'application.

  4. Extraire le texte en utilisant la méthode extractText.

  5. Utilisez le texte extrait pour le traitement et le retour des données.

Conditions préalables

Avant de vous lancer dans cette aventure, assurez-vous de disposer des éléments suivants :

  • Node.js est installé sur votre machine.
  • Une compréhension de base de JavaScript.
  • Un fichier PDF pour tester le processus d'extraction des runs.

Configuration de votre projet Node.js

Étape 1 : Initialisation de votre application Node.js

Créez un nouveau répertoire pour votre projet et lancez une application Node.js :

mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y

Étape 2 : Installation d'IronPDF

Installez IronPDF à l'aide de npm :

npm install ironpdf

Mise en œuvre de la conversion de PDF en texte avec IronPDF

Étape 1 : Importation des modules nécessaires

import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
JAVASCRIPT

Dans cette première étape, vous importez les modules nécessaires. PdfDocument et IronPdfGlobalConfig sont importés du package @ironpdf/ironpdf, qui sont essentiels pour travailler avec des documents PDF et configurer IronPDF, respectivement. Le module fs, un module central de Node.js, est également importé pour gérer les opérations du système de fichiers.

Étape 2 : Mise en place d'une fonction asynchrone

(async function createPDFs() {
  // ...
})();
JAVASCRIPT

Ici, une fonction asynchrone anonyme nommée createPDFs est définie et immédiatement invoquée. Cette configuration permet d'utiliser await dans la fonction, facilitant ainsi la gestion des opérations asynchrones, qui sont courantes lorsqu'il s'agit d'I/O de fichiers et de bibliothèques externes comme IronPDF.

Étape 3 : Application de la clé de licence

const IronPdfConfig = {
  licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
JAVASCRIPT

À cette étape, vous créez un objet de configuration pour IronPDF, y compris la clé de licence, et appliquez cette configuration en utilisant IronPdfGlobalConfig.setConfig. Ceci est crucial pour activer toutes les fonctionnalités d'IronPDF, en particulier si vous utilisez une version sous licence.

Étape 4 : Chargement du document PDF

const pdf = await PdfDocument.fromFile("report.pdf");
JAVASCRIPT

À cette étape, le code utilise correctement la méthode fromFile de la classe PdfDocument pour charger un document PDF existant. C'est une opération asynchrone, d'où l'utilisation de await. En spécifiant le chemin d'accès à votre fichier PDF (dans ce cas, "old-report.pdf"), la variable pdf devient une représentation de votre document PDF, entièrement chargé et prêt pour l'extraction de texte. Cette étape est cruciale car c'est là que le fichier PDF est analysé et préparé pour toutes les opérations que vous souhaitez effectuer, comme l'extraction de texte.

Étape 5 : Extraire le texte du PDF

const text = await pdf.extractText();
JAVASCRIPT

Ici, la méthode extractText est appelée sur l'objet pdf. Cette opération asynchrone extrait tout le texte du document PDF chargé, le stockant dans la variable text.

Étape 6 : Traitement du texte extrait

const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
JAVASCRIPT

Dans cette étape, le texte extrait est traité pour compter le nombre de mots. Pour ce faire, la chaîne de texte est divisée en un tableau de mots à l'aide d'une expression régulière correspondant à un ou plusieurs caractères d'espacement, puis la longueur du tableau obtenu est comptée.

Étape 7 : Enregistrement du texte extrait dans un fichier

fs.writeFileSync("extracted_text.txt", text);
JAVASCRIPT

Cette ligne corrigée utilise la méthode writeFileSync du module fs pour écrire de manière synchrone le texte extrait dans un fichier.

Étape 8 : Traitement des erreurs

} catch (error) {
  console.error("An error occurred:", error); //log error
}
JAVASCRIPT

Enfin, le code inclut un bloc try-catch pour la gestion des erreurs. Si une partie des opérations asynchrones dans le bloc try échoue, le bloc catch capturera l'erreur et le message sera enregistré dans la console. C'est important pour le débogage et pour s'assurer que votre application peut gérer les problèmes inattendus avec élégance.

Code complet

Vous trouverez ci-dessous le code complet qui encapsule toutes les étapes que nous avons abordées pour extraire du texte d'un document PDF à l'aide d'IronPDF for Node.js dans un environnement Node.js :

import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
(async function createPDFs() {
  try {
    // Input the license key
    const IronPdfConfig = {
      licenseKey: "Your-License-Key",
    };
    // Set the config with the license key
    IronPdfGlobalConfig.setConfig(IronPdfConfig);
    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("old-report.pdf");
    // Get all text to put in a search index
    const text = await pdf.extractText();
    // Process the extracted text
    // Example: Count words
    const wordCount = text.split(/\s+/).length;
    console.log("Word Count:", wordCount);
    // Save the extracted text to a text file
    fs.writeFileSync("extracted_text.txt", text);
    console.log("Extracted text saved to extracted_text.txt");
  } catch (error) {
    // Handle errors here
    console.error("An error occurred:", error);
  }
})();
JAVASCRIPT

Ce script inclut tous les composants nécessaires pour extraire du texte à partir d'un fichier PDF : configurer IronPDF avec une clé de licence, charger le document PDF, extraire le texte, effectuer une analyse textuelle simple (compte de mots dans ce cas), et enregistrer le texte extrait dans un fichier. Le code est encapsulé dans une fonction asynchrone pour gérer la nature asynchrone des opérations de fichiers et du traitement des PDF dans Node.js.

Analyse de la sortie : PDF et texte extrait

Une fois le script exécuté, vous obtiendrez deux éléments clés à analyser : le fichier PDF d'origine et le fichier texte contenant le texte extrait. Cette section vous aidera à comprendre et à évaluer les résultats du script.

Le document PDF original

Le fichier PDF que vous choisissez pour ce processus, dans ce cas, nommé "old-report.pdf", est le point de départ. Les documents PDF peuvent varier considérablement en complexité et en contenu. Ils peuvent contenir un texte simple et direct, ou être riches en images, tableaux et divers formats de texte. La structure et la complexité de votre PDF auront un impact direct sur le processus d'extraction.

Comment convertir un PDF en texte dans Node.js : Figure 1 - PDF original

Fichier texte extrait

Après l'exécution du script, un nouveau fichier texte nommé "texte_extrait.txt" sera créé. Ce fichier contient tout le texte qui a été extrait du document PDF.

Comment convertir un PDF en texte dans Node.js : Figure 2 - Texte extrait

Voici ce qui s'affiche sur la console :

Comment convertir un PDF en texte dans Node.js : Figure 3 - Sortie de la console

Applications pratiques et cas d'utilisation

Exploration et analyse de données

L'extraction de texte à partir de PDF est particulièrement utile pour l'exploration et l'analyse de données. Qu'il s'agisse d'extraire des rapports financiers, des documents de recherche ou tout autre document PDF, la possibilité de convertir les PDF en texte est cruciale pour les tâches d'analyse de données.

Systèmes de gestion de contenu

Dans les systèmes de gestion de contenu, il est souvent nécessaire de gérer différents formats de fichiers. IronPDF peut être un élément clé d'un système de gestion, d'archivage et de récupération de contenu stocké au format PDF.

Conclusion

Comment convertir un PDF en texte dans Node.js : Figure 4 - Licence

Ce guide complet vous a accompagné dans la mise en place d'un projet IronPDF for Node.js pour extraire du texte à partir de documents PDF à l'aide d'IronPDF. De la gestion de l'extraction de texte de base à la plongée dans des fonctionnalités plus complexes telles que l'extraction d'objets textuels et l'optimisation des performances, vous disposez désormais des connaissances nécessaires pour mettre en œuvre une extraction de texte PDF efficace dans vos applications Node.js.

N'oubliez pas que le voyage ne s'arrête pas là. Le domaine du traitement des PDF et de l'extraction de texte est vaste, avec de nombreuses caractéristiques et techniques à explorer. Relevez le défi et continuez à améliorer vos compétences dans ce domaine passionnant qu'est le développement de logiciels.

Il est à noter que IronPDF propose un essai gratuit pour les utilisateurs. Pour ceux qui cherchent à intégrer IronPDF dans un cadre professionnel, des options de licence sont disponibles.

Darrius Serrant
Ingénieur Logiciel Full Stack (WebOps)

Darrius Serrant est titulaire d'une licence en informatique de l'Université de Miami et travaille en tant qu'ingénieur marketing Full Stack WebOps chez Iron Software. Attiré par le code depuis son plus jeune âge, il a vu l'informatique comme à la fois mystérieuse et accessible, en faisant le support parfait pour la créativité et la résolution de problèmes.

Chez Iron Software, Darrius apprécie de créer de nouvelles choses et de simplifier des concepts complexes pour les rendre plus compréhensibles. En tant que l'un de nos développeurs résidents, il a également fait du bénévolat pour enseigner aux étudiants, partageant son expertise avec la prochaine génération.

Pour Darrius, son travail est épanouissant car il est apprécié et a un réel impact.

< PRÉCÉDENT
Comment éditer un fichier PDF en Node.js
SUIVANT >
Comment diviser un fichier PDF en Node.js