UTILISATION D'IRONPDF POUR PYTHON

Comment extraire du texte d'un PDF ligne par ligne

Mise à jour septembre 28, 2024
Partager:

Ce guide montrera les nuances de l'utilisation d'IronPDF pour extraire séquentiellement du texte à partir de documents PDF en Python. Cela couvrira tout, de la configuration de votre environnement Python à l'exécution de votre premier programme Python pour l'extraction de texte PDF.

Comment extraire du texte d'un PDF ligne par ligne

  1. Téléchargez et installez la bibliothèque PDF à l'aide de Python pour extraire le texte de la ligne du fichier PDF.

  2. Créez un projet Python dans votre IDE préféré.

  3. Charger le fichier PDF souhaité pour en extraire le contenu textuel.

  4. Parcourez le PDF en boucle et extrayez le texte séquentiellement à l'aide de la fonction de la bibliothèque intégrée.

  5. Enregistrer le texte extrait dans un fichier.

IronPDF for Python Bibliothèque PDF Python

IronPDF est un outil pratique qui vous permet de travailler avec des fichiers PDF en Python. Il s'agit d'un assistant utile qui rend la lecture, la création et l'édition de fichiers PDF accessibles. Que vous souhaitiez extraire le contenu d'un document PDF, y inclure de nouvelles informations ou transformer une page web au format PDF, IronPDF propose des solutions complètes. Il s'agit d'un logiciel payant, mais une version d'essai est proposée pour vous permettre de l'explorer avant de l'acheter.

Avant de plonger dans le script, il est essentiel de configurer votre environnement Python. Ce guide étape par étape vous aidera à configurer votre environnement, à créer un nouveau projet Python dans Visual Studio Code et à configurer l'environnement de la bibliothèque IronPDF for Python.

Téléchargez et installez Python : Si vous n'avez pas installé Python, téléchargez la version la plus récente à partir du site Web de lsite officiel de Python. Suivez les instructions d'installation de votre système d'exploitation.

Vérifier l'installation de Python : Ouvrez votre terminal ou votre invite de commande et tapez python --version. Cette commande devrait afficher la version de Python installée, confirmant ainsi que l'installation s'est déroulée correctement.

Mise à jour de pip : Pip est l'installateur de paquets Python. Assurez-vous qu'il est à jour en exécutant pip install --upgrade pip.

Créer un nouveau projet Python dans Visual Studio Code

Téléchargez Visual Studio Code : Si vous ne l'avez pas, téléchargez-le depuis lesite web officiel.

Installer l'extension Python : Ouvrez Visual Studio Code et rendez-vous sur la place de marché des extensions. Recherchez l'extension Python de Microsoft et installez-la.

Créer un nouveau dossier : Créez un nouveau dossier dans lequel vous souhaitez héberger votre projet Python. Donnez-lui un nom pertinent, comme PDF_Text_Extractor.

Ouvrez le dossier dans VS Code : Faites glisser le dossier dans Visual Studio Code ou utilisez l'option de menu Fichier > Ouvrir le dossier pour ouvrir le dossier.

Créer un fichier Python : Cliquez avec le bouton droit de la souris dans le panneau VS Code Explorer et choisissez Nouveau fichier. Nommez le fichier main.py ou quelque chose de similaire. Ce fichier contiendra votre programme Python.

Comment extraire du texte d'un PDF ligne par ligne, Figure 1 : Créer un nouveau fichier Python dans Visual Studio Code

Créer un nouveau fichier Python dans Visual Studio Code

Configuration requise pour la bibliothèque IronPDF

IronPDF est indispensable pour récupérer le contenu textuel des PDF. Voici comment l'installer :

Ouvrir le terminal dans VS Code : Vous pouvez ouvrir un terminal à l'intérieur de VS Code en allant dans Terminal > Nouveau terminal.

Installer IronPDF : Dans le terminal, exécutez ce qui suit pour installer la dernière version d'IronPDF :

 pip install ironpdf

Ce processus récupère et installe la bibliothèque IronPDF ainsi que tous les modules nécessaires.

Comment extraire du texte d'un PDF ligne par ligne, Figure 2 : Installer le package IronPDF

Installer le package IronPDF

Et voilà! Vous avez maintenant configuré avec succès votre environnement Python, créé un nouveau projet dans Visual Studio Code et installé la bibliothèque IronPDF for Python.

Extraire le texte d'un PDF ligne par ligne

Application de la clé de licence

Avant de continuer, assurez-vous d'appliquer votre clé de licence IronPDF.

from ironpdf import PdfDocument

License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
PYTHON

Remplacez "VOTRE-CLÉ DE LICENCE" par votre véritable clé de licence IronPDF. Cette licence vous permet de débloquer toutes les fonctionnalités de la bibliothèque pour votre projet.

Chargement du format de fichier PDF

Vous devez charger un fichier PDF existant dans votre programme Python. Vous pouvez y parvenir avec la méthode PdfDocument.FromFile d'IronPDF.

pdfFileObj = PdfDocument.FromFile("content.pdf")
PYTHON

"content.pdf" fait référence au fichier PDF que vous souhaitez lire. Ce fichier PDF chargé est stocké dans la variable pdfFileObj, utilisée comme un lecteur PDF ou l'objet fichier PDF pdfFileObj.

Extraction de texte à partir de l'ensemble du document PDF

Si vous souhaitez récupérer toutes les données textuelles du fichier PDF en une seule fois, vous pouvez utiliser la méthode ExtractAllText.

all_text = pdfFileObj.ExtractAllText()
PYTHON

La méthode ExtractAllText est utilisée ici à des fins de démonstration. Cette méthode extrait tout le texte du fichier PDF et le stocke dans une variable appelée all_text.

Extraction de texte à partir d'une page PDF spécifique

IronPDF permet l'extraction de texte à partir d'une page spécifique en utilisant la méthode ExtractTextFromPage. Cette méthode est utile lorsque vous n'avez besoin que du texte de certaines pages.

page_2_text = pdfFileObj.ExtractTextFromPage(1)
PYTHON

Ici, nous extrayons le texte de la deuxième page, correspondant à un index de 1.

Initialisation d'un fichier texte pour l'écriture du texte extrait

with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
PYTHON

Ouvrez un fichier nommé "extracted_text.txt" pour enregistrer les données textuelles. La fonction intégrée open de Python est utilisée pour cela, en définissant le mode de fichier sur "écriture".("w "). Il suffit d'ajouter encoding='utf-8' comme argument à la fonction open. Cette fonction doit permettre au document texte de gérer les caractères Unicode comme celui que vous rencontrez.

Boucle sur chaque page pour l'extraction du texte ligne par ligne

for i in range(0, pdfFileObj.get_Pages().Count):
PYTHON

Le code ci-dessus parcourt chaque page du fichier PDF en utilisant la méthode get_Pages d'IronPDF.().Count` pour obtenir le nombre total de pages.

Extraire du texte et le segmenter en lignes

page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
PYTHON

Pour chaque page, la méthode ExtractTextFromPage est utilisée pour obtenir tout le texte, puis utiliser la méthode split de Python pour le découper en lignes. Cela se traduit par une liste de lignes qui peuvent être parcourues en boucle.

Écrire les lignes extraites dans un fichier texte

for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')
PYTHON

Ici, le code parcourt chaque ligne de la liste de lignes, l’imprime sur la console et l’écrit dans le fichier en ajoutant un caractère de nouvelle ligne.(\n) après chaque ligne pour formater correctement ce texte.

Code complet

Voici la mise en œuvre complète :

from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
    # Print number of pages in PDF file print count of pages present in PDF file
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):

        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each eachline to the console
            # Write each line to the text documents
            text_file.write(eachline + '\n')
PYTHON

Sortie

Exécutez le fichier Python en écrivant la commande suivante dans le terminal de Visual Studio Code :

python main.py

Ce résultat s'affichera sur le terminal :

Comment extraire du texte d'un PDF ligne par ligne, Figure 3 : Le texte extrait

Le texte extrait

Il s'agit du texte extrait du fichier PDF. Vous remarquerez également qu'un document texte a été créé dans votre répertoire.

Comment extraire du texte d'un PDF ligne par ligne, Figure 4 : Le texte extrait stocké dans un fichier TXT

Le texte extrait stocké dans le fichier TXT

Dans ce fichier texte, vous trouverez le format de texte qui a été récupéré, présenté de manière séquentielle.

Comment extraire le texte d'un PDF ligne par ligne, Figure 5 : Contenu du fichier texte extrait

Le contenu du fichier texte extrait

Conclusion

En conclusion, l'utilisation d'IronPDF et de Python pour extraire du texte de fichiers PDF est une approche robuste et simple, qu'il s'agisse d'extraire du texte d'un document entier, de pages spécifiques ou même d'une ligne à la fois. L'avantage supplémentaire d'enregistrer le texte extrait dans un fichier texte vous permet de gérer et d'utiliser efficacement les données en vue d'un traitement ultérieur. IronPDF s'avère être un outil inestimable dans le traitement des PDF, offrant une gamme de fonctionnalités allant au-delà de la simple extraction de texte. Vous pouvez égalementconvertir un PDF en texte en Python en utilisant IronPDF.

De plus, la création de PDF interactifs, le remplissage et la soumissionformulaires interactifs, fusion etdiviserFichiers PDF,extraction de textes et d'images, recherche de texte dans les fichiers PDF, rasterisation de PDFs en imagesLa modification de la taille de la police, la couleur de la bordure et du fond, ainsi que la conversion de fichiers PDF sont toutes des tâches que l'outil IronPDF peut aider à accomplir.

IronPDF n'est pas une bibliothèque Python à code source ouvert. Si vous envisagez d'utiliser IronPDF pour vos projets, la licence du paquet commence à $749. Toutefois, si vous avez besoin d'éclaircissements sur l'investissement, IronPDF offre unessai gratuit pour en découvrir toutes les caractéristiques.

Comment extraire du texte d'un PDF ligne par ligne, Figure 6 : La page de licence

< PRÉCÉDENT
Comment extraire des données d'un PDF en Python
SUIVANT >
Comment annoter facilement des PDF en Python avec IronPDF

Prêt à commencer ? Version : 2024.11.1 vient de paraître

Installation gratuite de pip Voir les licences > ;