Passer au contenu du pied de page
UTILISER IRONPDF POUR PYTHON

Comment extraire le texte d'un PDF ligne par ligne

Ce guide montrera les nuances de l'utilisation d'IronPDF pour extraire du texte séquentiellement à partir de documents PDF en Python. Il couvrira tout, de la configuration de votre environnement Python à l'exécution de votre premier programme Python pour l'extraction de texte PDF.

Comment extraire du texte d'un PDF ligne par ligne

  1. Téléchargez et installez la bibliothèque PDF en utilisant Python pour extraire du texte du fichier PDF ligne par ligne.
  2. Créez un projet Python dans votre IDE préféré.
  3. Chargez le fichier PDF désiré pour récupérer le contenu textuel.
  4. Parcourez le PDF et extrayez le texte séquentiellement en utilisant la fonction de la bibliothèque intégrée.
  5. Enregistrez le texte extrait dans un fichier.

Bibliothèque PDF Python IronPDF

IronPDF est un outil pratique qui vous permet de travailler avec des fichiers PDF en Python. Considérez-le comme un assistant utile qui rend la lecture, la création et l'édition de fichiers PDF accessibles. Que vous souhaitiez extraire du contenu d'un document PDF, inclure de nouvelles informations ou transformer une page Web en format PDF, IronPDF offre des solutions complètes. C'est un logiciel payant, mais ils proposent une version d’essai à explorer avant de s'engager dans un achat.

Avant de plonger dans le script, il est essentiel de configurer votre environnement Python. Ce guide étape par étape vous aidera à configurer votre environnement, créer un nouveau projet Python dans Visual Studio Code et configurer l'environnement de la bibliothèque IronPDF.

Téléchargez et installez Python : Si vous n'avez pas installé Python, téléchargez la dernière version depuis le site officiel de Python. Suivez les instructions d'installation pour votre système d'exploitation spécifique.

Vérifiez l'installation de Python : Ouvrez votre terminal ou invite de commandes et tapez python --version. Cette commande doit afficher la version de Python installée, confirmant que l'installation a réussi.

Mettre à jour pip : Pip est le gestionnaire de paquets Python. Assurez-vous qu'il est à jour en exécutant pip install --upgrade pip.

Créer un nouveau projet Python dans Visual Studio Code

Téléchargez Visual Studio Code : Si vous ne l'avez pas, téléchargez-le depuis le site officiel.

Installez l'extension Python : Ouvrez Visual Studio Code et rendez-vous sur le Marketplace des Extensions. Recherchez l'extension Python de Microsoft et installez-la.

Créez un nouveau dossier : Créez un nouveau dossier où vous souhaitez héberger votre projet Python. Nommez-le quelque chose de pertinent, comme PDF_Text_Extractor.

Ouvrez le dossier dans VS Code : Faites glisser le dossier dans Visual Studio Code ou utilisez l'option de menu Fichier > Ouvrir un dossier pour ouvrir le dossier.

Créer un fichier Python : Faites un clic droit dans le panneau Explorateur de VS Code et choisissez Nouveau Fichier. Nommez le fichier main.py ou quelque chose de similaire. Ce fichier contiendra votre programme Python.

Comment extraire du texte d'un PDF ligne par ligne, Figure 1 : Créer un nouveau fichier Python dans Visual Studio Code Créez un nouveau fichier Python dans Visual Studio Code

Exigence et configuration de la bibliothèque IronPDF

IronPDF est essentiel pour récupérer le contenu textuel des PDF. Voici comment l'installer :

Ouvrez le Terminal dans VS Code : Vous pouvez ouvrir un terminal dans VS Code en allant sur Terminal > Nouveau Terminal.

Installez IronPDF : Dans le terminal, exécutez la commande suivante pour installer la dernière version d'IronPDF :

pip install ironpdf

Ce processus récupère et installe la bibliothèque IronPDF avec tous les modules requis.

Comment extraire du texte d'un PDF ligne par ligne, Figure 2 : Installer le package IronPDF Installer le package IronPDF

Et voilà ! Vous avez maintenant configuré avec succès votre environnement Python, créé un nouveau projet dans Visual Studio Code et installé la bibliothèque IronPDF.

Extraire du texte d'un PDF ligne par ligne

Appliquer la clé de licence

Avant de continuer, assurez-vous d'appliquer votre clé de licence IronPDF.

from ironpdf import PdfDocument

# Apply your license key to unlock library features
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
from ironpdf import PdfDocument

# Apply your license key to unlock library features
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
PYTHON

Remplacez YOUR-LICENSE-KEY-HERE par votre clé de licence IronPDF réelle. Cette licence vous permet de déverrouiller toutes les fonctionnalités de la bibliothèque pour votre projet.

Chargement du format de fichier PDF

Vous devez charger un fichier PDF existant dans votre programme Python. Vous pouvez y parvenir avec la méthode PdfDocument.FromFile d'IronPDF.

pdfFileObj = PdfDocument.FromFile("content.pdf")
pdfFileObj = PdfDocument.FromFile("content.pdf")
PYTHON

"content.pdf" fait référence au fichier PDF que vous souhaitez lire. Ce fichier PDF chargé est stocké dans la variable pdfFileObj, utilisé en tant que lecteur PDF ou l'objet fichier PDF pdfFileObj.

Extraction de texte de l'ensemble du document PDF

Si vous souhaitez récupérer toutes les données textuelles du fichier PDF en une seule fois, vous pouvez utiliser la méthode ExtractAllText.

all_text = pdfFileObj.ExtractAllText()
all_text = pdfFileObj.ExtractAllText()
PYTHON

La méthode ExtractAllText est utilisée ici à des fins de démonstration. Cette méthode extrait tout le texte du fichier PDF et le stocke dans une variable appelée all_text.

Extraction de texte d'une page spécifique du PDF

IronPDF permet l'extraction de texte d'une page spécifique en utilisant la méthode ExtractTextFromPage. Cette méthode est utile lorsque vous avez besoin de texte de certaines pages seulement.

page_2_text = pdfFileObj.ExtractTextFromPage(1)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
PYTHON

Ici, nous extrayons le texte de la deuxième page, correspondant à un index de 1.

Initialiser un fichier texte pour écrire le texte extrait

with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
PYTHON

Ouvrez un fichier nommé "extracted_text.txt" pour enregistrer les données textuelles. La fonction intégrée open de Python est utilisée pour cela, en définissant le mode du fichier sur "write" ("w"), avec encoding='utf-8' pour gérer les caractères Unicode.

Parcourir chaque page pour extraire du texte ligne par ligne

for i in range(0, pdfFileObj.get_Pages().Count):
for i in range(0, pdfFileObj.get_Pages().Count):
PYTHON

Le code ci-dessus parcourt chaque page du fichier PDF en utilisant get_Pages().Count d'IronPDF pour obtenir le nombre total de pages.

Extraire du texte et le segmenter en lignes

page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
PYTHON

Pour chaque page, la méthode ExtractTextFromPage est utilisée pour obtenir tout le texte, puis la méthode split de Python est utilisée pour le diviser en lignes. Cela donne une liste de lignes que l'on peut parcourir.

Écrire les lignes extraites dans le fichier texte

for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')
for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')
PYTHON

Ici, le code itère à travers chaque ligne dans la liste de lignes, l'imprimant sur la console, et l'écrivant dans le fichier en ajoutant un caractère de nouvelle ligne (\n) après chaque ligne pour bien formater ce texte.

Code complet

Voici la mise en œuvre complète :

from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
    # Get the number of pages in the PDF document
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):
        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each line to the console
            # Write each line to the text document
            text_file.write(eachline + '\n')
from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
    # Get the number of pages in the PDF document
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):
        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each line to the console
            # Write each line to the text document
            text_file.write(eachline + '\n')
PYTHON

Sortie

Exécutez le fichier Python en écrivant la commande suivante dans le terminal de Visual Studio Code :

python main.py
python main.py
SHELL

Ce résultat s'affichera sur le terminal :

Comment extraire du texte d'un PDF ligne par ligne, Figure 3 : Le texte extrait Le texte extrait

C'est le texte récupéré du fichier PDF. Vous remarquerez également un document texte créé dans votre répertoire.

Comment extraire du texte d'un PDF ligne par ligne, Figure 4 : Le texte extrait stocké dans le fichier TXT Le texte extrait stocké dans le fichier TXT

Dans ce fichier texte, vous trouverez le format de texte qui a été récupéré, présenté séquentiellement.

Comment extraire du texte d'un PDF ligne par ligne, Figure 5 : Le contenu du fichier texte extrait Le contenu du fichier texte extrait

Conclusion

En conclusion, utiliser IronPDF et Python pour extraire du texte des fichiers PDF est une approche robuste et simple, que ce soit pour extraire du texte de l'ensemble du document, de pages spécifiques ou même ligne par ligne. Le bénéfice supplémentaire de sauvegarder ce texte récupéré dans un fichier texte vous permet de gérer et d'utiliser efficacement les données pour un traitement futur. IronPDF s'avère être un outil inestimable pour manipuler les PDF, offrant une gamme de fonctionnalités au-delà de la simple extraction de texte. Vous pouvez également convertir un PDF en texte en Python en utilisant IronPDF.

Additionally, creating interactive PDFs, completing and submitting interactive forms, merging and dividing PDF files, extracting text and images, searching text within PDF files, rasterizing PDFs to images, changing font size, border and background color, and converting PDF files are all tasks that the IronPDF toolkit can help with.

IronPDF n'est pas une bibliothèque Python open source. Si vous envisagez d'utiliser IronPDF pour vos projets, la licence pour le package commence à $799. Cependant, si vous avez besoin de clarifications sur l'investissement, IronPDF propose une version d'essai gratuite pour explorer ses fonctionnalités en profondeur.

Comment extraire du texte d'un PDF ligne par ligne, Figure 6 : La page de licence

Questions Fréquemment Posées

Comment puis-je extraire du texte d'un PDF en utilisant Python ?

Vous pouvez utiliser IronPDF pour extraire du texte de fichiers PDF en Python. Cela implique de charger le PDF avec la méthode PdfDocument.FromFile et d'itérer à travers les pages pour extraire le texte ligne par ligne.

Qu'est-ce qui est requis pour commencer à extraire du texte de PDFs en Python?

Pour extraire du texte de PDFs en Python, vous devez avoir Python installé, ainsi que la bibliothèque IronPDF, qui peut être installée via pip. Un IDE comme Visual Studio Code est recommandé pour écrire et exécuter vos scripts.

IronPDF peut-il extraire du texte d'une page spécifique d'un PDF?

Oui, IronPDF vous permet d'extraire du texte d'une page spécifique d'un PDF en utilisant la méthode ExtractTextFromPage en spécifiant l'index de la page.

Comment puis-je enregistrer le texte extrait dans un fichier en Python?

Après avoir extrait le texte en utilisant IronPDF, vous pouvez l'enregistrer dans un fichier en écrivant les lignes de texte extraites dans un fichier texte en utilisant les méthodes de gestion de fichiers de Python.

Quelles fonctionnalités supplémentaires IronPDF offre-t-il en plus de l'extraction de texte?

IronPDF offre un large éventail de fonctionnalités incluant la création, la modification et la conversion de PDFs, la fusion et la division de documents PDF, l'extraction d'images et la conversion de PDFs vers d'autres formats de fichiers.

Comment puis-je licencier IronPDF dans mon projet Python?

Pour licencier IronPDF, définissez votre clé de licence dans le script Python en utilisant la propriété License.LicenseKey, ce qui débloque toutes les fonctionnalités de la bibliothèque.

Est-il possible d'essayer IronPDF avant d'acheter?

Oui, IronPDF offre une version d'essai qui vous permet d'évaluer ses fonctionnalités avant de décider d'acheter une licence complète.

Que dois-je faire si je rencontre des problèmes lors de l'extraction de texte PDF?

Assurez-vous qu'IronPDF est correctement installé et licencié, et que votre environnement Python est correctement configuré. Consultez la documentation ou les ressources de support pour résoudre les problèmes courants.

Puis-je convertir un PDF en image en utilisant IronPDF?

Oui, IronPDF fournit des fonctionnalités pour rasteriser des PDFs en images, vous permettant de convertir des documents entiers ou des pages spécifiques en fichiers image.

Comment exécuter un script Python pour l'extraction de texte de PDF?

Après avoir écrit votre script, vous pouvez l'exécuter en lançant python main.py dans le terminal de votre IDE, où main.py est le nom de votre fichier script.

Curtis Chau
Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Lire la suite