USO DE IRONPDF FOR PYTHON

Cómo extraer texto de un PDF línea por línea

Esta guía mostrará los matices del uso de IronPDF para extraer texto secuencialmente de documentos PDF en Python. Cubriremos todo, desde la configuración de tu entorno de Python hasta la ejecución de tu primer programa en Python para la extracción de texto de PDF.

Cómo extraer texto de un PDF línea por línea

  1. Descargue e instale la biblioteca PDF con Python para extraer texto de la línea del archivo PDF.

  2. Crea un proyecto Python en tu IDE preferido.

  3. Cargue el archivo PDF deseado para recuperar el contenido textual.

  4. Recorra el PDF y extraiga el texto secuencialmente utilizando la función de la biblioteca incorporada.

  5. Guarda el texto extraído en un archivo.

Biblioteca PDF Python IronPDF

IronPDF es una herramienta útil que te permite trabajar con archivos PDF en Python. Piense en él como un útil asistente que hace accesible la lectura, creación y edición de archivos PDF. Tanto si su objetivo es extraer contenido de un documento PDF, incluir información nueva o transformar una página web en formato PDF, IronPDF ofrece soluciones integrales. Es un paquete de software de pago, pero ofrecen una versión de prueba para que lo pruebes antes de comprometerte a comprarlo.

Antes de sumergirte en el script, es esencial que configures tu entorno Python. Esta guía paso a paso le ayudará a configurar su entorno, crear un nuevo proyecto Python en Visual Studio Code y establecer la configuración del entorno de la biblioteca IronPDF.

Descargar e instalar Python: Si no has instalado Python, descarga la versión más reciente desde el sitio web oficial de Python. Siga las instrucciones de instalación de su sistema operativo específico.

Verificar la Instalación de Python: Abre tu terminal o símbolo del sistema y escribe python --version. Este comando debería imprimir la versión de Python instalada, confirmando que la instalación se ha realizado correctamente.

Actualizar pip: Pip es el instalador de paquetes de Python. Asegúrate de que esté actualizado ejecutando pip install --upgrade pip.

Creación de un nuevo proyecto de Python en Visual Studio Code

Descargar Visual Studio Code: Si no lo tienes, descárgalo desde el sitio web oficial.

Instalar la extensión de Python: Abre Visual Studio Code y dirígete al Marketplace de Extensiones. Busca la extensión Python de Microsoft e instálala.

Crear una Nueva Carpeta: Crea una nueva carpeta donde desees alojar tu proyecto de Python. Llámalo algo relevante, como PDF_Text_Extractor.

Abrir la Carpeta en VS Code: Arrastra la carpeta a Visual Studio Code o utiliza la opción de menú Archivo > Abrir Carpeta para abrir la carpeta.

Crear un archivo Python: Haz clic derecho en el panel de Explorador de VS Code y elige Nuevo archivo. Nombra el archivo main.py o algo similar. Este archivo contendrá su programa Python.

Cómo extraer texto de PDF línea por línea, Figura 1: Crear un nuevo archivo de Python en Visual Studio Code

Crear un nuevo archivo Python en Visual Studio Code

Requisitos y configuración de la biblioteca IronPDF

IronPDF es esencial para recuperar contenido textual de los PDF. A continuación te explicamos cómo instalarlo:

Abrir Terminal en VS Code: Puedes abrir un terminal dentro de VS Code yendo a Terminal > Nuevo Terminal.

Instalar IronPDF: En el terminal, ejecute lo siguiente para instalar la última versión de IronPDF:

 pip install ironpdf

Este proceso recupera e instala la biblioteca IronPDF junto con los módulos necesarios.

Cómo extraer texto de PDF línea por línea, Figura 2: Instalar el paquete IronPDF

Instalar el paquete IronPDF

¡Y ahí lo tienes! Ahora ha configurado correctamente su entorno Python, ha creado un nuevo proyecto en Visual Studio Code y ha instalado la biblioteca IronPDF.

Extraer texto de un PDF línea por línea

Aplicación de la clave de licencia

Antes de continuar, asegúrese de aplicar su clave de licencia IronPDF.

from ironpdf import PdfDocument

License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
py
PYTHON

Reemplace YOUR-LICENSE-KEY-HERE con su clave de licencia real de IronPDF. Esta licencia le permite desbloquear todas las funciones de la biblioteca para su proyecto.

Cargar el formato de archivo PDF

Necesita cargar un archivo PDF existente en su programa Python. Puedes lograr esto con el método PdfDocument.FromFile de IronPDF.

pdfFileObj = PdfDocument.FromFile("content.pdf")
py
PYTHON

"contenido.pdf" se refiere al archivo PDF que desea leer. Este archivo PDF cargado se almacena en la variable pdfFileObj, utilizada como un lector de PDF o el objeto del archivo PDF pdfFileObj.

Extraer texto de todo el documento PDF

Si deseas capturar todos los datos de texto del archivo PDF de una sola vez, puedes usar el método ExtractAllText.

all_text = pdfFileObj.ExtractAllText()
py
PYTHON

El método ExtractAllText se utiliza aquí con fines de demostración. Este método extrae todo el texto del archivo PDF y lo almacena en una variable llamada all_text.

Extraer texto de una página PDF específica

IronPDF permite la extracción de texto de una página específica utilizando el método ExtractTextFromPage. Este método es útil cuando sólo necesita el texto de algunas páginas.

page_2_text = pdfFileObj.ExtractTextFromPage(1)
py
PYTHON

Aquí, estamos extrayendo texto de la segunda página, correspondiente a un índice de 1.

Inicialización de un archivo de texto para escribir texto extraído

with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
py
PYTHON

Abre un archivo llamado "extracted_text.txt" para guardar los datos de texto. La función open incorporada en Python se utiliza para esto, configurando el modo del archivo en "escribir" ("w"). Simplemente añada encoding='utf-8' como un argumento a la función open. Esta función debería permitir al documento de texto manejar caracteres Unicode como el que te estás encontrando.

Recorrer cada página para extraer el texto línea por línea

for i in range(0, pdfFileObj.get_Pages().Count):
py
PYTHON

El código anterior recorre cada página en el archivo PDF utilizando get_Pages().Count de IronPDF para obtener el número total de páginas.

Extraer texto y segmentarlo en líneas

page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
py
PYTHON

Para cada página, se utiliza el método ExtractTextFromPage para obtener todo el texto y luego usar el método split de Python para dividirlo en líneas. Esto resulta en una lista de líneas por las que se puede iterar.

Escribir las líneas extraídas en un archivo de texto

for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')
py
PYTHON

Aquí, el código itera a través de cada línea en la lista de líneas, imprimiéndola en la consola y escribiéndola en el archivo al agregar un carácter de nueva línea (\n) después de cada línea para dar el formato adecuado a este texto.

Código completo

He aquí la aplicación completa:

from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
    # Print number of pages in PDF file print count of pages present in PDF file
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):

        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each eachline to the console
            # Write each line to the text documents
            text_file.write(eachline + '\n')
py
PYTHON

Salida

Ejecute el archivo Python escribiendo el siguiente comando en el terminal de Visual Studio Code:

python main.py
python main.py
SHELL

Este resultado se mostrará en el terminal:

Cómo extraer texto de PDF línea por línea, Figura 3: El texto extraído

El texto extraído

Es el texto recuperado del archivo PDF. También observará que se ha creado un documento de texto en su directorio.

Cómo Extraer Texto De PDF Línea Por Línea, Figura 4: El texto extraído almacenado en archivo TXT

El texto extraído almacenado en el archivo TXT

En este archivo de texto, encontrará el formato de texto que se ha recuperado, presentado secuencialmente.

Cómo extraer texto de un PDF línea por línea, Figura 5: El contenido del archivo de texto extraído

El contenido del archivo de texto extraído

Conclusión

En conclusión, el uso de IronPDF y Python para extraer texto de archivos PDF es un enfoque robusto y sencillo, ya sea extrayendo texto de todo el documento, de páginas específicas o incluso línea por línea. La ventaja añadida de guardar este texto recuperado en un archivo de texto le permite gestionar y utilizar eficazmente los datos para futuros procesamientos. IronPDF resulta ser una herramienta inestimable en el manejo de PDF, ya que ofrece una serie de funcionalidades que van más allá de la mera extracción de texto. También puedes convertir PDF a Texto en Python usando IronPDF.

Además, crear PDFs interactivos, completar y enviar formularios interactivos, fusionar y dividir archivos PDF, extraer texto e imágenes, buscar texto dentro de archivos PDF, rasterizar PDFs a imágenes, cambiar el tamaño de la fuente, el borde y el color de fondo, y convertir archivos PDF son todas tareas con las que el kit de herramientas de IronPDF puede ayudar.

IronPDF no es una biblioteca Python de código abierto. Si estás considerando usar IronPDF para tus proyectos, la licencia para el paquete comienza en $749. Sin embargo, si necesita aclaración sobre la inversión, IronPDF ofrece una prueba gratuita para explorar sus características a fondo.

Cómo extraer texto de PDF línea por línea, Figura 6: La página de licencias

Chaknith Bin
Ingeniero de software
Chaknith trabaja en IronXL e IronBarcode. Tiene una gran experiencia en C# y .NET, ayudando a mejorar el software y a apoyar a los clientes. Sus conocimientos de las interacciones con los usuarios contribuyen a mejorar los productos, la documentación y la experiencia general.
< ANTERIOR
Cómo extraer datos de un PDF en Python
SIGUIENTE >
Cómo anotar fácilmente PDFs en Python usando IronPDF

¿Listo para empezar? Versión: 2025.5 acaba de salir

Ver licencias >