USO DE IRONPDF FOR PYTHON

Cómo extraer texto de un PDF línea por línea

Actualizado 28 de septiembre, 2024
Compartir:

Esta guía mostrará los matices del uso de IronPDF para extraer texto secuencialmente de documentos PDF en Python. Cubriremos todo, desde la configuración de tu entorno de Python hasta la ejecución de tu primer programa en Python para la extracción de texto de PDF.

Cómo extraer texto de un PDF línea por línea

  1. Descargue e instale la biblioteca PDF con Python para extraer texto de la línea del archivo PDF.

  2. Crea un proyecto Python en tu IDE preferido.

  3. Cargue el archivo PDF deseado para recuperar el contenido textual.

  4. Recorra el PDF y extraiga el texto secuencialmente utilizando la función de la biblioteca incorporada.

  5. Guarda el texto extraído en un archivo.

Biblioteca PDF Python IronPDF

IronPDF es una práctica herramienta que permite trabajar con archivos PDF en Python. Piense en él como un útil asistente que hace accesible la lectura, creación y edición de archivos PDF. Tanto si su objetivo es extraer contenido de un documento PDF, incluir información nueva o transformar una página web en formato PDF, IronPDF ofrece soluciones integrales. Es un paquete de software de pago, pero ofrecen una versión de prueba para que lo pruebes antes de comprometerte a comprarlo.

Antes de sumergirte en el script, es esencial que configures tu entorno Python. Esta guía paso a paso le ayudará a configurar su entorno, crear un nuevo proyecto Python en Visual Studio Code y establecer la configuración del entorno de la biblioteca IronPDF.

Descargue e instale Python: Si no ha instalado Python, descargue la versión más reciente de la página**Sitio web oficial de Python. Siga las instrucciones de instalación de su sistema operativo específico.

Compruebe la instalación de Python: Abra su terminal o símbolo del sistema y escriba python --version**. Este comando debería imprimir la versión de Python instalada, confirmando que la instalación se ha realizado correctamente.

Actualización de pip: Pip es el instalador de paquetes de Python. Asegúrese de que está actualizado ejecutando pip install --upgrade pip.

Creación de un nuevo proyecto de Python en Visual Studio Code

Descargar Visual Studio Code: Si no lo tienes, descárgalo desde el sitio web oficial.

Instale la extensión de Python: Abre Visual Studio Code y dirígete al Mercado de Extensiones. Busca la extensión Python de Microsoft e instálala.

Crea una nueva carpeta: Crea una nueva carpeta donde quieras alojar tu proyecto Python. Ponle un nombre relevante, como Extractor_de_Texto_PDF.

Abra la carpeta en VS Code: Arrastre la carpeta a Visual Studio Code o utilice la opción de menú Archivo > Abrir carpeta para abrir la carpeta.

Crear un Archivo Python: Haga clic con el botón derecho del ratón en el panel del Explorador de código VS y elija Nuevo archivo. Nombra el archivo main.py o algo similar. Este archivo contendrá su programa Python.

Cómo extraer texto de PDF línea por línea, Figura 1: Crear un nuevo archivo Python en Visual Studio Code

Crear un nuevo archivo Python en Visual Studio Code

Requisitos y configuración de la biblioteca IronPDF

IronPDF es esencial para recuperar contenido textual de los PDF. A continuación te explicamos cómo instalarlo:

Abrir Terminal en VS Code: Puedes abrir un terminal dentro de VS Code yendo a Terminal > Nuevo Terminal.

Instalar IronPDF: En el terminal, ejecute lo siguiente para instalar la última versión de IronPDF:

 pip install ironpdf

Este proceso recupera e instala la biblioteca IronPDF junto con los módulos necesarios.

Cómo extraer texto de un PDF línea por línea, Figura 2: Instalar el paquete de IronPDF

Instalar el paquete IronPDF

Y ahí lo tienen! Ahora ha configurado correctamente su entorno Python, ha creado un nuevo proyecto en Visual Studio Code y ha instalado la biblioteca IronPDF.

Extraer texto de un PDF línea por línea

Aplicación de la clave de licencia

Antes de continuar, asegúrese de aplicar su clave de licencia IronPDF.

from ironpdf import PdfDocument

License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
PYTHON

Sustituya "SU CLAVE DE LICENCIA AQUÍ" por su clave de licencia IronPDF real. Esta licencia le permite desbloquear todas las funciones de la biblioteca para su proyecto.

Cargar el formato de archivo PDF

Necesita cargar un archivo PDF existente en su programa Python. Puede conseguirlo con el método PdfDocument.FromFile de IronPDF.

pdfFileObj = PdfDocument.FromFile("content.pdf")
PYTHON

"contenido.pdf" se refiere al archivo PDF que desea leer. Este archivo PDF cargado se almacena en la variable pdfFileObj, utilizada como lector de PDF o el objeto de archivo PDF pdfFileObj.

Extraer texto de todo el documento PDF

Si desea obtener todos los datos de texto del archivo PDF a la vez, puede utilizar el método ExtractAllText.

all_text = pdfFileObj.ExtractAllText()
PYTHON

El método ExtractAllText se utiliza aquí con fines de demostración. Este método extrae todo el texto del archivo PDF y lo almacena en una variable llamada all_text.

Extraer texto de una página PDF específica

IronPDF permite la extracción de texto de una página específica mediante el método ExtractTextFromPage. Este método es útil cuando sólo necesita el texto de algunas páginas.

page_2_text = pdfFileObj.ExtractTextFromPage(1)
PYTHON

Aquí, estamos extrayendo texto de la segunda página, correspondiente a un índice de 1.

Inicialización de un archivo de texto para escribir texto extraído

with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
PYTHON

Abre un archivo llamado "extracted_text.txt" para guardar los datos de texto. La función incorporada open de Python se utiliza para esto, configurando el modo de archivo en "escribir".("w "). Basta con añadir encoding='utf-8' como argumento a la función open. Esta función debería permitir al documento de texto manejar caracteres Unicode como el que te estás encontrando.

Recorrer cada página para extraer el texto línea por línea

for i in range(0, pdfFileObj.get_Pages().Count):
PYTHON

El código anterior recorre cada página en el archivo PDF utilizando el método get_Pages de IronPDF.().Count` para obtener el número total de páginas.

Extraer texto y segmentarlo en líneas

page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
PYTHON

Para cada página, se utiliza el método ExtractTextFromPage para obtener todo el texto y luego usar el método split de Python para dividirlo en líneas. Esto resulta en una lista de líneas por las que se puede iterar.

Escribir las líneas extraídas en un archivo de texto

for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')
PYTHON

Aquí, el código recorre cada línea en la lista de líneas, imprimiéndola en la consola y escribiéndola en el archivo añadiendo un carácter de nueva línea.(\n) después de cada línea para formatear correctamente este texto.

Código completo

He aquí la aplicación completa:

from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
    # Print number of pages in PDF file print count of pages present in PDF file
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):

        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each eachline to the console
            # Write each line to the text documents
            text_file.write(eachline + '\n')
PYTHON

Salida

Ejecute el archivo Python escribiendo el siguiente comando en el terminal de Visual Studio Code:

python main.py

Este resultado se mostrará en el terminal:

Cómo extraer texto de PDF línea por línea, Figura 3: El texto extraído

El texto extraído

Es el texto recuperado del archivo PDF. También observará que se ha creado un documento de texto en su directorio.

Cómo extraer texto de un PDF línea por línea, Figura 4: El texto extraído almacenado en un archivo TXT

El texto extraído almacenado en un archivo TXT

En este archivo de texto, encontrará el formato de texto que se ha recuperado, presentado secuencialmente.

Cómo extraer texto de un PDF línea por línea, Figura 5: El contenido del archivo de texto extraído

El contenido del archivo de texto extraído

Conclusión

En conclusión, el uso de IronPDF y Python para extraer texto de archivos PDF es un enfoque robusto y sencillo, ya sea extrayendo texto de todo el documento, de páginas específicas o incluso línea por línea. La ventaja añadida de guardar este texto recuperado en un archivo de texto le permite gestionar y utilizar eficazmente los datos para futuros procesamientos. IronPDF resulta ser una herramienta inestimable en el manejo de PDF, ya que ofrece una serie de funcionalidades que van más allá de la mera extracción de texto. También puedeconvertir PDF a texto en Python utilizando IronPDF.

Además, crear PDF interactivos, completar y enviarformularios interactivos, fusión ydividiendo Archivos PDF,extracción de texto e imágenes, búsqueda de texto dentro de archivos PDF, rasterizar PDFs a imágenes, cambiar el tamaño de la fuente, el borde y el color de fondo, y convertir archivos PDF son todas tareas con las que el conjunto de herramientas IronPDF puede ayudar.

IronPDF no es una biblioteca Python de código abierto. Si está considerando utilizar IronPDF para sus proyectos, la licencia del paquete comienza en $749. No obstante, si necesita aclaraciones sobre la inversión, IronPDF ofrece unprueba gratuita para explorar a fondo sus características.

Cómo extraer texto de un PDF línea por línea, Figura 6: La página de licencias

< ANTERIOR
Cómo extraer datos de un PDF en Python
SIGUIENTE >
Cómo anotar fácilmente PDFs en Python usando IronPDF

¿Listo para empezar? Versión: 2024.11.1 acaba de salir

Instalación pip gratuita Ver licencias >