USO DE IRONPDF FOR PYTHON

Cómo extraer texto específico de un PDF en Python

Regan Pun

2 de agosto, 2023

Actualizado 21 de septiembre, 2024

Este artículo mostrará cómo extraer elementos de texto de documentos PDF con la ayuda de la biblioteca IronPDF for Python.

IronPDF

Python es un lenguaje de programación que permite a los desarrolladores crear interfaces gráficas de usuario de forma rápida y sencilla. En comparación con otros lenguajes, Python también es mucho más dinámico para los programadores. Por ello, añadir la biblioteca IronPDF a Python es un proceso sencillo. Una multitud de herramientas preinstaladas, incluyendo PyQt, wxWidgets, Kivy, y muchos paquetes adicionales y bibliotecas de Python, se pueden utilizar para construir de forma rápida y segura una interfaz gráfica de usuario totalmente completa. IronPDF incorpora Python y también permite la integración de funciones de otros marcos, como .NET Core.

IronPDF facilita el desarrollo web. La razón principal es la adopción generalizada de paradigmas de desarrollo web en Python como Django, Flask y Pyramid. Reddit, Mozilla y Spotify son sólo algunos de los sitios web y servicios en línea que han utilizado estos frameworks.

Características de IronPDF

Con IronPDF, los archivos PDF pueden sercreado a partir de diversas fuentesla traducción incluye HTML, HTML5, ASPX y Razor/MVC View. Ofrece la posibilidad deconvertir páginas HTML yimágenes en archivos PDF.
Creación de PDFs interactivos, completando y enviandoformularios interactivos, dividir ycombinando Archivos PDF,extracción de texto e imágenes, búsqueda de texto dentro de archivos PDF, rasterizar PDFs a imágenesentre las actividades en las que puede ayudar el kit de herramientas IronPDF se encuentran el cambio del tamaño de las fuentes, el procesamiento del lenguaje natural mediante ChatGPT y la conversión de la propiedad de las páginas PDF.
IronPDF ofrece validación de formularios de inicio de sesión HTML con soporte para agentes de usuario, proxies, cookies, cabeceras HTTP y variables de formulario.
IronPDF utiliza nombres de usuario y contraseñas para proporcionar a los usuarios acceso adocumentos protegidos.
Con unas pocas líneas de código, IronPDF puede imprimir un archivo PDF a partir de diversas fuentes, como una cadena, un flujo o una URL.

Configurar Python

Configuración del Entorno

Asegúrate de que Python está instalado en tu ordenador. Para descargar e instalar la versión más reciente de Python compatible con su sistema operativo, vaya a la direcciónSitio web oficial de Python. Crea un entorno virtual una vez instalado Python para separar las necesidades de tu proyecto. Cree y gestione entornos virtuales con el módulo venv para dotar a su proyecto de conversión de un lugar de trabajo ordenado y separado.

Nueva iniciativa en PyCharm

Para esta demostración, se recomienda PyCharm como IDE para desarrollar código Python.

Después de iniciar el IDE PyCharm, seleccione "Nuevo proyecto".

Cómo extraer texto específico de un PDF en Python, Figura 1: PyCharm

PyCharm

Al seleccionar "Nuevo proyecto" se abrirá una nueva ventana que le permitirá establecer la ubicación y el entorno del proyecto. Esto puede verse en la siguiente imagen.

Cómo extraer texto específico de un PDF en Python, Figura 2: Nuevo proyecto

**Nuevo proyecto

Después de elegir la ubicación del proyecto y la ruta del entorno, haga clic en el botón Crear para iniciar un nuevo proyecto. A continuación, el programa se puede crear en una nueva ventana que se abrirá como resultado. Para esta lección se utiliza Python 3.9.

Cómo extraer texto específico de un PDF en Python, Figura 3: Crear proyecto Python

Crear proyecto Python

Requisitos de la biblioteca IronPDF

La biblioteca de Python IronPDF utiliza en gran medida .NET 6.0. Como resultado, el tiempo de ejecución de .NET 6.0 debe estar instalado en su ordenador para poder utilizar IronPDF for Python. Puede que sea necesario instalar .NET para que los usuarios de Linux y Mac puedan utilizar este módulo de Python. Visita esta páginapágina de descarga de Microsoft para obtener el entorno de ejecución necesario.

Configuración de la biblioteca IronPDF

Para generar, modificar y abrir archivos con extensión ".pdf", es necesario instalar el paquete "ironpdf". Abra una ventana de terminal e introduzca el siguiente comando para instalar el paquete en PyCharm:

:PackageInstall

La instalación del paquete ironpdf se muestra en la siguiente captura de pantalla.

Cómo extraer texto específico de un PDF en Python, Figura 4: Instalar IronPDF

Instalar IronPDF

Extraer datos específicos de un archivo PDF

Es posible extraer texto de archivos PDF con la ayuda de las bibliotecas IronPDF. IronPDF ofrece varios métodos de extracción de texto. El primer método consiste en recuperar todo el contenido de la página como una única cadena. La segunda estrategia consiste en revisar el contenido página por página, empezando por la primera. Los archivos PDF existentes pueden investigarse utilizando la biblioteca IronPDF. El siguiente fragmento de código muestra cómo utilizar IronPDF para inspeccionar archivos PDF activos.

Hay dos opciones para extraer información de un PDF:

Extracción página a página del PDF
Convertir todo el PDF en texto
El archivo PDF de muestra para este artículo está disponible a continuación.
PDF de entrada

Extracción página por página del PDF

El código de ejemplo que se proporciona a continuación muestra cómo obtener datos de un archivo PDF utilizando el número de página.

from ironpdf import *

# PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

from ironpdf import *

# PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

PYTHON

El fragmento de código muestra cómo leer un archivo PDF y construir un objeto PDF utilizando la función FromFile. Este objeto puede utilizarse para acceder al texto y las imágenes del PDF. Al pasar el número de página como parámetro a la función ExtractTextFromPage, se puede recuperar el texto de una página específica. Este método devuelve una cadena que contiene todas las palabras de la página elegida. A continuación, utiliza la función split de Python para dividir todas las líneas nuevas del texto extraído. A continuación, comprueba si cada línea del texto extraído contiene las palabras clave necesarias. Si la palabra clave coincide, mostrará la línea específica en el símbolo del sistema. En caso contrario, ignorará esa línea y pasará a la siguiente. La salida para la extracción de texto aparecerá como se muestra a continuación.

Convertir todo el PDF en texto

El siguiente ejemplo de código muestra el primer método para obtener de forma rápida y sencilla todo el contenido del PDF como una cadena.

pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

PYTHON

El código de ejemplo anterior muestra cómo utilizar la función FromFile para leer un PDF desde una ruta de archivo existente y convertirlo en un objeto de archivo PDF. Como resultado, podemos utilizar este objeto lector de PDF para ver el texto y las imágenes del PDF. La función ExtractAllText del objeto se utilizará para extraer datos del PDF en texto plano, convertirlos en una cadena y utilizar una lógica similar a la anterior para encontrar la palabra clave específica y mostrar el resultado en el terminal. Los resultados se muestran del siguiente modo.

Cómo extraer texto específico de un PDF en Python, Figura 6: Resultado

Salida

El código/salida anterior muestra que el documento PDF dado contiene tanto el nombre como la edad, pero el resultado muestra sólo el nombre disponible en el documento PDF.

Conclusión

La biblioteca IronPDF ofrece sólidos mecanismos de seguridad para reducir las amenazas y garantizar la seguridad de los datos. No está restringido a ningún navegador y es compatible con todos los que se utilizan habitualmente. Con sólo unas pocas líneas de código, los programadores pueden producir y leer rápidamente archivos PDF utilizando IronPDF. La biblioteca IronPDF ofrece una serie de opciones de licencia, incluida una licencia gratuita para desarrolladores y licencias de desarrollo adicionales que pueden adquirirse, para satisfacer las diversas demandas de los desarrolladores.

El precio incluye una licencia perpetua, una garantía de devolución del dinero de 30 días, un año de mantenimiento del software y opciones de actualización.Paquete Lite. Estas licencias pueden utilizarse en todos los entornos. Además, IronPDF ofrece licencias gratuitas con algunas restricciones de redistribución. Alicencia de prueba permite a los usuarios evaluar el producto sin marca de agua.

Por favor,ver las licencias IronPDF disponibles para más información sobre licencias comerciales.

Regan Pun

Chatea con el equipo de ingeniería ahora

Ingeniero de software

Regan se licenció en Ingeniería Electrónica por la Universidad de Reading. Antes de incorporarse a Iron Software, sus anteriores puestos de trabajo le obligaban a centrarse en tareas concretas; lo que más le gusta de Iron Software es la variedad de tareas que puede realizar, ya sea añadiendo valor a las ventas, el soporte técnico, el desarrollo de productos o el marketing. Le gusta entender cómo utilizan los desarrolladores la biblioteca de Iron Software y utilizar ese conocimiento para mejorar continuamente la documentación y desarrollar los productos.

< ANTERIOR
Cómo editar un archivo PDF en Python

SIGUIENTE >
Cómo aplanar un archivo PDF en Python