Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
Este artículo mostrará cómo extraer elementos de texto de documentos PDF con la ayuda de la biblioteca IronPDF for Python.
Python es un lenguaje de programación que permite a los desarrolladores crear interfaces gráficas de usuario de forma rápida y sencilla. En comparación con otros lenguajes, Python también es mucho más dinámico para los programadores. Por ello, añadir la biblioteca IronPDF a Python es un proceso sencillo. Una multitud de herramientas preinstaladas, incluyendo PyQt, wxWidgets, Kivy, y muchos paquetes adicionales y bibliotecas de Python, se pueden utilizar para construir de forma rápida y segura una interfaz gráfica de usuario totalmente completa. IronPDF incorpora Python y también permite la integración de funciones de otros marcos, como .NET Core.
IronPDF facilita el desarrollo web. La razón principal es la adopción generalizada de paradigmas de desarrollo web en Python como Django, Flask y Pyramid. Reddit, Mozilla y Spotify son sólo algunos de los sitios web y servicios en línea que han utilizado estos frameworks.
Asegúrate de que Python está instalado en tu ordenador. Para descargar e instalar la versión más reciente de Python compatible con su sistema operativo, vaya a la direcciónSitio web oficial de Python. Crea un entorno virtual una vez instalado Python para separar las necesidades de tu proyecto. Cree y gestione entornos virtuales con el módulo venv
para dotar a su proyecto de conversión de un lugar de trabajo ordenado y separado.
Para esta demostración, se recomienda PyCharm como IDE para desarrollar código Python.
Después de iniciar el IDE PyCharm, seleccione "Nuevo proyecto".
PyCharm
Al seleccionar "Nuevo proyecto" se abrirá una nueva ventana que le permitirá establecer la ubicación y el entorno del proyecto. Esto puede verse en la siguiente imagen.
**Nuevo proyecto
Después de elegir la ubicación del proyecto y la ruta del entorno, haga clic en el botón Crear para iniciar un nuevo proyecto. A continuación, el programa se puede crear en una nueva ventana que se abrirá como resultado. Para esta lección se utiliza Python 3.9.
Crear proyecto Python
La biblioteca de Python IronPDF utiliza en gran medida .NET 6.0. Como resultado, el tiempo de ejecución de .NET 6.0 debe estar instalado en su ordenador para poder utilizar IronPDF for Python. Puede que sea necesario instalar .NET para que los usuarios de Linux y Mac puedan utilizar este módulo de Python. Visita esta páginapágina de descarga de Microsoft para obtener el entorno de ejecución necesario.
Para generar, modificar y abrir archivos con extensión ".pdf", es necesario instalar el paquete "ironpdf". Abra una ventana de terminal e introduzca el siguiente comando para instalar el paquete en PyCharm:
:PackageInstall
La instalación del paquete ironpdf
se muestra en la siguiente captura de pantalla.
Instalar IronPDF
Es posible extraer texto de archivos PDF con la ayuda de las bibliotecas IronPDF. IronPDF ofrece varios métodos de extracción de texto. El primer método consiste en recuperar todo el contenido de la página como una única cadena. La segunda estrategia consiste en revisar el contenido página por página, empezando por la primera. Los archivos PDF existentes pueden investigarse utilizando la biblioteca IronPDF. El siguiente fragmento de código muestra cómo utilizar IronPDF para inspeccionar archivos PDF activos.
Hay dos opciones para extraer información de un PDF:
Extracción página a página del PDF
Convertir todo el PDF en texto
El archivo PDF de muestra para este artículo está disponible a continuación.
PDF de entrada
El código de ejemplo que se proporciona a continuación muestra cómo obtener datos de un archivo PDF utilizando el número de página.
from ironpdf import *
# PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
if('Name' in _data):
print(_data)
El fragmento de código muestra cómo leer un archivo PDF y construir un objeto PDF utilizando la función FromFile
. Este objeto puede utilizarse para acceder al texto y las imágenes del PDF. Al pasar el número de página como parámetro a la función ExtractTextFromPage
, se puede recuperar el texto de una página específica. Este método devuelve una cadena que contiene todas las palabras de la página elegida. A continuación, utiliza la función split
de Python para dividir todas las líneas nuevas del texto extraído. A continuación, comprueba si cada línea del texto extraído contiene las palabras clave necesarias. Si la palabra clave coincide, mostrará la línea específica en el símbolo del sistema. En caso contrario, ignorará esa línea y pasará a la siguiente. La salida para la extracción de texto aparecerá como se muestra a continuación.
El siguiente ejemplo de código muestra el primer método para obtener de forma rápida y sencilla todo el contenido del PDF como una cadena.
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
if('Name' in _data):
print(_data)
El código de ejemplo anterior muestra cómo utilizar la función FromFile
para leer un PDF desde una ruta de archivo existente y convertirlo en un objeto de archivo PDF. Como resultado, podemos utilizar este objeto lector de PDF para ver el texto y las imágenes del PDF. La función ExtractAllText
del objeto se utilizará para extraer datos del PDF en texto plano, convertirlos en una cadena y utilizar una lógica similar a la anterior para encontrar la palabra clave específica y mostrar el resultado en el terminal. Los resultados se muestran del siguiente modo.
Salida
El código/salida anterior muestra que el documento PDF dado contiene tanto el nombre como la edad, pero el resultado muestra sólo el nombre disponible en el documento PDF.
La biblioteca IronPDF ofrece sólidos mecanismos de seguridad para reducir las amenazas y garantizar la seguridad de los datos. No está restringido a ningún navegador y es compatible con todos los que se utilizan habitualmente. Con sólo unas pocas líneas de código, los programadores pueden producir y leer rápidamente archivos PDF utilizando IronPDF. La biblioteca IronPDF ofrece una serie de opciones de licencia, incluida una licencia gratuita para desarrolladores y licencias de desarrollo adicionales que pueden adquirirse, para satisfacer las diversas demandas de los desarrolladores.
El precio incluye una licencia perpetua, una garantía de devolución del dinero de 30 días, un año de mantenimiento del software y opciones de actualización.Paquete Lite. Estas licencias pueden utilizarse en todos los entornos. Además, IronPDF ofrece licencias gratuitas con algunas restricciones de redistribución. Alicencia de prueba permite a los usuarios evaluar el producto sin marca de agua.
Por favor,ver las licencias IronPDF disponibles para más información sobre licencias comerciales.
9 productos API .NET para sus documentos de oficina