USO DE IRONPDF FOR PYTHON

Cómo analizar un archivo PDF en Python

Jordi Bardia

13 de septiembre, 2023

Actualizado 28 de septiembre, 2024

1.0 Introducción

Las bibliotecas modernas han simplificado la creación de PDFs. Al elegir una biblioteca para proyectos PDF, considere las capacidades de construcción, lectura y conversión para lograr una integración y rendimiento óptimos. Python ofrece herramientas como IronPDF que pueden analizar eficientemente PDFs existentes.

2.0 IronPDF

Python es un lenguaje de programación que permite a los desarrolladores construir rápida y fácilmente interfaces gráficas de usuario. Ofrece un mayor dinamismo a los programadores en comparación con otros lenguajes. Por lo tanto, integrar la biblioteca IronPDF con Python es un proceso sencillo.

Para crear de forma rápida y segura una interfaz gráfica de usuario totalmente funcional, los desarrolladores pueden utilizar varias herramientas preinstaladas, como PyQt, wxWidgets, Kivy y muchos otros paquetes y bibliotecas. Cabe señalar que IronPDF no es una biblioteca PDF puramente Python; en cambio, permite la inclusión de varias características de otros frameworks como .NET Core.

IronPDF simplifica el diseño y desarrollo web en Python, especialmente debido a la popularidad de paradigmas de desarrollo web en Python como Django, Flask y Pyramid. Sitios web y servicios en línea notables, como Reddit, Mozilla y Spotify, han utilizado estos marcos. Puede obtener más información sobre Python en IronPDF en la páginaSitio web de IronPDF for Python.

2.1 Características de IronPDF

IronPDF es capaz degenerando archivos PDFde varias fuentes, incluyendo HTML, HTML5, ASPX y Razor/MVC View. Ofrece funciones para crear PDF a partir de páginas HTML e imágenes.
El kit de herramientas de IronPDF ofrece una gama de herramientas para tareas como la creación de PDFs interactivos,completar y enviar formularios interactivos, dividir ycombinar Archivos PDF,extraer texto e imágenesdesde archivos PDF, buscar ciertas palabras dentro de un archivo PDF,rasterizar páginas PDF a imágenes, convertir PDF a HTML.
Con soporte para agentes de usuario, proxies, cookies, cabeceras HTTP y variables de forma, IronPDF permite la validación de formularios de inicio de sesión HTML.
*Acceso a documentos protegidosen IronPDF se concede mediante el uso de nombres de usuario y contraseñas.
IronPDF ayuda a generar archivos PDF yimprimircon solo unas pocas líneas de código desde varias fuentes como cadenas, flujos, URLs, etc.

3.0 Configuración de Python

3.1 Configuración del entorno

Asegúrese de que Python está instalado en su PC. Visite elSitio web oficial de Python para descargar e instalar la última versión de Python adecuada para su sistema operativo. Una vez instalado Python, configura un entorno virtual para aislar las dependencias de tu proyecto. Utilice el módulo "venv" para crear y gestionar entornos virtuales y dotar a su proyecto de conversión de un espacio de trabajo limpio e independiente.

3.2 Nuevo proyecto en PyCharm

Vamos a utilizar PyCharm, un IDE para escribir código Python, para esta demostración.

Haga clic en "Nuevo proyecto" después de iniciar el IDE de PyCharm.

Cómo analizar un archivo PDF en Python, Figura 1: La pantalla de bienvenida de PyCharm

La pantalla de bienvenida de PyCharm

Cuando seleccionas "Nuevo Proyecto", aparecerá una nueva ventana que te permitirá especificar la ubicación del proyecto y su entorno. Esta nueva ventana puede verse en la siguiente captura de pantalla.

Cómo analizar un archivo PDF en Python, Figura 2: La pantalla de nuevo proyecto en PyCharm

La nueva pantalla de proyecto en PyCharm

Haz clic en el botón Crear para iniciar un nuevo proyecto, después de configurar la ubicación del proyecto y la ruta del entorno. Esto abrirá una nueva ventana donde se puede desarrollar el programa. Este tutorial recomendó Python 3.9.

Cómo analizar un archivo PDF en Python, Figura 3: Un archivo principal abierto en PyCharm

Un archivo principal abierto en PyCharm

3.3 Requisitos de la biblioteca IronPDF

IronPDF, una biblioteca de Python, depende principalmente de .NET 6.0. Como resultado, para utilizar IronPDF for Python, tu PC debe tener instalado el runtime de .NET 6.0. Antes de que los usuarios de Linux y Mac puedan usar este módulo de Python, es posible que necesiten instalar .NET. Puede obtener el entorno de ejecución necesario en la páginaSitio web .NET.

3.4 Configuración de la biblioteca IronPDF

Es necesario instalar el paquete "ironpdf" para crear, editar y abrir archivos con extensión ".pdf". Para instalar el paquete en PyCharm, abra una ventana de terminal y escriba el siguiente comando:

pip install ironpdf

La captura de pantalla inferior muestra la configuración del paquete 'ironpdf'.

Cómo analizar un archivo PDF en Python, Figura 4: Un terminal que muestra la instalación de IronPDF usando pip

Una terminal mostrando la instalación de IronPDF usando pip

4.0 Analizar PDF con IronPDF

Con la ayuda de las bibliotecas de IronPDF, es posible extraer texto de archivos PDF. IronPDF ofrece varias técnicas para la extracción de texto. El primer enfoque consiste en recuperar todo el contenido de la página como una única cadena. El segundo enfoque consiste en leer el contenido página por página, empezando por la primera. El siguiente fragmento de código muestra un patrón para inspeccionar archivos PDF actuales utilizando IronPDF.

Hay dos métodos disponibles para extraer datos de un PDF:

Extracción del PDF por páginas.
Extraer todo el PDF como texto.
A continuación se muestra el archivo PDF que vamos a utilizar para este artículo. Tiene dos páginas.
Un PDF con el número de página en la parte superior de cada página

4.0.1 EXTRACCIÓN DE TEXTO POR PÁGINAS

El código de ejemplo que se proporciona a continuación muestra cómo utilizar el número de página para recuperar datos de un archivo PDF.

from ironpdf import *

pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)

from ironpdf import *

pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)

PYTHON

El fragmento de código muestra el uso de la función FromFile para leer un archivo PDF y crear un objeto de documento PDF. Este objeto permite el acceso a textos e imágenes dentro del PDF. Para extraer el texto de una página en particular, se puede utilizar el método ExtractTextFromPage proporcionando el número de página como un parámetro. Este método devolverá una cadena que contiene todas las palabras de la página especificada. El resultado se mostrará como se indica a continuación.

Cómo analizar un archivo PDF en Python, Figura 6: Una captura de pantalla del terminal con la salida de texto Page 1

Una captura de pantalla del terminal con texto de salida "Página 1"

El rectángulo que aparece resaltado en el resultado es el texto extraído del archivo PDF en la página número 1, cuyo índice es 0.

4.0.2 EXTRAER DE TODA LA PÁGINA

El primer enfoque para obtener rápida y fácilmente todo el contenido del PDF como una cadena se muestra en el ejemplo de código que sigue.

# creating a PDF file object
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)

# creating a PDF file object
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)

PYTHON

El código de ejemplo mostrado arriba explica cómo leer un PDF desde una ruta de archivo existente y convertirlo en un objeto de archivo PDF utilizando la función FromFile. El texto plano del PDF se extraerá y convertirá en una cadena usando la función ExtractAllText del objeto y se imprimirá el texto extraído en el terminal. El resultado se mostrará como se indica a continuación.

Cómo analizar un archivo PDF en Python, Figura 7: Una captura de pantalla del terminal con salida de texto Página 1 y Página 2

Una captura de pantalla del terminal con salida de texto "Página 1" y "Página 2"

Los recuadros rectangulares que aparecen resaltados en el resultado contienen los datos del texto extraído de todas las páginas del archivo PDF.

Podemos crear PDFs usando C# con la ayuda de IronPDF. Para obtener más información sobre IronPDF, visite la páginaSitio web de IronPDF.

5.0 Conclusión

Para minimizar los riesgos y garantizar la protección de los datos, la biblioteca IronPDF ofrece sólidas medidas de seguridad. Es compatible con todos los navegadores de uso común y no se limita a ninguno. IronPDF permite a los programadores crear y leer fácilmente archivos PDF con sólo unas pocas líneas de código. Para adaptarse a las distintas necesidades de los desarrolladores, la biblioteca IronPDF ofrece diversas opciones de licencia, incluida una licencia de desarrollador gratuita y licencias de desarrollo adicionales que pueden adquirirse.

El paquete $749 Lite incluye una licencia perpetua, una garantía de devolución del dinero de 30 días, un año de soporte de software y posibilidades de actualización. Más allá de la primera compra, no hay gastos adicionales. Tanto los entornos de producción como los de ensayo y desarrollo hacen uso de estas licencias. IronPDF también ofrece licencias gratuitas con algunas limitaciones de tiempo y redistribución. Durante el periodo de prueba gratuito, los usuarios pueden probar el producto en uso real sin marca de agua. Para obtener más información sobre el coste y la licencia de la versión de prueba de IronPDF, visite la páginaPágina de licencias de IronPDF.

Jordi Bardia

Chatea con el equipo de ingeniería ahora

Ingeniero de software

Jordi es más competente en Python, C# y C++, cuando no está aprovechando sus habilidades en Iron Software; está programando juegos. Compartiendo responsabilidades en las pruebas de productos, el desarrollo de productos y la investigación, Jordi añade un inmenso valor a la mejora continua de los productos. La variada experiencia le mantiene desafiado y comprometido, y dice que es uno de sus aspectos favoritos de trabajar con Iron Software. Jordi creció en Miami, Florida, y estudió Informática y Estadística en la Universidad de Florida.

< ANTERIOR
Cómo dividir archivos PDF en Python

SIGUIENTE >
Cómo extraer datos de facturas de un PDF en Python