HERRAMIENTAS PDF DE PYTHON

Cómo leer archivos PDF en Python

Actualizado 3 de julio, 2023
Compartir:

Los PDF, o archivos en formato de documento portátil, se han convertido en un estándar universal para compartir documentos. Se utilizan mucho por su capacidad para conservar el diseño y el formato de un documento. Sin embargo, trabajar con archivos PDF utilizando lenguajes de programación como Python puede ser todo un reto. Este artículo presenta IronPDF, una biblioteca PDF de Python que nos permite realizar diversas operaciones con documentos PDF.

Biblioteca PDF Python IronPDF

IronPDF es un avanzado Biblioteca PDF de Python que facilita el trabajo con archivos de formato PDF. Proporciona una API fácil de usar para diversas operaciones con PDF. Puede leer y escribir archivos PDF, convertir archivos PDF a diferentes formatos, combinar varios archivos PDF y mucho más. También puede tratar objetos de página, extraer texto de todas las páginas del archivo PDF y rotar páginas PDF, entre otras funcionalidades.

Cómo leer archivos PDF en Python

  1. Instale la biblioteca PDF de Python con Pip.
  2. Importe la biblioteca PDF de Python en el script de Python.
  3. Aplique la clave de licencia de la biblioteca PDFReader Python.
  4. Carga cualquier documento PDF proporcionando la ruta del documento.
  5. Leer contenido PDF en la consola de Python.

Leer un archivo PDF con IronPDF

La lectura de un archivo PDF con IronPDF implica varios pasos. He aquí una sencilla guía para empezar:

Paso 1 Crear un entorno virtual en Visual Studio

Cuando se trabaja con Python, es crucial crear un entorno aislado conocido como entorno virtual. Este entorno le permite gestionar dependencias específicas del proyecto en el que está trabajando sin interferir con otros proyectos. Crear un entorno virtual es aún más sencillo en un entorno de desarrollo integrado. (IDE) como Visual Studio Code. Para ello, siga los pasos que se indican a continuación:

  1. Abra la carpeta en Visual Studio Code. Pulse Ctrl+Mayús+P para abrir la paleta de comandos. En la paleta de comandos, busque "Python: Crear entorno".

    Cómo leer archivos PDF en Python: Figura 1

  2. Seleccione la primera opción y, a continuación, elija "Venv" como tipo de entorno.

    Cómo leer archivos PDF en Python: Figura 2

  3. Después de eso, seleccione el intérprete de Python, y comenzará a crear el entorno virtual.

    Cómo leer archivos PDF en Python: Figura 3

    Ahora tienes tu espacio de trabajo aislado listo para tus scripts Python, asegurando que las dependencias del proyecto están confinadas dentro de este entorno.

    Cómo leer archivos PDF en Python: Figura 4

Paso 2 Instalar la biblioteca Python IronPDF

Con el entorno virtual configurado, está listo para instalar la biblioteca Python IronPDF. Puede instalarlo utilizando el instalador de paquetes de Python 'pip':

 pip install ironpdf

Paso 3 Instalar .NET 6.0

IronPDF for Python requiere la instalación del SDK .NET 6.0.

Descargue e instale el SDK .NET 6.0 de la página Sitio web de Microsoft .NET.

Paso 4 Importar IronPDF

Después de instalar correctamente IronPDF, el siguiente paso es importarlo a su script Python. La importación de la biblioteca hace que todas sus funciones y métodos estén disponibles para su uso en el script. Puede importar IronPDF utilizando la siguiente línea de código:

from ironpdf import *
PYTHON

Esta línea de código importa a su script todos los módulos, funciones y clases disponibles en la biblioteca IronPDF.

Paso 5 Aplicar clave de licencia

Para desbloquear completamente las capacidades de la biblioteca IronPDF, necesita aplicar una clave de licencia. Aplicar una clave de licencia es tan sencillo como asignar la clave a la propiedad LicenseKey de la clase License. He aquí cómo hacerlo:

License.LicenseKey = "License-Key-Here"
PYTHON

Sustituya "License-Key-Here" por su clave de licencia IronPDF real. Con la clave de licencia en su lugar, ahora está listo para aprovechar todo el potencial de la biblioteca IronPDF en sus scripts de Python.

Paso 6 Establecer ruta de registro

A continuación, configure el registro de las operaciones de IronPDF. Al establecer una ruta de registro personalizada, puede almacenar los registros de tiempo de ejecución que genera la biblioteca, lo que le ayudará a depurar y diagnosticar los problemas que puedan producirse durante la ejecución. A continuación te explicamos cómo configurarlo:

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

En este fragmento, Logger.EnableDebugging = True activa la depuración, Logger.LogFilePath = "Custom.log establece el archivo de registro de salida en "Custom.log", y Logger.LoggingMode = Logger.LoggingModes.All garantiza que se registren todos los tipos de información de registro.

Paso 7 Cargar documento PDF

Cargar un documento PDF con IronPDF es tan fácil como llamar a un método. El método PdfDocument.FromFile carga el documento PDF de la ruta dada en un objeto de archivo PDF. Sólo tiene que proporcionar la ruta del archivo PDF como cadena:

pdf = PdfDocument.FromFile("PDF B.pdf")
PYTHON

En este código, pdf se convierte en un objeto PdfDocument que representa el archivo PDF especificado.

Paso 8 Leer el contenido del archivo PDF

IronPDF proporciona un método llamado ExtractAllText() que ayuda para extraer contenido de texto del PDF documento. Esto resulta especialmente práctico cuando se necesita leer y analizar el contenido de un archivo PDF:

all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console
PYTHON

En este ejemplo, all_text contendrá todo el texto del archivo PDF del objeto pdf. Podrás leer contenidos PDF en la consola.

Cómo leer archivos PDF en Python: Figura 5

Paso 9 Cargar el segundo archivo PDF

Al igual que ha cargado el primer documento PDF, también puede cargar un segundo documento PDF. Esta función es útil cuando se desea manipular varios archivos PDF:

pdf_2 = PdfDocument.FromFile("PDF A.pdf")
PYTHON

En este código, pdf_2 es otro objeto PdfDocument que representa el segundo archivo PDF.

Paso 10 Fusionar ambos archivos

Una de las potentes funcionalidades de IronPDF es Fusionar varios archivos PDF en un único archivo PDF nuevo. Puede combinar fácilmente dos o más documentos PDF utilizando el método PdfDocument.Merge:

merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'
PYTHON

En este ejemplo, merged es un nuevo objeto PdfDocument que es el resultado de fusionar pdf y pdf_2. A continuación, el método SaveAs guarda este documento fusionado con el nombre "Fusionado.pdf".

Cómo leer archivos PDF en Python: Figura 6

Paso 11 Dividir el primer PDF

IronPDF también le permite dividir un documento PDF y extraer páginas específicas en nuevos archivos PDF. Para ello se utiliza el método CopyPage:

page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'
PYTHON

Aquí, page1doc es un nuevo objeto PdfDocument que contiene la primera página del documento pdf. Esta página se guarda como un PDF de salida llamado "Split1.pdf".

Cómo leer archivos PDF en Python: Figura 7

Paso 12 Aplicar marca de agua

La marca de agua es otra característica impresionante que ofrece IronPDF. Puede poner una marca de agua en su documento PDF con el texto o la imagen que desee. El método ApplyWatermark se utiliza para añadir una marca de agua al PDF representado por el objeto pdf.

pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
PYTHON

En este fragmento, ApplyWatermark aplica una marca de agua roja con el texto "SAMPLE" en el centro del PDF. A continuación, SaveAs guarda el documento con marca de agua como "Watermarked.pdf".

Compatibilidad con IronPDF

IronPDF es una versátil biblioteca Python compatible con una amplia gama de versiones de Python. Es compatible con todas las versiones modernas de Python a partir de Python 3.6. IronPDF no se limita a un único sistema operativo. Es independiente de la plataforma y, por tanto, puede utilizarse en diversos sistemas operativos. Ya sea Windows, Mac o Linux, IronPDF funciona a la perfección en todas estas plataformas. Esta compatibilidad multiplataforma es una gran ventaja, lo que convierte a IronPDF en la opción preferida de los desarrolladores, independientemente de sus preferencias de sistema operativo.

Conclusión

En conclusión, IronPDF es una excelente biblioteca Python que simplifica el tratamiento de documentos PDF. Si necesita fusionar varios PDF, extraer texto, dividir archivos PDF o aplicar marcas de agua, IronPDF tiene todo lo que necesita. Su compatibilidad con múltiples plataformas y su facilidad de uso la convierten en una valiosa herramienta para cualquier desarrollador que trabaje con documentos PDF.

IronPDF ofrece un prueba gratuita. Este periodo de prueba le da una amplia oportunidad de experimentar con sus funcionalidades y evaluar si se ajusta a sus necesidades específicas. Una vez que lo hayas probado, puedes adquirir una licencia a partir de $749.

< ANTERIOR
Cómo crear un archivo PDF en Python
SIGUIENTE >
Cómo convertir HTML a PDF en Python

¿Listo para empezar? Versión: 2024.5 recién publicada

Instalación pip gratuita Ver licencias >