USO DE IRONPDF FOR PYTHON

Cómo convertir PDF a texto en Python (Tutorial)

Kannapat Udonpant

30 de junio, 2023

Actualizado 21 de septiembre, 2024

Este artículo demostrará cómo utilizar IronPDF for Python, una de las bibliotecas PDF más potentes, para extraer cualquier texto disponible en un documento PDF.

Cómo convertir PDF a texto en Python

Instale una biblioteca de Python para convertir PDF a texto
Cargar un documento PDF existente o crear uno nuevo
Utilice el método ExtractAllText para leer texto del archivo abierto
Utiliza otra sobrecarga del método para leer texto de página(s) específica(s).
Imprime el texto extraído en la consola o guárdalo en un archivo de texto

2.0 ¿Cómo extraer texto de un PDF con Python?

Instala la última versión de Python desde la página de descarga de Python
Abrir cualquier herramienta IDE para Python
Instalar el tiempo de ejecución de .NET Core
Instale la biblioteca IronPDF for Python o descárguela desde la página de descarga de PyPI
Extraer texto del PDF

2.1 ¿Qué es IronPDF for Python?

Resulta sencillo integrar la biblioteca IronPDF en Python, ya que se trata de un lenguaje mucho más dinámico que otros y permite a los desarrolladores crear interfaces gráficas de usuario de forma rápida y sencilla. Tiene una plétora de herramientas preinstaladas, incluyendo PyQT, wxWidgets, kivy, y numerosos paquetes y bibliotecas adicionales, todos los cuales pueden ser utilizados para crear de forma rápida y segura una interfaz gráfica de usuario totalmente completa.

IronPDF for Python es una biblioteca extremadamente eficaz, especialmente útil para el desarrollo web. La disponibilidad de tantos paradigmas de desarrollo web en Python, como Django, Flask y Pyramid, tiene parte de culpa. Estos marcos han sido utilizados por numerosos sitios web y servicios en línea, como Reddit, Mozilla y Spotify.

2.2 Características de IronPDF

Un archivo PDF puede crearse desde una variedad de fuentes, incluyendo sitios web HTML, HTML5, ASP y PHP. Además de los archivos HTML, también es posible convertir archivos de imagen a PDF.
IronPDF te permite crear documentos PDF interactivos, completar y enviar formularios interactivos, dividir y combinar archivos PDF, extraer texto e imágenes de archivos PDF, buscar ciertas palabras dentro de un archivo PDF, rasterizar páginas PDF a imágenes, convertir PDF a HTML y imprimir archivos PDF.
IronPDF puede abrir archivos PDF e imprimirlos desde una URL. Además, permite a los agentes de usuario iniciar sesión detrás de formularios de inicio de sesión HTML, proxies, cookies, cabeceras HTTP, credenciales de inicio de sesión de red personalizadas, variables de formulario y agentes de usuario.
Las imágenes pueden extraerse de los documentos con IronPDF.
Con IronPDF, es muy fácil agregar encabezados y pies de página, texto e imágenes, marcadores y marcas de agua, y más a los documentos.
Es posible combinar y separar páginas utilizando un documento nuevo o existente mediante IronPDF.
Sin utilizar un visor Acrobat, los documentos pueden convertirse en objetos PDF.
Se puede utilizar un archivo CSS para crear un documento PDF.
La creación de documentos es posible utilizando archivos CSS de tipo multimedia.

2.3 Importar la biblioteca IronPDF

Para importar IronPDF, incluya las siguientes sentencias import al principio de los archivos fuente en los que se utilizará IronPDF:

from ironpdf import *

from ironpdf import *

PYTHON

2.4 Establecer la clave de licencia (si es necesario)

Aunque IronPDF for Python es de uso gratuito, marca con agua los archivos PDF con un fondo de mosaico para los usuarios gratuitos. Debe proporcionar a la biblioteca una clave de licencia legítima para poder utilizar IronPDF para crear PDF sin marcas de agua. En el siguiente fragmento de código se muestra cómo configurar la biblioteca con una clave de licencia:

License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"

License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"

PYTHON

Antes de crear archivos PDF o realizar cambios en su contenido, asegúrese de que la clave de licencia está configurada. El método LicenseKey debe ser llamado antes de cualquier otra línea de código. Para obtener una clave de licencia de prueba gratuita, visite la página de licencias.

2.5 Establecer archivos de registro

Un archivo de texto llamado "Default" puede almacenar los mensajes de registro producidos por Custom.log dentro del directorio del script Python. El fragmento de código a continuación se puede usar para establecer la propiedad LogFilePath y personalizar el nombre y la ubicación del archivo de registro:

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All

PYTHON

3.0 Extraer texto PDF con IronPDF

La biblioteca IronPDF for Python puede convertir páginas PDF en objetos PDF y permite extraer texto de archivos PDF, incluidos archivos PDF escaneados. He aquí un ejemplo que muestra cómo leer un PDF existente utilizando IronPDF.

El primer método consiste en extraer todo el texto disponible en un PDF; A continuación se ofrece una muestra del código.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)

PYTHON

Como se ilustra en el código anterior, el método FromFile es un objeto lector de PDF que carga el archivo PDF existente y lo convierte en objetos de documento PDF. Este objeto puede utilizarse para leer el texto y las imágenes disponibles en las páginas PDF. El objeto proporciona un método llamado ExtractAllText que extrae cada fragmento de texto de todo el archivo PDF, manteniendo el texto en una cadena que puede ser procesada. Y luego usa la función print para mostrar el texto.

Cómo convertir PDF a texto en Python (Tutorial), Figura 1: Mostrando el texto

Mostrando el texto

El ejemplo de código para el segundo método que se puede utilizar para página por página, la extracción de texto de un archivo PDF. Se proporciona a continuación.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)

PYTHON

El método FromFile se utiliza para cargar el archivo PDF desde un archivo existente y convertirlo en un objeto de archivo PDF, como se muestra en el código anterior. Un método en el objeto de página PDF llamado ExtractTextFromPage recupera todo el texto de una página en un archivo PDF. Se debe proporcionar el número de página como parámetro para extraer el texto de esa página en particular. Luego, después de extraer el texto, page_text puede usarse para contener la información que se puede procesar.

Consulta más ejemplos para extraer texto de un PDF.

4.0 Conclusión

La biblioteca IronPDF, por el contrario, ofrece fuertes medidas de seguridad para reducir los riesgos potenciales. No está adaptado a ningún navegador y funciona con todos los que se utilizan habitualmente. IronPDF permite a los programadores producir y leer fácilmente archivos PDF con sólo unas pocas líneas de código. La biblioteca IronPDF ofrece una serie de opciones de licencia, incluida una licencia gratuita para desarrolladores y licencias de desarrollo adicionales que pueden adquirirse, para satisfacer las necesidades de los distintos desarrolladores.

IronPDF incluye una licencia perpetua, una garantía de devolución del dinero de 30 días, un año de soporte de software y opciones de actualización. No hay gastos adicionales después de la compra inicial. Estas licencias se pueden utilizar en entornos de desarrollo, ensayo y producción. Aprende más sobre licencias de productos.

Descargue el producto de software.

Kannapat Udonpant

Chatea con el equipo de ingeniería ahora

Ingeniero de software

Antes de convertirse en ingeniero de software, Kannapat realizó un doctorado en Recursos Medioambientales en la Universidad de Hokkaido (Japón). Mientras cursaba su licenciatura, Kannapat también se convirtió en miembro del Laboratorio de Robótica Vehicular, que forma parte del Departamento de Ingeniería de Bioproducción. En 2022, aprovechó sus conocimientos de C# para unirse al equipo de ingeniería de Iron Software, donde se centra en IronPDF. Kannapat valora su trabajo porque aprende directamente del desarrollador que escribe la mayor parte del código utilizado en IronPDF. Además del aprendizaje entre iguales, Kannapat disfruta del aspecto social de trabajar en Iron Software. Cuando no está escribiendo código o documentación, Kannapat suele jugar con su PS5 o volver a ver The Last of Us.

< ANTERIOR
Cómo ver archivos PDF en Python