USO DE IRONPDF FOR PYTHON

Cómo convertir PDF a texto en Python (Tutorial)

Actualizado junio 30, 2023
Compartir:

1.0 ¿Qué es un PDF?

Cuando se trata de compartir documentos, el Formato de Documento Portátil creado por Adobe (PDF) es crucial para preservar la integridad de los contenidos ricos en texto y estéticamente bellos. En la mayoría de los casos, se necesita un programa específico para acceder a los archivos PDF en línea. Hoy en día, muchas publicaciones digitales importantes requieren archivos PDF. Muchas empresas utilizan archivos PDF para crear documentación especializada y facturas. IronPDF Python es una de las bibliotecas PDF más potentes, que permite extraer cualquier texto disponible en un documento PDF.

2.0 ¿Cómo extraer texto de un PDF con Python?

  1. Instalar la última versión de python aquí

  2. Abra cualquier herramienta IDE para python

  3. Instalar el tiempo de ejecución de Dot Net Core

  4. Instale la biblioteca python IronPDF o descárguela de aquí

  5. Extraer texto del PDF

2.1 ¿Qué es IronPDF for Python?

Integrar la biblioteca IronPDF en Python es muy sencillo, ya que se trata de un lenguaje mucho más dinámico que otros y permite a los desarrolladores crear interfaces gráficas de usuario de forma rápida y sencilla. Tiene una plétora de herramientas preinstaladas, incluyendo PyQT, wxWidgets, kivy, y numerosos paquetes y bibliotecas adicionales, todos los cuales pueden ser utilizados para crear de forma rápida y segura una interfaz gráfica de usuario totalmente completa.

IronPDF Python es una biblioteca extremadamente eficaz, especialmente útil para el desarrollo web. La disponibilidad de tantos paradigmas de desarrollo web en Python, como Django, Flask y Piramyd, es en parte culpable de ello. Estos marcos han sido utilizados por numerosos sitios web y servicios en línea, como Reddit, Mozilla y Spotify.

2.2 Características de IronPDF

  • Un archivo PDF puede crearse a partir de diversas fuentes, como sitios web HTML, HTML5, ASP y PHP. Además de archivos HTML, podemos convertir archivos de imagen a PDF.
  • IronPDF permite crear documentos PDF interactivos, rellenar y enviar formularios interactivos, dividir y combinar archivos PDF, extraer texto e imágenes de archivos PDF, buscar determinadas palabras dentro de un archivo PDF, rasterizar páginas PDF a imágenes, convertir PDF a HTML e imprimir archivos PDF.
  • IronPDF puede abrir archivos PDF e imprimir desde una URL. Además, permite el inicio de sesión de agentes de usuario detrás de formularios de inicio de sesión HTML, proxies, cookies, cabeceras HTTP, credenciales de inicio de sesión de red personalizadas, variables de formulario y agentes de usuario.
  • Las imágenes pueden extraerse de los documentos con IronPDF.
  • Con IronPDF, podemos añadir encabezados, pies de página, texto, imágenes, marcadores, marcas de agua y mucho más a nuestros documentos.
  • Podemos combinar y separar páginas de un documento nuevo o existente utilizando IronPDF.
  • Sin utilizar un visor Acrobat, los documentos pueden convertirse en objetos PDF.
  • Se puede utilizar un archivo CSS para crear un documento PDF.

  • La creación de documentos es posible utilizando archivos CSS de tipo multimedia.

2.3 Importar la biblioteca IronPDF

Para importar IronPDF, incluya las siguientes sentencias import al principio de los archivos fuente en los que se utilizará IronPDF:

from ironpdf import *
PYTHON

2.4 Establecer la clave de licencia (si es necesario)

Aunque IronPDF for Python es de uso gratuito, marca con agua los archivos PDF con un fondo de mosaico para los usuarios gratuitos. Debe proporcionar a la biblioteca una clave de licencia legítima para poder utilizar IronPDF para crear PDF sin marcas de agua. En el siguiente fragmento de código se muestra cómo configurar la biblioteca con una clave de licencia:

License.LicenseKey = "IRONPDF-LICENCE-KEY-ABCDEFGH"
PYTHON

Antes de crear archivos PDF o realizar cambios en su contenido, asegúrese de que la clave de licencia está configurada. El método LicenseKey debe ser llamado antes que cualquier otra línea de código. Para obtener una clave de licencia de prueba gratuita, póngase en contacto con nosotros o compre una clave de licencia en nuestra página de licencias.

2.5 Establecer archivos de registro

Un archivo de texto llamado "Default" puede almacenar los mensajes de registro producidos por Custom.log dentro del directorio del script Python. El siguiente fragmento de código se puede utilizar para establecer la propiedad LogFilePath y personalizar el nombre y la ubicación del archivo de registro:

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 Extraer texto PDF con IronPDF

La biblioteca python IronPDF puede convertir páginas PDF en objetos PDF y permite extraer texto de archivos PDF, lo que incluye archivos PDF escaneados. He aquí un ejemplo que muestra cómo leer un PDF existente utilizando IronPDF.

El primer método consiste en extraer todo el texto disponible en un PDF; A continuación se ofrece una muestra del código.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

Como se ilustra en el código anterior, el método Fromfile es un objeto lector de PDF que nos ayuda a cargar el archivo PDF existente y convertirlo en objetos PDF-documento. Utilizando este objeto, podemos leer el texto y las imágenes disponibles en las páginas PDF. El objeto proporciona un método llamado ExtractAllText que extrae cada fragmento de texto de todo el archivo PDF, guardando el texto en una cadena que puede ser procesada. Y estamos utilizando la función de impresión para mostrar el texto.

Cómo convertir PDF a texto en Python (Tutorial): Figura 1 - Visualización del texto

El ejemplo de código para el segundo método que podemos utilizar para página por página, la extracción de texto de un archivo PDF. Se proporciona a continuación.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
PYTHON

El método Fromfile se utiliza para cargar el archivo PDF desde un archivo existente y convertirlo en un objeto de archivo PDF, como se muestra en el código anterior. Un método del objeto página PDF llamado ExtractTextFromPage recupera todo el texto de una página de un archivo PDF. El número de página debe proporcionarse como parámetro para que podamos extraer el texto de esa página en particular. A continuación, tras extraer el texto, lo transferimos a una variable para que lo contenga como una cadena que pueda procesarse.

Echa un vistazo más ejemplos para extraer texto de un PDF.

4.0 Conclusión

La biblioteca IronPDF, por el contrario, ofrece fuertes medidas de seguridad para reducir los riesgos potenciales. No está adaptado a ningún navegador y funciona con todos los que se utilizan habitualmente. IronPDF permite a los programadores producir y leer fácilmente archivos PDF con sólo unas pocas líneas de código. La biblioteca IronPDF ofrece una serie de opciones de licencia, incluida una licencia gratuita para desarrolladores y licencias de desarrollo adicionales que pueden adquirirse, para satisfacer las necesidades de los distintos desarrolladores.

IronPDF incluye una licencia perpetua, una garantía de devolución del dinero de 30 días, un año de soporte de software y opciones de actualización. No hay gastos adicionales después de la compra inicial. Estas licencias se pueden utilizar en entornos de desarrollo, ensayo y producción. Más información licencias de productos.

Descargar el producto de software.

< ANTERIOR
Cómo ver archivos PDF en Python

¿Listo para empezar? Versión: 2024.8 acaba de salir

Instalación pip gratuita View Licenses >