USO DE IRONPDF FOR PYTHON

Cómo convertir PDF a texto en Python (Tutorial)

Actualizado 21 de septiembre, 2024
Compartir:

Este artículo demostrará cómo utilizar IronPDF for Python, una de las bibliotecas PDF más potentes, para extraer cualquier texto disponible en un documento PDF.

2.0 ¿Cómo extraer texto de un PDF con Python?

1.Instale la última versión de Python desde la página de descarga de Python

  1. Abrir cualquier herramienta IDE para Python

  2. Instalar el tiempo de ejecución de .NET Core

  3. Instale la biblioteca IronPDF for Python odescargar desde la página de descargas de PyPI

  4. Extraer texto del PDF

2.1 ¿Qué es IronPDF for Python?

Resulta sencillo integrar la biblioteca IronPDF en Python, ya que se trata de un lenguaje mucho más dinámico que otros y permite a los desarrolladores crear interfaces gráficas de usuario de forma rápida y sencilla. Tiene una plétora de herramientas preinstaladas, incluyendo PyQT, wxWidgets, kivy, y numerosos paquetes y bibliotecas adicionales, todos los cuales pueden ser utilizados para crear de forma rápida y segura una interfaz gráfica de usuario totalmente completa.

IronPDF for Python es una biblioteca extremadamente eficaz, especialmente útil para el desarrollo web. La disponibilidad de tantos paradigmas de desarrollo web en Python, como Django, Flask y Pyramid, tiene parte de culpa. Estos marcos han sido utilizados por numerosos sitios web y servicios en línea, como Reddit, Mozilla y Spotify.

2.2 Características de IronPDF

  • Un archivo PDF puede sercreado a partir de diversas fuentesla traducción debe incluir sitios web HTML, HTML5, ASP y PHP. Además de los archivos HTML, también es posibleconvertir archivos de imagen a PDF.
  • IronPDF permite crear documentos PDF interactivos, rellenarlos y enviarlosformularios interactivos, dividir ycombinar Archivos PDF,extraer texto e imágenesdesde archivos PDF, buscar ciertas palabras dentro de un archivo PDF,rasterizar páginas PDF a imágenes, convertir PDF a HTML, y imprimir archivos PDF.
  • IronPDF puede abrir archivos PDF e imprimirlos desde una URL. Además, permite a los agentes de usuario iniciar sesión detrás de formularios de inicio de sesión HTML, proxies, cookies, cabeceras HTTP, credenciales de inicio de sesión de red personalizadas, variables de formulario y agentes de usuario.
  • Las imágenes pueden extraerse de los documentos con IronPDF.
  • Con IronPDF, es muy fácilañadir encabezados y pies de páginatexto e imágenes,favoritos ymarcas de aguay más a los documentos.
  • Es posible combinar y separar páginas utilizando un documento nuevo o existente mediante IronPDF.
  • Sin utilizar un visor Acrobat, los documentos pueden convertirse en objetos PDF.
  • Se puede utilizar un archivo CSS para crear un documento PDF.
  • La creación de documentos es posible utilizando archivos CSS de tipo multimedia.

2.3 Importar la biblioteca IronPDF

Para importar IronPDF, incluya las siguientes sentencias import al principio de los archivos fuente en los que se utilizará IronPDF:

from ironpdf import *
PYTHON

2.4 Establecer la clave de licencia (si es necesario)

Aunque IronPDF for Python es de uso gratuito, marca con agua los archivos PDF con un fondo de mosaico para los usuarios gratuitos. Debe proporcionar a la biblioteca una clave de licencia legítima para poder utilizar IronPDF para crear PDF sin marcas de agua. En el siguiente fragmento de código se muestra cómo configurar la biblioteca con una clave de licencia:

License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
PYTHON

Antes de crear archivos PDF o realizar cambios en su contenido, asegúrese de que la clave de licencia está configurada. El método LicenseKey debe ser llamado antes que cualquier otra línea de código. Aobtenga una clave de licencia de prueba gratuitavisite la páginapágina de licencias.

2.5 Establecer archivos de registro

Un archivo de texto llamado "Default" puede almacenar los mensajes de registro producidos por Custom.log dentro del directorio del script Python. El siguiente fragmento de código se puede utilizar para establecer la propiedad LogFilePath y personalizar el nombre y la ubicación del archivo de registro:

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 Extraer texto PDF con IronPDF

La biblioteca IronPDF for Python puede convertir páginas PDF en objetos PDF y permite extraer texto de archivos PDF, incluidos archivos PDF escaneados. He aquí un ejemplo que muestra cómo leer un PDF existente utilizando IronPDF.

El primer método consiste en extraer todo el texto disponible en un PDF; A continuación se ofrece una muestra del código.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

Como se ilustra en el código anterior, el método FromFile es un objeto lector de PDF que carga el archivo PDF existente y lo convierte en objetos de documento PDF. Este objeto puede utilizarse para leer el texto y las imágenes disponibles en las páginas PDF. El objeto proporciona un método llamado ExtractAllText que extrae cada fragmento de texto de todo el archivo PDF, guardando el texto en una cadena que puede ser procesada. A continuación, utilice la función print para mostrar el texto.

Cómo convertir PDF a texto en Python (Tutorial), Figura 1: Visualización del texto

**Visualización del texto

El ejemplo de código para el segundo método que se puede utilizar para página por página, la extracción de texto de un archivo PDF. Se proporciona a continuación.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
PYTHON

El método FromFile se utiliza para cargar el archivo PDF desde un archivo existente y convertirlo en un objeto de archivo PDF, como se muestra en el código anterior. Un método del objeto de página PDF llamado ExtractTextFromPage recupera todo el texto de una página de un archivo PDF. Se debe proporcionar el número de página como parámetro para extraer el texto de esa página en particular. Después de extraer el texto, se puede utilizar page_text para guardar la información que se puede procesar.

Más ejemplos para extraer texto de un PDF.

4.0 Conclusión

La biblioteca IronPDF, por el contrario, ofrece fuertes medidas de seguridad para reducir los riesgos potenciales. No está adaptado a ningún navegador y funciona con todos los que se utilizan habitualmente. IronPDF permite a los programadores producir y leer fácilmente archivos PDF con sólo unas pocas líneas de código. La biblioteca IronPDF ofrece una serie de opciones de licencia, incluida una licencia gratuita para desarrolladores y licencias de desarrollo adicionales que pueden adquirirse, para satisfacer las necesidades de los distintos desarrolladores.

IronPDF incluye una licencia perpetua, una garantía de devolución del dinero de 30 días, un año de soporte de software y opciones de actualización. No hay gastos adicionales después de la compra inicial. Estas licencias se pueden utilizar en entornos de desarrollo, ensayo y producción. Más información sobre licencias de productos.

Descargar el producto de software.

< ANTERIOR
Cómo ver archivos PDF en Python

¿Listo para empezar? Versión: 2024.11.1 acaba de salir

Instalación pip gratuita Ver licencias >