from ironpdf import * # Instanciar renderizador renderer = ChromePdfRenderer() # Crear un PDF a partir de una cadena HTML con Python pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>") # Exportar a un archivo o Stream pdf.SaveAs("output.pdf") # Ejemplo avanzado con recursos HTML # Cargar activos html externos: Imágenes, CSS y JavaScript. # Una BasePath opcional 'C:\site\assets\' se establece como la ubicación del archivo para cargar los activos de myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets") myAdvancedPdf.SaveAs("html-with-assets.pdf")

USO DE IRONPDF FOR .NET

Cómo extraer texto de un PDF en Python

Actualizado 4 de julio, 2023

PDF (formato de documento portátil)

PDF es un formato de archivo muy utilizado para presentar e intercambiar documentos en distintas plataformas y dispositivos. Estos archivos conservan el diseño, el formato, las fuentes y las imágenes de un documento, por lo que son ideales para compartir documentos garantizando su integridad y coherencia. Los PDF se utilizan habitualmente para diversos fines, como informes empresariales, libros electrónicos, facturas, documentos legales, manuales de usuario, etc.

Sin embargo, trabajar con el contenido de archivos PDF mediante programación puede resultar complicado debido a la complejidad del formato. Existen varias librerías python populares y una de ellas es IronPDF, una potente librería python.

En este artículo, vamos a aprender cómo extraer todo el texto de archivos PDF utilizando IronPDF en Python, y le proporcionará los conocimientos y los fragmentos de código python para realizar esta tarea de manera eficiente.

Cómo extraer texto de un PDF en Python

Descargar un módulo de Python para extraer texto de PDF
Utiliza el FromFile para importar el archivo PDF
Extraer texto del PDF importado con la función ExtraerTexto método
Extraer texto de páginas específicas con la función ExtraerTextoFromPage método
Envía el texto extraído a la consola o a un archivo de texto

IronPDF - Biblioteca Python

IronPDF for Python es una potente biblioteca PDF de Python que permite a los desarrolladores extraer texto de documentos PDF. Con IronPDF, puede automatizar la parte de extracción de datos de contenido textual de archivos PDF, lo que facilita el procesamiento de datos y el análisis de la información contenida en los documentos PDF.

IronPDF ofrece a los programadores de Python la posibilidad de manipular, extraer datos e interactuar con archivos PDF utilizando Python, lo que facilita la automatización de diversas tareas relacionadas con PDF. Tanto si necesita generar PDF, modificar PDF existentes, extraer datos de imágenes de extracción de contenido o realizar otras operaciones con PDF, IronPDF simplifica el proceso con su intuitiva API y sus potentes funciones.

Características principales

Algunas características de la biblioteca IronPDF Python incluyen:

Crear archivos PDF desde cero
Editar archivos PDF existentes
Extraer texto e imágenes de archivos PDF
Convertir archivos PDF a otros formatos
Proteger archivos PDF con contraseñas y permisos

Requisitos previos

Antes de proceder a la extracción de texto con IronPDF, asegúrese de que dispone de los siguientes requisitos previos:

Instalación de Python: Asegúrese de tener Python instalado en su sistema. IronPDF es compatible con las versiones de Python 3.x, por lo que debe asegurarse de que dispone de una instalación de Python compatible.
Biblioteca IronPDF: Instala la librería IronPDF usando pip, el gestor de paquetes de Python. Abra su interfaz de línea de comandos y ejecute el siguiente comando:

    :ProductInstall

Nota: Python debe ser añadido a la variable de entorno PATH, para poder utilizar los comandos pip.

Entorno de desarrollo integrado (IDE): Aunque no es estrictamente necesario, el uso de un IDE puede mejorar en gran medida su experiencia de desarrollo. Ofrece funciones como la finalización de código, la depuración y un flujo de trabajo más ágil. Un IDE popular para el desarrollo de Python es PyCharm. Puede descargar e instalar PyCharm desde el sitio web de JetBrains https://www.jetbrains.com/pycharm/.
Editor de texto: Alternativamente, si prefiere trabajar con un editor de texto ligero, puede utilizar cualquier editor de texto de su elección, como Visual Studio Code, Sublime Text o Atom. Estos editores ofrecen resaltado de sintaxis y otras funciones útiles para el desarrollo en Python. También puedes usar la aplicación IDLE de python.

Creación de un proyecto Python con PyCharm

Después de instalar el IDE PyCharm, cree un proyecto PyCharm python siguiendo los siguientes pasos:

Inicie PyCharm: Abra PyCharm desde el lanzador de aplicaciones de su sistema o desde el acceso directo del escritorio.
Crear un nuevo proyecto: Haga clic en "Crear nuevo proyecto" o abra un proyecto Python existente.
Configure los ajustes del proyecto: Proporcione un nombre para su proyecto y elija la ubicación para crear el directorio del proyecto. Seleccione el intérprete de Python para su proyecto. A continuación, haga clic en "Crear".
Crear archivos fuente: PyCharm creará la estructura del proyecto, incluyendo un archivo Python principal y un directorio para archivos fuente adicionales. Empieza a escribir el código y haz clic en el botón Ejecutar o pulsa Mayús+F10 para ejecutar el script.

Extraer texto de un PDF en Python con IronPDF

Ahora vamos a sumergirnos en los pasos necesarios para extraer texto plano de archivos PDF utilizando IronPDF en lenguaje de programación Python.

Importar las bibliotecas necesarias

Para empezar, importe las bibliotecas necesarias en su script Python. En este caso, necesitamos importar la biblioteca IronPDF, que proporciona la funcionalidad para trabajar con archivos PDF.

import ironpdf

import ironpdf

PYTHON

Establecer la clave de licencia

Para extraer el texto completo de un archivo PDF utilizando IronPDF, necesitamos tener IronPDF con licencia. Aplique la licencia o la clave de prueba utilizando el siguiente comando:

# Apply your license key
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

# Apply your license key
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

PYTHON

Nota: Sin una clave de licencia, la extracción de datos de IronPDF está restringida a unos pocos caracteres del archivo de extensión PDF. Obtenga una clave de licencia compra de IronPDF o inscribiéndose en prueba gratuita.

Cargar el documento PDF

A continuación, cargue el archivo PDF utilizando el documento mediante PdfDocument.FromFile()de IronPDF. Proporcione la ruta al archivo PDF como argumento de este método. Esto cargará el archivo PDF en un objetoPdfDocument`.

pdf = ironpdf.PdfDocument.FromFile("path/to/your/pdf_file.pdf")

pdf = ironpdf.PdfDocument.FromFile("path/to/your/pdf_file.pdf")

PYTHON

Fichero de entrada

Para extraer texto del archivo PDF de entrada imprimirlo en pantalla, se utiliza el siguiente documento:

Cómo convertir PDF a texto en Python (Tutorial): Figura 3

Extraer texto de archivos PDF

Una vez cargado el documento PDF, puede extraer el contenido de texto utilizando el método ExtractText. Este método devuelve el texto extraído en forma de cadena.

text = pdf.ExtractText()

text = pdf.ExtractText()

PYTHON

Procesar y utilizar el texto extraído

Ahora que ha extraído el texto del PDF, puede procesarlo y utilizarlo según sus necesidades. Puede realizar tareas como analizar el texto, almacenarlo en una base de datos o utilizarlo para procesar más datos.

# Process and utilize the extracted text
print(text)
# Perform other operations with the extracted text

# Process and utilize the extracted text
print(text)
# Perform other operations with the extracted text

PYTHON

Salida

Cómo convertir PDF a texto en Python (Tutorial): Figura 4

Extraer texto de una página específica de un archivo PDF

IronPDF también proporciona un método conveniente para extraer texto de páginas específicas dentro de un archivo PDF. En esta sección, exploraremos cómo extraer texto de una página específica utilizando el método ExtractTextFromPage proporcionado por IronPDF.

El siguiente código demuestra cómo extraer texto de una página específica:

# Extract text from specific page in the document
page_2_text = pdf.ExtractTextFromPage(1)

# Extract text from specific page in the document
page_2_text = pdf.ExtractTextFromPage(1)

PYTHON

En el código de ejemplo anterior, pdf representa el objeto PdfDocument obtenido tras cargar el documento PDF. La función ExtractTextFromPage()El método se utiliza para extraer texto de una página específica al leer PDFs, indicada por el índice de página pasado como argumento. En este caso, estamos extrayendo texto de la segunda página o página número 2, que corresponde al índice de página 1.

Cómo convertir PDF a texto en Python (Tutorial): Figura 5

Conclusión

En este artículo, exploramos cómo extraer texto de archivos PDF utilizando IronPDF en Python. Cubrimos los pasos necesarios, incluida la importación de la biblioteca o bibliotecas necesarias, la carga del documento PDF, la extracción del contenido del texto y el procesamiento del texto extraído.

Con las potentes funciones de extracción de texto de IronPDF, puede automatizar la extracción y el procesamiento posterior del texto de los PDF, lo que le permite procesar y analizar fácilmente la información textual de los documentos PDF. Su intuitiva API y sus amplias capacidades lo convierten en la opción ideal para una gran variedad de tareas relacionadas con PDF en el desarrollo con Python.

IronPDF es gratuito para fines de desarrollo, pero necesita una licencia para uso comercial. Para utilizarlo en modo de producción para pruebas, obtenga un prueba gratuita. Descargue e instale la última versión de IronPDF Python y pruébalo.

< ANTERIOR
Cómo descargar PDF desde una URL en Python

SIGUIENTE >
Cómo ver archivos PDF en Python