Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
Este artículo demostrará cómo utilizar IronPDF for Python, una de las bibliotecas PDF más potentes, para extraer cualquier texto disponible en un documento PDF.
ExtraerTodoTexto
para leer el texto del archivo abierto1.Instale la última versión de Python desde la página de descarga de Python
Abrir cualquier herramienta IDE para Python
Instalar el tiempo de ejecución de .NET Core
Instale la biblioteca IronPDF for Python odescargar desde la página de descargas de PyPI
Resulta sencillo integrar la biblioteca IronPDF en Python, ya que se trata de un lenguaje mucho más dinámico que otros y permite a los desarrolladores crear interfaces gráficas de usuario de forma rápida y sencilla. Tiene una plétora de herramientas preinstaladas, incluyendo PyQT, wxWidgets, kivy, y numerosos paquetes y bibliotecas adicionales, todos los cuales pueden ser utilizados para crear de forma rápida y segura una interfaz gráfica de usuario totalmente completa.
IronPDF for Python es una biblioteca extremadamente eficaz, especialmente útil para el desarrollo web. La disponibilidad de tantos paradigmas de desarrollo web en Python, como Django, Flask y Pyramid, tiene parte de culpa. Estos marcos han sido utilizados por numerosos sitios web y servicios en línea, como Reddit, Mozilla y Spotify.
Para importar IronPDF, incluya las siguientes sentencias import al principio de los archivos fuente en los que se utilizará IronPDF:
from ironpdf import *
Aunque IronPDF for Python es de uso gratuito, marca con agua los archivos PDF con un fondo de mosaico para los usuarios gratuitos. Debe proporcionar a la biblioteca una clave de licencia legítima para poder utilizar IronPDF para crear PDF sin marcas de agua. En el siguiente fragmento de código se muestra cómo configurar la biblioteca con una clave de licencia:
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
Antes de crear archivos PDF o realizar cambios en su contenido, asegúrese de que la clave de licencia está configurada. El método LicenseKey
debe ser llamado antes que cualquier otra línea de código. Aobtenga una clave de licencia de prueba gratuitavisite la páginapágina de licencias.
Un archivo de texto llamado "Default" puede almacenar los mensajes de registro producidos por Custom.log dentro del directorio del script Python. El siguiente fragmento de código se puede utilizar para establecer la propiedad LogFilePath
y personalizar el nombre y la ubicación del archivo de registro:
# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
La biblioteca IronPDF for Python puede convertir páginas PDF en objetos PDF y permite extraer texto de archivos PDF, incluidos archivos PDF escaneados. He aquí un ejemplo que muestra cómo leer un PDF existente utilizando IronPDF.
El primer método consiste en extraer todo el texto disponible en un PDF; A continuación se ofrece una muestra del código.
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
Como se ilustra en el código anterior, el método FromFile
es un objeto lector de PDF que carga el archivo PDF existente y lo convierte en objetos de documento PDF. Este objeto puede utilizarse para leer el texto y las imágenes disponibles en las páginas PDF. El objeto proporciona un método llamado ExtractAllText
que extrae cada fragmento de texto de todo el archivo PDF, guardando el texto en una cadena que puede ser procesada. A continuación, utilice la función print
para mostrar el texto.
**Visualización del texto
El ejemplo de código para el segundo método que se puede utilizar para página por página, la extracción de texto de un archivo PDF. Se proporciona a continuación.
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
El método FromFile
se utiliza para cargar el archivo PDF desde un archivo existente y convertirlo en un objeto de archivo PDF, como se muestra en el código anterior. Un método del objeto de página PDF llamado ExtractTextFromPage
recupera todo el texto de una página de un archivo PDF. Se debe proporcionar el número de página como parámetro para extraer el texto de esa página en particular. Después de extraer el texto, se puede utilizar page_text
para guardar la información que se puede procesar.
Más ejemplos para extraer texto de un PDF.
La biblioteca IronPDF, por el contrario, ofrece fuertes medidas de seguridad para reducir los riesgos potenciales. No está adaptado a ningún navegador y funciona con todos los que se utilizan habitualmente. IronPDF permite a los programadores producir y leer fácilmente archivos PDF con sólo unas pocas líneas de código. La biblioteca IronPDF ofrece una serie de opciones de licencia, incluida una licencia gratuita para desarrolladores y licencias de desarrollo adicionales que pueden adquirirse, para satisfacer las necesidades de los distintos desarrolladores.
IronPDF incluye una licencia perpetua, una garantía de devolución del dinero de 30 días, un año de soporte de software y opciones de actualización. No hay gastos adicionales después de la compra inicial. Estas licencias se pueden utilizar en entornos de desarrollo, ensayo y producción. Más información sobre licencias de productos.
Descargar el producto de software.
9 productos API .NET para sus documentos de oficina