USO DE IRONPDF FOR PYTHON

Scrapy en Python (Cómo funciona para desarrolladores)

Publicado en 13 de agosto, 2024

La eficacia y la eficiencia son fundamentales en los ámbitos del scraping en línea y la generación de documentos. Para extraer datos de sitios web y convertirlos posteriormente en documentos de calibre profesional es necesaria una integración fluida de herramientas y marcos sólidos.

Aquí llegan Scrapy, un marco de raspado web en Python, e IronPDF, dos formidables bibliotecas que trabajan juntas para optimizar la extracción de datos en línea y la creación de archivos dinámicosPDFs.

Los desarrolladores ya pueden navegar sin esfuerzo por la compleja web y extraer rápidamente datos estructurados con precisión y rapidez gracias a Scrapy en Python, una biblioteca de rastreo y scraping web de primer orden. Con sus robustos selectores XPath y CSS y su arquitectura asíncrona, es la opción ideal para trabajos de scraping de cualquier complejidad.

Por el contrario, IronPDF es una potente biblioteca .NET que permite crear, editar y manipular documentos PDF mediante programación. IronPDF ofrece a los desarrolladores una solución completa para producir documentos PDF dinámicos y estéticamente agradables con sus potentes herramientas de creación de PDF, que incluyen conversión de HTML a PDF y funciones de edición de PDF.

Este post le llevará a conocer la integración sin problemas deScrapy Python con IronPDF y le mostrará cómo este par dinámico transforma la forma en que se realiza el web scraping y la creación de documentos. Mostraremos cómo estas dos bibliotecas trabajan juntas para facilitar tareas complejas y acelerar los flujos de trabajo de desarrollo, desde el scraping de datos de la web con Scrapy hasta la generación dinámica de informes PDF con IronPDF.

Venga a explorar las posibilidades del web scraping y la generación de documentos mientras utilizamos IronPDF para aprovechar al máximo Scrapy.

Scrapy en Python (Cómo funciona para desarrolladores): Figura 1

Arquitectura asíncrona

La arquitectura asíncrona utilizada por Scrapy permite procesar varias peticiones a la vez. Esto aumenta la eficacia y la velocidad del raspado web, sobre todo cuando se trabaja con sitios web complicados o grandes cantidades de datos.

Gestión robusta del arrastre

Scrapy cuenta con potentes funciones de gestión del proceso de rastreo, como el filtrado automático de URL, la programación configurable de solicitudes y la gestión integrada de la directiva robots.txt. Los desarrolladores pueden ajustar el comportamiento de rastreo para satisfacer sus propias necesidades y garantizar el cumplimiento de las directrices del sitio web.

Selectores para XPath y CSS

Scrapy permite a los usuarios navegar y seleccionar elementos dentro de páginas HTML utilizando selectores para XPath y selectores CSS. Esta adaptabilidad hace que la extracción de datos sea más precisa y fiable, ya que permite a los desarrolladores centrarse con precisión en determinados elementos o patrones de una página web.

Tema Tubería

Los desarrolladores pueden especificar componentes reutilizables para procesar los datos extraídos antes de exportarlos o almacenarlos mediante el canal de elementos de Scrapy. Al realizar operaciones como la limpieza, la validación, la transformación y la deduplicación, los desarrolladores pueden garantizar la precisión y coherencia de los datos que se han extraído.

Middleware integrado

Varios componentes de middleware preinstalados en Scrapy ofrecen funciones como la gestión automática de cookies, la ralentización de peticiones, la rotación de agentes de usuario y la rotación de proxy. Estos elementos de middleware son sencillamente configurables y personalizables para mejorar la eficacia del scraping y resolver los problemas típicos.

Arquitectura extensible

Mediante la creación de middleware, extensiones y canalizaciones personalizadas, los desarrolladores pueden personalizar y ampliar aún más las capacidades de Scrapy gracias a su arquitectura modular y extensible. Debido a su adaptabilidad, los desarrolladores pueden incluir fácilmente Scrapy en sus procesos actuales y modificarlo para satisfacer sus necesidades únicas de scraping.

Crear y configurar Scrapy en Python

Instalar Scrapy

Instala Scrapy usando pip ejecutando el siguiente comando:

pip install scrapy

Definir una araña

Para definir su araña, cree un nuevo archivo Python(como ejemplo.py) en el directorio spiders/. Aquí se ofrece una ilustración de una araña básica que extrae de una URL:

import scrapy
class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    start_urls = ['xxxxxx.com']
    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('span small.author::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }
        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

import scrapy
class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    start_urls = ['xxxxxx.com']
    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('span small.author::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }
        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

PYTHON

Configurar ajustes

Para configurar los parámetros del proyecto Scrapy como user-agent, retrasos de descarga y pipelines, edita el archivo settings.py. Esta es una ilustración de cómo cambiar el user-agent y hacer que los pipelines sean funcionales:

# Obey robots.txt rules
ROBOTSTXT_OBEY = True
# Set user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
# Configure pipelines
ITEM_PIPELINES = {
    'myproject.pipelines.MyPipeline': 300,
}

# Obey robots.txt rules
ROBOTSTXT_OBEY = True
# Set user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
# Configure pipelines
ITEM_PIPELINES = {
    'myproject.pipelines.MyPipeline': 300,
}

PYTHON

Para empezar

Empezar con Scrapy e IronPDF requiere combinar las sólidas habilidades de scraping web de Scrapy con las funciones de producción dinámica de PDF de IronPDF. A continuación te guiaré a través de los pasos para configurar un proyecto Scrapy para que puedas extraer datos de sitios web y utilizar IronPDF para crear un documento PDF que contenga los datos.

¿Qué es IronPDF?

IronPDF es una potente biblioteca .NET para crear, editar y modificar documentos PDF mediante programación en C#, VB.NET y otros lenguajes .NET. Dado que ofrece a los desarrolladores un amplio conjunto de funciones para crear dinámicamente PDF de alta calidad, es una opción popular para muchos programas.

Scrapy en Python (Cómo funciona para desarrolladores): Figura 2

Características de IronPDF

Generación de PDF: Con IronPDF, los programadores pueden crear nuevos documentos PDF o convertir elementos HTML existentes como etiquetas, texto, imágenes y otros formatos de archivo en PDF. Esta función es muy útil para crear informes, facturas, recibos y otros documentos de forma dinámica.

Conversión de HTML a PDF: IronPDF facilita a los desarrolladores la transformación de documentos HTML, incluidos los estilos de JavaScript y CSS, en archivos PDF. Permite crear PDF a partir de páginas web, contenidos generados dinámicamente y plantillas HTML.

Modificación y edición de documentos PDF: IronPDF proporciona un conjunto completo de funciones para modificar y alterar documentos PDF preexistentes. Los desarrolladores pueden fusionar varios archivos PDF, separarlos en documentos independientes, eliminar páginas y añadir marcadores, anotaciones y marcas de agua, entre otras funciones, para personalizar los PDF según sus necesidades.

Cómo instalar IronPDF

Después de asegurarse de que Python está instalado en su ordenador, utilice pip para instalar IronPDF.

pip install IronPdf

Proyecto Scrapy con IronPDF

Para definir su araña, cree un nuevo archivo Python(como ejemplo.py) en el directorio de la araña de su proyecto Scrapy(miproyecto/myproject/spiders). Un ejemplo de código de una araña básica que extrae citas de Url :

class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    #web page link
    start_urls = ['http://quotes.toscrape.com']
    def parse(self, response):
        quotes = []
        for quote in response.css('div.quote'):
            Title = quote.css('span.text::text').get()
            content= quote.css('span small.author::text').get()
        # Generate PDF document
        renderer = ChromePdfRenderer()
        pdf=renderer.RenderHtmlAsPdf(self.get_pdf_content(quotes))
        pdf.SaveAs("quotes.pdf")
    def get_pdf_content(self, quotes):
        html_content = "<html><head><title>"+Title+"</title></head><body><h1>{}</h1><p>,"+Content+"!</p></body></html>"
        return html_content

class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    #web page link
    start_urls = ['http://quotes.toscrape.com']
    def parse(self, response):
        quotes = []
        for quote in response.css('div.quote'):
            Title = quote.css('span.text::text').get()
            content= quote.css('span small.author::text').get()
        # Generate PDF document
        renderer = ChromePdfRenderer()
        pdf=renderer.RenderHtmlAsPdf(self.get_pdf_content(quotes))
        pdf.SaveAs("quotes.pdf")
    def get_pdf_content(self, quotes):
        html_content = "<html><head><title>"+Title+"</title></head><body><h1>{}</h1><p>,"+Content+"!</p></body></html>"
        return html_content

PYTHON

En el ejemplo de código anterior de un proyecto Scrapy con IronPDF, IronPDF se está utilizando para crear un archivoDocumento PDF utilizando los datos extraídos con Scrapy.

En este caso, el método de análisis sintáctico de la araña recoge las citas de la página web y utiliza la función get_pdf_content para crear el contenido HTML del archivo PDF. Este material HTML se convierte posteriormente en un documento PDF utilizando IronPDF y se guarda como quotes.pdf.

Scrapy en Python (Cómo funciona para desarrolladores): Figura 3

Conclusión

En resumen, la combinación de Scrapy e IronPDF ofrece a los desarrolladores una sólida opción para automatizar las actividades de web scraping y producir documentos PDF sobre la marcha. Las flexibles funciones de producción de PDF de IronPDF, junto con las potentes capacidades de rastreo y raspado web de Scrapy, proporcionan un proceso sencillo para recopilar datos estructurados de cualquier página web y convertir los datos extraídos en informes, facturas o documentos PDF de calidad profesional.

Mediante la utilización de Scrapy Spider Python, los desarrolladores pueden navegar eficazmente por las complejidades de Internet, recuperar información de muchas fuentes y organizarla de forma sistemática. El marco flexible de Scrapy, su arquitectura asíncrona y su compatibilidad con un selector XPath y CSS le proporcionan la flexibilidad y escalabilidad necesarias para gestionar una gran variedad de actividades de raspado web.

IronPDF incluye una licencia de por vida a un precio razonable si se adquiere en un paquete. El paquete ofrece una excelente relación calidad-precio, ya que sólo cuesta 749 dólares(una compra única para varios sistemas). Los titulares de licencias tienen acceso permanente a asistencia técnica en línea. Para más información sobre las tasas, visite la páginasitio web. Visite esta página para obtener más información sobre Iron Softwareproductos.

SIGUIENTE >
Cómo convertir PDF a PNG en Python