IRONPDF FOR PYTHONの使用

PythonのScrapy (開発者のための仕組み)

公開済み 2024年8月13日

共有:

オンライン・スクレイピングと文書生成の分野では、効果と効率が重要である。ウェブサイトからデータを抽出し、それをプロフェッショナルな文書に変換するためには、強力なツールとフレームワークをスムーズに統合する必要がある。

PythonのWebスクレイピング・フレームワークであるScrapyと、オンライン・データの抽出とダイナミックなPDFの作成を最適化する2つの強力なライブラリであるIronPDFが登場した。PDFファイル.

PythonのScrapyは、トップクラスのウェブクローリングおよびスクレイピングライブラリである。堅牢なXPathとCSSセレクタ、非同期アーキテクチャにより、あらゆる複雑なスクレイピング作業に最適です。

逆に、IronPDFはプログラムによるPDFドキュメントの作成、編集、操作をサポートする強力な.NETライブラリです。 IronPDFは、HTMLからPDFへの変換やPDFの編集機能を含む強力なPDF作成ツールにより、ダイナミックで美しいPDFドキュメントを作成するための完全なソリューションを開発者に提供します。

この投稿では、「バレンシアガ」のスムーズな統合を紹介する。Scrapy PythonとIronPDFのダイナミックな組み合わせがウェブスクレイピングとドキュメント作成をどのように変えるかをお見せします。 Scrapyを使ったウェブからのデータスクレイピングからIronPDFを使ったPDFレポートの動的生成まで、この2つのライブラリがどのように連携して複雑な作業を軽減し、開発ワークフローをスピードアップするかを紹介する。

IronPDFを使ってScrapyをフル活用しながら、ウェブスクレイピングとドキュメント生成の可能性を探ってみませんか？

PythonのScrapy（開発者のための仕組み）：図1

非同期アーキテクチャ

Scrapyが使用する非同期アーキテクチャは、一度に複数のリクエストを処理することを可能にする。これにより、特に複雑なウェブサイトや大量のデータを扱う場合、効率性が向上し、ウェブスクレイピング速度が速くなります。

頑丈なクロール管理

Scrapyには、自動URLフィルタリング、設定可能なリクエストスケジューリング、統合されたrobots.txtディレクティブ処理など、強力なScrapyクロールプロセス管理機能があります。クロールの動作は、開発者自身のニーズに合わせて調整することができ、ウェブサイトのガイドラインの遵守を保証する。

XPathとCSSのセレクタ

Scrapyでは、XPathやCSSのセレクタを使って、HTMLページ内の項目をナビゲートしたり、ピックしたりすることができる。この適応性により、開発者はウェブページ上の特定の要素やパターンを正確にターゲットにすることができ、データ抽出がより正確で信頼できるものになります。

アイテムパイプライン

開発者は、Scrapyのアイテムパイプラインを使用して、エクスポートまたは保存する前にスクレイピングされたデータを処理するための再利用可能なコンポーネントを指定することができます。クリーニング、検証、変換、重複排除などの処理を行うことで、開発者は抽出されたデータの正確性と一貫性を保証することができます。

内蔵ミドルウェア

Scrapyにプリインストールされている多くのミドルウェア・コンポーネントは、自動クッキー処理、リクエスト・スロットリング、ユーザー・エージェント・ローテーション、プロキシ・ローテーションなどの機能を提供する。これらのミドルウェア要素は、スクレイピング効率を向上させ、典型的な問題に対処するために、シンプルに設定しカスタマイズすることができる。

拡張可能なアーキテクチャ

カスタムミドルウェア、拡張機能、パイプラインを作成することで、開発者はScrapyの機能をさらにカスタマイズし、拡張することができる。その適応性の高さから、開発者はScrapyを現在のプロセスに簡単に組み込むことができ、独自のスクレイピング・ニーズに合わせて変更することができる。

PythonでScrapyを作成・設定する

Scrapyをインストールする

以下のコマンドを実行して、pipを使用してScrapyをインストールします：

pip install scrapy

スパイダーの定義

スパイダーを定義するには、新しいPythonファイルを作成します。(例えば example.py)ディレクトリの下にある。 URLから抽出する基本的なスパイダーの図をここに示す：

import scrapy
class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    start_urls = ['xxxxxx.com']
    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('span small.author::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }
        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

import scrapy
class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    start_urls = ['xxxxxx.com']
    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('span small.author::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }
        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

PYTHON

設定を構成する

ユーザーエージェント、ダウンロード遅延、パイプラインのようなScrapyプロジェクトのパラメータを設定するには、settings.pyファイルを編集します。これはユーザーエージェントを変更し、パイプラインを機能させる方法の説明です：

# Obey robots.txt rules
ROBOTSTXT_OBEY = True
# Set user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
# Configure pipelines
ITEM_PIPELINES = {
    'myproject.pipelines.MyPipeline': 300,
}

# Obey robots.txt rules
ROBOTSTXT_OBEY = True
# Set user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
# Configure pipelines
ITEM_PIPELINES = {
    'myproject.pipelines.MyPipeline': 300,
}

PYTHON

はじめに

ScrapyとIronPDFを使い始めるには、Scrapyの強力なウェブスクレイピングスキルとIronPDFのダイナミックPDF作成機能を組み合わせる必要があります。ウェブサイトからデータを抽出し、IronPDFを使ってそのデータを含むPDFドキュメントを作成できるように、以下にScrapyプロジェクトをセットアップする手順を説明します。

IronPDFとは何ですか？

IronPDFは、C#、VB.NET、その他の.NET言語でプログラム的にPDFドキュメントを作成、編集、および変更するための強力な.NETライブラリです。開発者に高品質なPDFを動的に作成するための幅広い機能セットを提供するため、多くのプログラムで人気の選択肢となっています。

Python での Scrapy (開発者のための仕組み)：図2

IronPDFの機能

PDF生成: IronPDFを使って、プログラマーは新しいPDFドキュメントを作成したり、タグ、テキスト、画像、その他のファイルフォーマットのような既存のHTML要素をPDFに変換することができます。この機能は、レポート、請求書、領収書、その他のドキュメントを動的に作成するのに非常に役立ちます。

HTMLからPDFへの変換: IronPDFはJavaScriptやCSSのスタイルを含むHTMLドキュメントをPDFファイルに変換することができます。これにより、ウェブページ、動的に生成されたコンテンツ、HTMLテンプレートからPDFを作成することができます。

PDFドキュメントの修正と編集: IronPDFは既存のPDFドキュメントを修正・変更するための包括的な機能を提供します。開発者は、複数のPDFファイルを結合したり、別々のドキュメントに分離したり、ページを削除したり、しおり、注釈、透かしを追加したりすることができます。

IronPDFのインストール方法

Pythonがコンピュータにインストールされていることを確認したら、pipを使ってIronPDFをインストールします。

pip install IronPdf

IronPDFを使ったScrapyプロジェクト

スパイダーを定義するには、新しいPythonファイルを作成します。(例えば example.py)Scrapyプロジェクトのスパイダーディレクトリにある(myproject/myproject/spiders). Urlから引用符を抽出する基本的なスパイダーのコード例：

class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    #web page link
    start_urls = ['http://quotes.toscrape.com']
    def parse(self, response):
        quotes = []
        for quote in response.css('div.quote'):
            Title = quote.css('span.text::text').get()
            content= quote.css('span small.author::text').get()
        # Generate PDF document
        renderer = ChromePdfRenderer()
        pdf=renderer.RenderHtmlAsPdf(self.get_pdf_content(quotes))
        pdf.SaveAs("quotes.pdf")
    def get_pdf_content(self, quotes):
        html_content = "<html><head><title>"+Title+"</title></head><body><h1>{}</h1><p>,"+Content+"!</p></body></html>"
        return html_content

class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    #web page link
    start_urls = ['http://quotes.toscrape.com']
    def parse(self, response):
        quotes = []
        for quote in response.css('div.quote'):
            Title = quote.css('span.text::text').get()
            content= quote.css('span small.author::text').get()
        # Generate PDF document
        renderer = ChromePdfRenderer()
        pdf=renderer.RenderHtmlAsPdf(self.get_pdf_content(quotes))
        pdf.SaveAs("quotes.pdf")
    def get_pdf_content(self, quotes):
        html_content = "<html><head><title>"+Title+"</title></head><body><h1>{}</h1><p>,"+Content+"!</p></body></html>"
        return html_content

PYTHON

上記のIronPDFを使ったScrapyプロジェクトのコード例では、IronPDFはPDFドキュメントScrapyを使って抽出されたデータを使って。

ここでは、スパイダーのパースメソッドがウェブページから引用を収集し、get_pdf_content関数を使用してPDFファイルのHTMLコンテンツを作成します。このHTMLはその後IronPDFを使ってPDFドキュメントとしてレンダリングされ、quotes.pdfとして保存されます。

Python での Scrapy (開発者のための仕組み)：図3

結論

まとめると、ScrapyとIronPDFの組み合わせは、ウェブスクレイピング活動を自動化し、PDFドキュメントをその場で作成する強力なオプションを開発者に提供する。 IronPDFの柔軟なPDF作成機能は、Scrapyの強力なウェブクローリングとスクレイピング機能とともに、あらゆるウェブページから構造化データを収集し、抽出されたデータをプロ品質のPDFレポート、請求書、ドキュメントに変換するためのスムーズなプロセスを提供します。

Scrapy Spider Pythonを活用することで、開発者はインターネットの複雑な仕組みを効率的にナビゲートし、多くのソースから情報を取得し、体系的に整理することができる。 Scrapyの柔軟なフレームワーク、非同期アーキテクチャ、XPathとCSSセレクタのサポートは、様々なウェブスクレイピング活動を管理するために必要な柔軟性と拡張性を提供します。

IronPDFには、永久ライセンスが含まれており、バンドル購入の場合はお手頃価格で提供されます。パッケージは非常にお得で、費用はわずかに $749 です。(複数のシステムに一度の購入). ライセンスをお持ちの方は、24時間365日のオンライン技術サポートにアクセスすることができます。料金の詳細については、以下のウェブサイトをご覧ください。ウェブサイト. Iron Softwareの詳細については、このページをご覧ください。製品.

ジョルディ・バルディア

ソフトウェアエンジニア

LinkedIn | Website

ジョルディは、Iron Softwareでのスキルを活かしていないときには、ゲームプログラミングをしており、Python、C#、C++に最も堪能です。彼は製品テスト、製品開発、研究の責任を共有しており、継続的な製品改善に大きな価値をもたらしています。この多様な経験は彼を常に挑戦的で魅力的に保ち、彼はIron Softwareで働く一番好きな側面の一つだと言っています。ジョルディはフロリダ州マイアミで育ち、フロリダ大学でコンピューターサイエンスと統計学を学びました。

次へ >
PythonでPDFをPNGに変換する方法