PYTHON 幫助

使用 Python 進行分佈式計算

里根普恩

2024年7月1日

分布式 Python

在迅速變化的技術領域中，對可擴展且有效的計算解決方案的需求比以往任何時候都更大。分散式計算在涉及大量分散式資料處理、用戶同時請求和計算需求高的任務中變得越來越必要。為了讓開發人員能夠充分利用分佈式 Python，我們將在本文中探討其應用、原則和工具。

在網頁開發領域，動態生成和修改 PDF 文件是一個常見的需求。能夠以程式方式生成 PDF 檔案在即時生成發票、報告和證書時非常實用。

Python 的廣泛生態和多功能性，使得處理眾多的 PDF 函式庫成為可能。 IronPDF 是一個強大的解決方案，幫助開發者通過簡化創建 PDF 的過程，充分利用其基礎設施，並支援任務平行和分佈式計算。

了解分散式 Python

從根本上說，分佈式 Python 是將計算工作分成較小的塊，並將它們分配到多個節點或處理單元的過程。這些節點可以是連接到網路的單獨機器、系統內的單獨 CPU 核心、遠端物件、遠端函數、遠端或函數調用執行，甚至是單個進程中的個別執行緒。目標是透過將工作負載並行化來提高性能、可擴展性和容錯性。

Python 因其易用性、適應性以及豐富的庫生態系統，是分佈式計算工作負載的絕佳選擇。 Python 在各種規模和使用情境中提供了大量用於分佈式計算的工具，從強大的框架如 Celery、Dask 和 Apache Spark 到內建模組如 multiprocessing 和 threading。

在深入探討細節之前，讓我們先來檢視構建分散式 Python 的基本理念和信條：

並行與並發

平行性涉及同時執行多個任務，而並發性則是處理許多可能同時推進但不一定同步的任務。並行和併發都可以透過分佈式 Python 處理，這取決於手頭的任務和系統的設計。

任務分配

並行與分散式計算的一個關鍵組成部分是將工作分配到多個節點或處理單元。有效的工作分配對於優化整體效能、效率和資源使用至關重要，無論是在計算程序中將功能執行並行化到多個核心，還是在數據處理管道中劃分為較小的階段。

溝通與協調

在分散式系統中，節點之間的有效溝通與協調對於促進遠端功能執行、複雜工作流程、數據交換和計算同步化的編排至關重要。

分佈式 Python 程式受益於消息佇列、分佈式資料結構和遠端程序調用等技術。(遠端程序呼叫)實現遠端與實際功能執行之間的順暢協調和溝通。

可靠性和錯誤預防

系統藉由在不同機器上增加節點或處理單元來容納增長工作負荷的能力稱為可擴展性。相反，容錯性是指系統的設計能夠承受如機器故障、網路分區和節點崩潰等故障，並仍然可靠運行。

為了保證分佈式應用程式在多台機器上的穩定性和韌性，分佈式 Python 框架經常包含容錯和自動擴展功能。

分散式 Python 的應用

數據處理和分析： 可以使用像 Apache Spark 和 Dask 等分佈式 Python 框架進行並行處理大型數據集，這使得分佈式 Python 應用程式可以執行批處理、實時流處理和大規模機器學習等活動。

使用微服務進行網頁開發： 可以利用 Python 網頁框架（如 Flask 和 Django）以及分佈式任務隊列（如 Celery）來創建可擴展的網頁應用程式和微服務架構。 Web 應用程式可以輕鬆地整合分散式快取、非同步請求處理和背景作業處理等功能。

科學計算和模擬： 高性能計算(高效能計算)透過 Python 強大的科學庫和分布式計算框架生態系統，可以在機器叢集上進行並行模擬。應用包括金融風險分析、氣候建模、機器學習應用以及物理和計算生物學的模擬。

**邊緣計算和物聯網(物聯網)隨著物聯網裝置和邊緣計算設計的普及，分佈式 Python 在處理感測器數據、協調邊緣計算過程、建立分佈式應用程序以及將分佈式機器學習模型應用於現代邊緣應用方面變得越來越重要。

分佈式 Python 的創建與使用

使用 Dask-ML 的分佈式機器學習

一個強大的名為 Dask-ML 的庫擴展了平行計算框架 Dask，用於涉及機器學習的任務。將任務拆分到多個核心或多處理器的機器叢集中，使得Python開發人員可以以有效的分布式方式在巨大的數據集上訓練和應用機器學習模型。

import dask.dataframe as dd
from dask_ml.model_selection import train_test_split
from dask_ml.xgboost import XGBoostClassifier
from sklearn.metrics import accuracy_score

# Load and prepare data (replace with your data loading logic)
df = dd.read_csv("training_data.csv")
X = df.drop("target_column", axis=1)  # Features
y = df["target_column"]  # Target variable

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Define and train the XGBoost model in a distributed fashion
model = XGBoostClassifier(n_estimators=100)  # Adjust hyperparameters as needed
model.fit(X_train, y_train)

# Make predictions on test data (can be further distributed)
y_pred = model.predict(X_test)

# Evaluate model performance (replace with your desired evaluation metric)
accuracy = accuracy_score(y_test, y_pred)
print(f"Model Accuracy: {accuracy}")

import dask.dataframe as dd
from dask_ml.model_selection import train_test_split
from dask_ml.xgboost import XGBoostClassifier
from sklearn.metrics import accuracy_score

# Load and prepare data (replace with your data loading logic)
df = dd.read_csv("training_data.csv")
X = df.drop("target_column", axis=1)  # Features
y = df["target_column"]  # Target variable

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Define and train the XGBoost model in a distributed fashion
model = XGBoostClassifier(n_estimators=100)  # Adjust hyperparameters as needed
model.fit(X_train, y_train)

# Make predictions on test data (can be further distributed)
y_pred = model.predict(X_test)

# Evaluate model performance (replace with your desired evaluation metric)
accuracy = accuracy_score(y_test, y_pred)
print(f"Model Accuracy: {accuracy}")

PYTHON

使用 Ray 進行並行函數調用

借助強大的分佈式計算框架 Ray，您可以在叢集的多個核心或計算機上同時執行 Python 函數或任務。通過使用 @ray.remote 裝飾器，Ray 允許您將函數指定為遠端。之後，這些遠端任務或操作可以在叢集的 Ray 工作者上異步執行。

import ray
import numpy as np

# Define the Monte Carlo simulation function
@ray.remote
def simulate(seed):
    np.random.seed(seed)  # Set random seed for reproducibility
    # Perform your simulation logic here (replace with your specific simulation)
    # This example simulates a random walk and returns the final position
    steps = 1000
    position = 0
    for _ in range(steps):
        position += np.random.choice([-1, 1])
    return position

# Initialize Ray cluster (comment out if using existing cluster)
ray.init()

# Number of simulations to run
num_sims = 10000

# Run simulations in parallel using Ray's map function
simulations = ray.get([simulate.remote(seed) for seed in range(num_sims)])

# Analyze simulation results (calculate statistics like average final position)
average_position = np.mean(simulations)
print(f"Average final position: {average_position}")

# Shut down Ray cluster (comment out if using existing cluster)
ray.shutdown()

import ray
import numpy as np

# Define the Monte Carlo simulation function
@ray.remote
def simulate(seed):
    np.random.seed(seed)  # Set random seed for reproducibility
    # Perform your simulation logic here (replace with your specific simulation)
    # This example simulates a random walk and returns the final position
    steps = 1000
    position = 0
    for _ in range(steps):
        position += np.random.choice([-1, 1])
    return position

# Initialize Ray cluster (comment out if using existing cluster)
ray.init()

# Number of simulations to run
num_sims = 10000

# Run simulations in parallel using Ray's map function
simulations = ray.get([simulate.remote(seed) for seed in range(num_sims)])

# Analyze simulation results (calculate statistics like average final position)
average_position = np.mean(simulations)
print(f"Average final position: {average_position}")

# Shut down Ray cluster (comment out if using existing cluster)
ray.shutdown()

PYTHON

入門

什麼是 IronPDF？

我們可以使用知名的 IronPDF for .NET 套件在 .NET 程式中創建、修改和渲染 PDF 文檔。處理PDF的方式多種多樣：從將HTML內容、照片或原始數據創建為新的PDF文件，到從已有的PDF中提取文字和圖片，將HTML頁面轉換為PDF，以及在已有的PDF中添加文字、圖片和形狀。

IronPDF 的簡單性和易用性是其兩大主要優勢。由於其使用者友好的 API 和詳盡的文檔，開發者可以輕鬆地在其 .NET 應用程式中生成 PDF。 IronPDF的速度和效率是另一個使開發者能夠快速生成高質量PDF文檔的特點。

IronPDF 的一些優勢

從原始數據、圖像和HTML創建PDF。
從 PDF 文件中提取圖像和文本。
在 PDF 檔案中包含頁首、頁尾和浮水印。
PDF 文件受密碼和加密保護。
能夠以電子方式填寫和簽署文件。

使用 IronPDF 進行分佈式 PDF 生成

分配任務到叢集中的多個核心或計算機是透過分散式 Python 框架如 Dask 和 Ray 實現的。這使得在集群中並行執行複雜任務（如 PDF 生成）成為可能，並利用其中的多個核心，大幅減少創建大量 PDF 所需的時間。

首先使用 pip 安裝 IronPDF 和 ray 庫：

pip install ironpdf
pip install celery

以下是一些概念性的 Python 代碼，展示了使用 IronPDF 和 Python 進行分佈式 PDF 生成的兩種方法：

具有中央工作器的任務隊列

中央工作者(worker.py):

from ironpdf import *     
from celery import *

app = Celery('pdf_tasks', broker='pyamqp://')
app.autodiscover_tasks()

@app.task(name='generate_pdf')
def generate_pdf(data):
    print(data)
    renderer = ChromePdfRenderer()
    pdf = renderer.RenderHtmlAsPdf(str(data))
    pdf.SaveAs("output.pdf")
    return f"PDF generated for data {data}"

if __name__ == '__main__':
    app.worker_main(argv=['worker', '--loglevel=info', '--without-gossip', '--without-mingle', '--without-heartbeat', '-Ofair', '--pool=solo'])

from ironpdf import *     
from celery import *

app = Celery('pdf_tasks', broker='pyamqp://')
app.autodiscover_tasks()

@app.task(name='generate_pdf')
def generate_pdf(data):
    print(data)
    renderer = ChromePdfRenderer()
    pdf = renderer.RenderHtmlAsPdf(str(data))
    pdf.SaveAs("output.pdf")
    return f"PDF generated for data {data}"

if __name__ == '__main__':
    app.worker_main(argv=['worker', '--loglevel=info', '--without-gossip', '--without-mingle', '--without-heartbeat', '-Ofair', '--pool=solo'])

PYTHON

客戶腳本(client.py):

from celery import Celery

app = Celery('pdf_tasks', broker='amqp://localhost')

def main():
    task = app.send_task('generate_pdf', args=("<h1>This is a sample PDF</h1>",))
    print(task.result)  # Wait for task completion and print result

if __name__ == '__main__':
    main()

from celery import Celery

app = Celery('pdf_tasks', broker='amqp://localhost')

def main():
    task = app.send_task('generate_pdf', args=("<h1>This is a sample PDF</h1>",))
    print(task.result)  # Wait for task completion and print result

if __name__ == '__main__':
    main()

PYTHON

Celery 是我們使用的任務隊列系統。工作被送到中央工作者(worker.py)以及包含 HTML 内容的数据字典。 Python 函數使用 IronPDF 創建 PDF 並以特殊檔案名儲存。

客戶端腳本將包含範例數據的任務發送到隊列中。(client.py). 此腳本可以修改以從不同的電腦發送其他任務。

分佈式 Python（對開發人員的運作方式）：圖1

以下是從上述代碼生成的 PDF。

分佈式 Python（開發人員如何運作）：圖 2

結論

使用 IronPDF 處理大規模 PDF 創建活動的用戶可以通過結合分佈式的 Python 和諸如 Ray 或 Dask 這樣的庫來釋放巨大的潛力。與在單一機器上編寫程式碼相比，將相同的程式碼工作負荷分散到多個核心並在多台機器上運行，可以顯著提高速度。

IronPDF 可以從用於在單一系統上創建 PDF 的強大工具，通過利用分佈式 Python 編程語言，增強為有效管理大型數據集的可靠方案。在即將到來的大規模 PDF 創建項目中充分利用 IronPDF，研究所提供的 Python 庫並嘗試這些方法。!

IronPDF 作為套裝購買時價格合理，並附有終身授權。這套軟體非常超值，對於許多系統來說，只需購買 $749 即可。它為授權持有者提供24/7全天候在線工程支持。如需了解有關收費的更多資訊，請造訪該網站。若要了解 Iron Software 產品的更多資訊，請前往此頁面。

里根普恩

立即與工程團隊聊天

軟體工程師

Regan 畢業於雷丁大學，擁有電子工程學士學位。在加入 Iron Software 之前，他的工作角色讓他專注於單一任務；而他在 Iron Software 工作中最喜歡的是他所能承擔的工作範圍，無論是增加銷售價值、技術支持、產品開發或市場營銷。他喜歡了解開發人員如何使用 Iron Software 庫，並利用這些知識不斷改進文檔和開發產品。

< 上一頁
使用 Python 中的 BeautifulSoup 進行網頁爬蟲

下一個 >
Python Requests 庫（開發者如何使用）