在生產環境中測試,無水印。
在任何需要的地方都能運行。
獲得 30 天的全功能產品。
在幾分鐘內上手運行。
試用產品期間完全訪問我們的支援工程團隊
PyArrow 是一個強大的庫,提供 Apache Arrow 框架的 Python 介面。 Apache Arrow 是一個跨語言開發平台,用於記憶體中的資料。 它指定了一種標準化的與語言無關的列式內存格式,用於平面和層次數據,並針對現代硬件上的高效分析運算進行組織。PyArrow基本上就是作為 Python 包實現的 Apache Arrow Python 綁定。 PyArrow 可在不同數據處理系統和程式語言之間實現高效的數據交換和互操作性。 在本文後面,我們還將了解IronPDF,這是一個由Iron Software開發的 PDF 生成庫。
柱狀記憶體格式:
PyArrow 使用列式記憶體格式,這對於記憶體分析操作是非常高效的。 此格式允許更好的 CPU 快取利用和向量化操作,使其非常適合數據處理任務。 PyArrow 能夠有效地讀寫 Parquet 文件結構,這是由於其列式特性。
互操作性: PyArrow 的主要優勢之一是能夠在不同的程式語言和系統之間進行資料交換,而不需要進行序列化或反序列化。 這在使用多種語言的環境中特別有用,例如數據科學和機器學習。
與 Pandas 的整合:PyArrow 可以用作 Pandas 的後端,允許有效的數據操作和存儲。 從 Pandas 2.0 開始,可以將數據存儲在 Arrow 陣列中,而不是 NumPy 陣列,這可以帶來性能提升,尤其是在處理字串數據時。
支援各種數據類型:PyArrow 支援多種數據類型,包括原始類型(整數、浮點數)、複雜類型(結構、列表)和嵌套類型。這使得其在處理不同類型的數據時非常多功能。
pip install pyarrow
pip install pyarrow
或
conda install pyarrow -c conda-forge
py
我們使用Visual Studio Code作為程式碼編輯器。 首先,建立一個新的檔案,pyarrowDemo.py。
以下是如何使用PyArrow創建表格並執行一些基本操作的簡單範例:
import pyarrow as pa
import pyarrow.dataset as pt
# Create a PyArrow table
data = [
pa.array([1, 2, 3]),
pa.array(['a', 'b', 'c']),
pa.array([1.1, 2.2, 3.3])
]
table = pa.Table.from_arrays(data, names=['col1', 'col2', 'col3'])
# Display the table
print(table)
py
這段 Python 代碼使用 PyArrow 從三個數組(pa.array
)創建一個表(pa.Table
)。 然後它輸出表格,顯示名為「col1」、「col2」和「col3」的列,每列包含對應的整數、字串和浮點數資料。
PyArrow 可以無縫地與Pandas整合,以增強性能,特別是在處理大型數據集時。 以下是一個將 Pandas DataFrame 轉換為 PyArrow Table 的示例:
import pandas as pd
import pyarrow as pa
# Create a Pandas DataFrame
df = pd.DataFrame({
'col1': [1, 2, 3],
'col2': ['a', 'b', 'c'],
'col3': [1.1, 2.2, 3.3]
})
# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)
# Display the table
print(table)
py
該 Python 程式碼將 Pandas DataFrame 轉換為 PyArrow 表(`pa.Table`),然後打印該表。 這個DataFrame由三個列(col1
、col2
、col3
)組成,分別包含整數、字串和浮點數據。
PyArrow 支援讀取和寫入多種檔案格式,如 Parquet 和 Feather。 這些格式經過性能優化,廣泛用於資料處理管道中。
PyArrow 支援記憶體映射文件存取,這使得在不將整個數據集載入記憶體的情況下,可以高效地讀取和寫入大型數據集。
PyArrow 提供工具進行進程間通信,使不同進程之間的數據共享更加高效。
IronPDF 是一個適用於 Python 的庫,用於輕鬆處理 PDF 文件,允許程序化地創建、編輯和操作 PDF 文檔的任務。 它提供了許多功能,如從HTML生成PDF、向現有PDF添加文字、圖片和形狀,以及從PDF文件提取文字和圖片。 以下是一些主要功能
IronPDF 可以輕鬆地將 HTML 文件、HTML 字串和 URL 轉換成 PDF 文件。 利用 Chrome PDF 渲染器將網頁直接轉換為 PDF 格式。
IronPDF 兼容 Python 3+,可在 Windows、Mac、Linux 和雲端平台上無縫運行。 它也支持 .NET、Java、Python 和 Node.js。 環境。
透過設定屬性、增加密碼和權限等安全功能,以及應用數位簽章來增強 PDF 文件。
使用 IronPDF,您可以利用可自訂的頁首、頁尾、頁碼和可調整的邊距來打造個性化 PDF。 它支援響應式佈局,並允許設置自定義紙張尺寸。
IronPDF 遵循 PDF 標準,包括 PDF/A 和 PDF/UA。 支持UTF-8 字符編碼,並能無縫處理影像、CSS 樣式和字體等資產。
IronPDF 使用 .NET 6.0 作為其底層技術。 那麼,您已在系統上安裝了.NET 6.0 執行階段。
Python 3.0+:您需要安裝 Python 版本 3 或更高版本。
pip:安裝 IronPDF 套件需要的 Python 套件安裝工具 pip。
安裝必要的庫:
pip install pyarrow
pip install ironpdf
pip install pyarrow
pip install ironpdf
然後添加以下程式碼來演示 IronPDF 和 pyarrow Python 套件的使用
import pandas as pd
import pyarrow as pa
from ironpdf import *
# Apply your license key
License.LicenseKey = "license"
# Create a Pandas DataFrame
df = pd.DataFrame({
'col1': [1, 2, 3],
'col2': ['a', 'b', 'c'],
'col3': [1.1, 2.2, 3.3]
})
# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)
# Display the table
print(table)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with pyarrow</h1>"
content += "<p>table data</p>"
for row in table:
# Access specific values in a row
value_in_column1 = row[0]
value_in_column2 = row[1]
value_in_column3 = row[2]
content += "<p>"+str(value_in_column1)+","+str(value_in_column2)+","+str(value_in_column3)+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("DemoPyarrow.pdf")
py
該腳本演示了如何整合Pandas、PyArrow和IronPDF庫,從存儲在Pandas DataFrame中的數據創建PDF文檔:
Pandas DataFrame 創建:
轉換為 PyArrow 表格:
使用IronPDF生成PDF:
在使用 IronPDF 套件之前,將授權密鑰放置在腳本的開頭:
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
py
PyArrow 是一個多功能且強大的庫,增強了 Python 在資料處理任務中的能力。 其高效的記憶體格式、互操作性功能以及與Pandas的整合,使其成為數據科學家和工程師不可或缺的工具。 無論您是處理大型數據集、執行複雜數據操作,還是構建數據處理管道,PyArrow 提供了所需的性能和靈活性,以有效應對這些任務。 另一方面,IronPDF 是一個強大的 Python 庫,可簡化從 Python 應用程式中直接創建、操作和渲染 PDF 文件的過程。 它無縫整合到現有的 Python 框架中,使開發者能動態生成和自訂 PDF。 搭配 PyArrow 和 IronPDF Python 套件,使用者可以輕鬆處理資料結構並存檔資料。
IronPDF 也提供了全面的文件來協助開發人員入門,並附有許多展示其強大功能的程式碼範例。 欲了解更多詳情,請造訪文件和代碼範例頁面。