PYTHON帮助

pyarrow（开发者如何使用）

查克尼特·宾

2024年八月13日

介绍

PyArrow是一个功能强大的库，为 Apache Arrow 框架提供了一个 Python 接口。 Apache Arrow 是一个跨语言的内存数据开发平台。它规定了一种独立于语言的标准化列式存储格式，适用于扁平和分层数据，可在现代硬件上进行高效分析操作。PyArrowApache Arrow Python Bindings 基本上是作为一个 python 软件包实现的。 PyArrow在不同的数据处理系统和编程语言之间实现高效的数据交换和互操作性。在本文后面，我们还将了解到IronPDF，一个由...开发的PDF生成库铁软件.

PyArrow 的主要功能

列式存储格式：
PyArrow 使用列式内存格式，对于内存中的分析操作非常高效。这种格式可以更好地利用 CPU 缓存和矢量化操作，是数据处理任务的理想选择。 PyArrow 具有列式性质，可以高效读写 parquet 文件结构。

互操作性：PyArrow 的主要优势之一是能够促进不同编程语言和系统之间的数据交换，而无需进行序列化或反序列化。这在数据科学和机器学习等使用多种语言的环境中尤其有用。
与 Pandas 集成：PyArrow 可用作 Pandas 的后端，从而实现高效的数据操作和存储。从 Pandas 2.0 开始，可以将数据存储在 Arrow 数组而不是 NumPy 数组中，这样可以提高性能，尤其是在处理字符串数据时。
支持各种数据类型：PyArrow 支持多种数据类型，包括基元类型(整数，浮点数), 复杂类型(结构体，列表).NET、Java 和嵌套类型。这使它成为处理不同类型数据的通用工具。
零拷贝读取：PyArrow 允许零拷贝读取，这意味着从 Arrow 内存格式读取数据时无需复制。这样可以减少内存开销，提高性能。

安装

安装PyArrow, 你可以使用 pip或康达:

pip install pyarrow

或

conda install pyarrow -c conda-forge

conda install pyarrow -c conda-forge

PYTHON

基本用法

我们正在使用Visual Studio 代码作为代码编辑器。首先创建一个新文件 pyarrowDemo.py。

下面是一个如何使用 PyArrow 创建表格并执行一些基本操作的简单示例：

import pyarrow as pa
import pyarrow.dataset as pt
# Create a PyArrow table
data = [
    pa.array([1, 2, 3]),
    pa.array(['a', 'b', 'c']),
    pa.array([1.1, 2.2, 3.3])
]
table = pa.Table.from_arrays(data, names=['col1', 'col2', 'col3'])
# Display the table
print(table)

import pyarrow as pa
import pyarrow.dataset as pt
# Create a PyArrow table
data = [
    pa.array([1, 2, 3]),
    pa.array(['a', 'b', 'c']),
    pa.array([1.1, 2.2, 3.3])
]
table = pa.Table.from_arrays(data, names=['col1', 'col2', 'col3'])
# Display the table
print(table)

PYTHON

代码解释

Python 代码使用 PyArrow 创建表格(`pa.Table`)从三个数组(`pa.array`). 首先，翻译人员需要将 "col1"、"col2 "和 "col3 "这三个列的数据输入表格，然后打印表格，显示名为 "col1"、"col2 "和 "col3 "的列，每个列包含相应的整数、字符串和浮点数数据。

输出

pyarrow（开发人员如何使用）：图1 - 控制台输出显示一个PyArrow表对象及其内容。

与 Pandas 集成

PyArrow可与以下工具无缝集成大熊猫翻译的目的是提高性能，尤其是在处理大型数据集时。下面是将 Pandas DataFrame 转换为 PyArrow Table 的示例：

import pandas as pd
import pyarrow as pa
# Create a Pandas DataFrame
df = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': ['a', 'b', 'c'],
    'col3': [1.1, 2.2, 3.3]
})
# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)
# Display the table
print(table)

import pandas as pd
import pyarrow as pa
# Create a Pandas DataFrame
df = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': ['a', 'b', 'c'],
    'col3': [1.1, 2.2, 3.3]
})
# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)
# Display the table
print(table)

PYTHON

代码解释

Python 代码将 Pandas DataFrame 转换为 PyArrow 表(`pa.Table`)然后打印表格。数据框架由三列组成(`col1`, `col2`, `col3`)使用整数、字符串和浮点数据。

输出

pyarrow（开发人员如何使用）：图2 - 控制台输出显示了一个通过将 pandas 数据框转换为 PyArrow 表格生成的 PyArrow 表格对象。

高级功能

1.文件格式

PyArrow 支持读写各种文件格式，如 Parquet 和 Feather。这些格式经过性能优化，广泛应用于数据处理管道。

2.内存映射

PyArrow 支持内存映射文件访问，可以高效读写大型数据集，而无需将整个数据集加载到内存中。

3.进程间通信

PyArrow 提供用于进程间通信的工具，实现不同进程之间的高效数据共享。

介绍IronPDF

pyarrow（开发者工作原理）：图 3 - IronPDF for Python：Python PDF 库

IronPDF是一个用于 Python 的库，可方便地处理 PDF 文件，实现以编程方式创建、编辑和处理 PDF 文档等任务。它提供的功能包括从 HTML 生成 PDF将文本、图像和形状添加到现有PDF文件中，以及提取文本和图像从PDF文件。以下是一些主要特点

从HTML生成PDF文件

IronPdf 可以轻松地将 HTML 文件、HTML 字符串和 URL 转换为 PDF 文档。利用 Chrome 浏览器 PDF 渲染器来渲染网页直接转换为PDF格式。

跨平台兼容性

IronPDF 兼容 Python 3+，可在 Windows、Mac、Linux 和云平台上无缝运行。还支持.NET, Java, Python和Node.js. 环境。

编辑和签名功能

通过设置属性、添加安全功能（如密码和权限和应用数字签名.

自定义页面模板和设置

使用 IronPDF，您可以用可定制的 PDF页眉、页脚, 页码此外，译文还必须具有可调整的页边距。它支持响应式布局，并允许设置自定义纸张尺寸。

标准合规性

IronPDF 符合 PDF 标准，包括 PDF/A 和 PDF/UA。支持UTF-8字符编码并无缝处理如图像、CSS 样式和字体等资产。

使用IronPDF和PyArrow生成PDF文档

IronPDF 前提条件

IronPDF.NET6.0》使用 .NET 6.0 作为底层技术。因此，您需要.NET 6.0 运行时在您的系统中安装了
Python 3.0+：您需要安装 Python 3 或更高版本。
pip：安装 Python 软件包的安装程序pip用于 IronPDF 软件包的安装。
安装必要的库：

pip install pyarrow 
pip install ironpdf

然后添加以下代码，以演示IronPDF和pyarrow Python软件包的用法

import pandas as pd
import pyarrow as pa
from ironpdf import * 
# Apply your license key
License.LicenseKey = "license"
# Create a Pandas DataFrame
df = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': ['a', 'b', 'c'],
    'col3': [1.1, 2.2, 3.3]
})
# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)
# Display the table
print(table)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with pyarrow</h1>"
content += "<p>table data</p>"
for row in table:
    # Access specific values in a row
    value_in_column1 = row[0]
    value_in_column2 = row[1]
    value_in_column3 = row[2]
    content += "<p>"+str(value_in_column1)+","+str(value_in_column2)+","+str(value_in_column3)+"</p>"    
pdf = renderer.RenderHtmlAsPdf(content)    
    # Export to a file or Stream
pdf.SaveAs("DemoPyarrow.pdf")

import pandas as pd
import pyarrow as pa
from ironpdf import * 
# Apply your license key
License.LicenseKey = "license"
# Create a Pandas DataFrame
df = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': ['a', 'b', 'c'],
    'col3': [1.1, 2.2, 3.3]
})
# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)
# Display the table
print(table)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with pyarrow</h1>"
content += "<p>table data</p>"
for row in table:
    # Access specific values in a row
    value_in_column1 = row[0]
    value_in_column2 = row[1]
    value_in_column3 = row[2]
    content += "<p>"+str(value_in_column1)+","+str(value_in_column2)+","+str(value_in_column3)+"</p>"    
pdf = renderer.RenderHtmlAsPdf(content)    
    # Export to a file or Stream
pdf.SaveAs("DemoPyarrow.pdf")

PYTHON

代码解释

该脚本演示了集成 Pandas、PyArrow 和 IronPDF 库，从存储在 Pandas DataFrame 中的数据创建 PDF 文档：

Pandas 数据框架创建：
- 创建 Pandas 数据框架(数据框)三列(col1, col2, col3)包含数字和字符串数据。
转换为 PyArrow 表格：
- 转换 Pandas 数据框架("数据框")转换为PyArrow表(表)使用 pa.Table.from_pandas()方法。这种转换有助于高效的数据处理以及与基于 Arrow 的应用程序的互操作性。
使用 IronPDF 生成 PDF：
- 使用 IronPDF 的 ChromePdfRenderer 并调用其 RenderHtmlAsPdf 方法生成 PDF 文档(DemoPyarrow.pdf)来自 HTML 字符串(内容), 包括 PyArrow 表中提取的标题和数据(表格).

输出

pyarrow（开发者工作原理）：图 4 - 通过将 pandas dataframe 转换为 PyArrow 表，控制台输出显示一个 PyArrow 表对象。

输出 PDF

pyarrow（它对开发者的工作原理）：图5 - 使用IronPDF for Python库生成的输出PDF，显示了来自PyArrow表的逐行数据。

IronPDF 许可证

IronPDF Python.

在使用IronPDF包之前，请将许可证密钥放在脚本的开头：

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"

PYTHON

结论

PyArrowPython 是一个功能强大的通用库，可增强 Python 在数据处理任务方面的能力。它的高效内存格式、互操作性功能以及与 Pandas 的集成使其成为数据科学家和工程师的必备工具。无论您是处理大型数据集、执行复杂的数据操作还是构建数据处理管道，PyArrow都能提供有效处理这些任务所需的性能和灵活性。另一方面，IronPDF是一个强大的 Python 库，可简化直接从 Python 应用程序创建、操作和渲染 PDF 文档的过程。它与现有的 Python 框架无缝集成，允许开发人员动态生成和定制 PDF。同时PyArrow和IronPDF使用 Python 软件包，用户可以轻松处理数据结构并将数据归档。

IronPDF此外，还提供了全面的文档来帮助开发人员入门，并辅以大量代码示例来展示其强大的功能。有关详细信息，请访问文献资料和代码示例页码

查克尼特·宾

立即与工程团队聊天

软件工程师

Chaknith 负责 IronXL 和 IronBarcode 的工作。他在 C# 和 .NET 方面拥有深厚的专业知识，帮助改进软件并支持客户。他从用户互动中获得的洞察力，有助于提升产品、文档和整体体验。

< 前一页
crc32c Python（开发者如何使用）

下一步 >
加密 Python（开发者如何使用）