PYTHON 幫助 fastparquet python(開發人員工作原理) Curtis Chau 更新日期:6月 22, 2025 Download IronPDF pip 下載 Start Free Trial Copy for LLMs Copy for LLMs Copy page as Markdown for LLMs Open in ChatGPT Ask ChatGPT about this page Open in Gemini Ask Gemini about this page Open in Grok Ask Grok about this page Open in Perplexity Ask Perplexity about this page Share Share on Facebook Share on X (Twitter) Share on LinkedIn Copy URL Email article fastparquet 是一個設計用於處理常見於大數據工作流中的 Parquet 檔案格式的 Python 函式庫。 它可以很好地與其他基於 Python 的數據處理工具如 Dask 和 Pandas 整合。 讓我們來探索它的功能並查看一些代碼示例。 Later in this article, we will also learn about IronPDF, a PDF generation library from Iron Software. fastparquet 概覽 fastparquet 是高效的並支持廣泛的 Parquet 功能。 其一些主要功能包括: 讀取和寫入 Parquet 文件 輕鬆讀寫 Parquet 文件和其他數據文件。 與 Pandas 和 Dask 集成 無縫使用 Pandas DataFrames 和 Dask 進行並行處理。 壓縮支持 支持各種壓縮算法,如 gzip、snappy、brotli、lz4 和 zstandard 用於數據文件。 高效存儲 針對使用 parquet 列式文件格式和指向文件的元數據文件的大型數據集或數據文件的存儲和檢索進行優化。 安裝 您可以使用 pip 安裝 fastparquet: pip install fastparquet pip install fastparquet SHELL 或者使用 conda: conda install -c conda-forge fastparquet conda install -c conda-forge fastparquet SHELL 基本用法 以下是一個簡單示例,讓你開始使用 fastparquet。 寫入 Parquet 文件 您可以將 Pandas DataFrame 寫入 Parquet 文件: import pandas as pd # Create a sample DataFrame df = pd.DataFrame({ 'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35], 'city': ['New York', 'Los Angeles', 'Chicago'] }) # Write the DataFrame to a Parquet file df.to_parquet('example.parquet', engine='fastparquet') # Display confirmation message print("DataFrame successfully written to 'example.parquet'.") import pandas as pd # Create a sample DataFrame df = pd.DataFrame({ 'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35], 'city': ['New York', 'Los Angeles', 'Chicago'] }) # Write the DataFrame to a Parquet file df.to_parquet('example.parquet', engine='fastparquet') # Display confirmation message print("DataFrame successfully written to 'example.parquet'.") PYTHON 輸出 讀取 Parquet 文件 您可以將 Parquet 文件讀取到 Pandas DataFrame 中: import pandas as pd # Read a Parquet file df = pd.read_parquet('example.parquet', engine='fastparquet') # Display the DataFrame print(df.head()) import pandas as pd # Read a Parquet file df = pd.read_parquet('example.parquet', engine='fastparquet') # Display the DataFrame print(df.head()) PYTHON 輸出 顯示 parquet 文件元數據 import fastparquet as fp # Reading metadata from Parquet file meta = fp.ParquetFile('example.parquet').metadata print("Parquet file metadata:") print(meta) import fastparquet as fp # Reading metadata from Parquet file meta = fp.ParquetFile('example.parquet').metadata print("Parquet file metadata:") print(meta) PYTHON 輸出 進階功能 使用 Dask 進行並行處理 fastparquet 能很好地與 Dask 結合在一起,用於並行處理大數據集: import dask.dataframe as dd # Read a Parquet file into a Dask DataFrame ddf = dd.read_parquet('example.parquet', engine='fastparquet') # Perform operations on the Dask DataFrame result = ddf.groupby('name').mean().compute() # Display the result print(result) import dask.dataframe as dd # Read a Parquet file into a Dask DataFrame ddf = dd.read_parquet('example.parquet', engine='fastparquet') # Perform operations on the Dask DataFrame result = ddf.groupby('name').mean().compute() # Display the result print(result) PYTHON 自定義壓縮 在寫入 Parquet 文件時,您可以指定不同的壓縮算法: import pandas as pd # Create a sample DataFrame df = pd.DataFrame({ 'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35] }) # Write the DataFrame to a Parquet file with gzip compression df.to_parquet('example.parquet', engine='fastparquet', compression='gzip') import pandas as pd # Create a sample DataFrame df = pd.DataFrame({ 'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35] }) # Write the DataFrame to a Parquet file with gzip compression df.to_parquet('example.parquet', engine='fastparquet', compression='gzip') PYTHON 介紹 IronPDF IronPDF 是一個強大的 Python 函式庫,專為從 HTML、CSS、圖像和 JavaScript 生成、修改和數字簽名 PDF 文件而製作。 它在保持最小內存佔用的同時,性能優越。 以下是其關鍵功能: 1. HTML 至 PDF 轉換 使用 IronPDF 將 HTML 文件、HTML 字符串和 URL 轉換為 PDF 文件。 例如,使用 Chrome PDF 渲染器輕鬆地 將網頁渲染為 PDF。 2. 跨平台支持 兼容於 Windows、Mac、Linux 和各種雲平台上的 Python 3+。 IronPDF 也可用於 .NET、Java、Python 和 Node.js 環境。 3. 編輯和簽名 Modify document properties, enhance security with password protection and permissions, and integrate digital signatures into your PDFs using IronPDF. 4. 頁面模板和設置 Tailor PDFs with customized headers, footers, page numbers, and adjustable margins. 它支持響應式佈局並適應自定義紙張尺寸。 5. 標準合規 符合像 PDF/A 和 PDF/UA 這樣的 PDF 標準。 它有效地處理 UTF-8 字符編碼並管理資產如圖像、CSS 樣式表和字體。 使用 IronPDF 和 fastparquet 生成 PDF 文件 IronPDF for Python 先決條件 IronPDF 依賴於 .NET 6.0 作為其底層技術。 因此,請確保您的系統上已安裝 .NET 6.0 運行時。 Python 3.0+:請確保您已安裝 Python 版本 3 或更高。 pip:安裝 Python 軟件包安裝工具 pip 用於安裝 IronPDF 軟件包。 安裝 # Install latest version of the libraries pip install fastparquet pip install pandas pip install ironpdf # Install latest version of the libraries pip install fastparquet pip install pandas pip install ironpdf SHELL 代碼示例 以下代碼示例展示了如何在 Python 中一起使用 fastparquet 和 IronPDF: import pandas as pd import fastparquet as fp from ironpdf import ChromePdfRenderer, License # Apply your license key for IronPDF License.LicenseKey = "your Key" # Sample DataFrame data = { 'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35], 'city': ['New York', 'Los Angeles', 'Chicago'] } df = pd.DataFrame(data) # Writing DataFrame to a Parquet file fp.write('example.parquet', df) # Reading from Parquet file into DataFrame df_read = fp.ParquetFile('example.parquet').to_pandas() # Displaying the read DataFrame print("Original DataFrame:") print(df) print("\nDataFrame read from Parquet file:") print(df_read) # Initialize a ChromePdfRenderer instance renderer = ChromePdfRenderer() # Create a PDF from a HTML string using IronPDF content = "<h1>Awesome Iron PDF with FastParquet</h1>" content += "<p> Original DataFrame:</p>" content += "<p>" + f"{str(df)}" + "</p>" content += "<p> DataFrame read from Parquet file:</p>" content += "<p>" + f"{str(df_read)}" + "</p>" # Render the HTML content to a PDF pdf = renderer.RenderHtmlAsPdf(content) # Export the PDF to a file pdf.SaveAs("Demo-FastParquet.pdf") import pandas as pd import fastparquet as fp from ironpdf import ChromePdfRenderer, License # Apply your license key for IronPDF License.LicenseKey = "your Key" # Sample DataFrame data = { 'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35], 'city': ['New York', 'Los Angeles', 'Chicago'] } df = pd.DataFrame(data) # Writing DataFrame to a Parquet file fp.write('example.parquet', df) # Reading from Parquet file into DataFrame df_read = fp.ParquetFile('example.parquet').to_pandas() # Displaying the read DataFrame print("Original DataFrame:") print(df) print("\nDataFrame read from Parquet file:") print(df_read) # Initialize a ChromePdfRenderer instance renderer = ChromePdfRenderer() # Create a PDF from a HTML string using IronPDF content = "<h1>Awesome Iron PDF with FastParquet</h1>" content += "<p> Original DataFrame:</p>" content += "<p>" + f"{str(df)}" + "</p>" content += "<p> DataFrame read from Parquet file:</p>" content += "<p>" + f"{str(df_read)}" + "</p>" # Render the HTML content to a PDF pdf = renderer.RenderHtmlAsPdf(content) # Export the PDF to a file pdf.SaveAs("Demo-FastParquet.pdf") PYTHON 代碼解釋 此代碼片段展示瞭如何使用多個 Python 函式庫來操作數據並從 HTML 內容生成 PDF 文件。 導入和設置:導入數據操作、讀取和寫入 Parquet 文件以及生成 PDF 文件所需的庫。 設置許可證密鑰:設置 IronPDF 的許可證密鑰,以啟用其全部功能。 創建一個示例 DataFrame:定義一個包含人員(姓名、年齡、城市)信息的示例 DataFrame(df)。 將 DataFrame 寫入 Parquet:將 DataFrame df 寫入名為 example.parquet 的 Parquet 文件。 從 Parquet 文件讀取:將 Parquet 文件(example.parquet)中的數據讀取回一個 DataFrame(df_read)。 從 HTML 生成 PDF: 使用 IronPDF 初始化一個 ChromePdfRenderer 實例。 構建一個包含標題(<h1>)和段落(<p>)的 HTML 字符串(content),用以展示原始 DataFrame(df)和從 Parquet 文件讀取的 DataFrame(df_read)。 使用 IronPDF 將 HTML 內容渲染為 PDF 文檔。 將生成的 PDF 文件保存為 Demo-FastParquet.pdf。 該代碼說明了 FastParquet 的一個示例代碼,將數據處理能力與 PDF 生成相結合,非常適合創建基於存儲在 Parquet 文件中的數據的報告或文檔。 輸出 輸出 PDF IronPDF 許可證 有關許可證資料,請訪問IronPDF 許可證頁面。 在使用IronPDF 套件之前,請在腳本的開頭放置許可證密鑰: from ironpdf import License # Apply your license key License.LicenseKey = "your Key" from ironpdf import License # Apply your license key License.LicenseKey = "your Key" PYTHON 結論 fastparquet 是一個強大且高效的庫,用於在 Python 中處理 parquet 文件。 它與 Pandas 和 Dask 的集成使它成為在基於 Python 的大數據工作流中處理大數據集的理想選擇。 IronPDF 是一個強大的 Python 函式庫,支持直接從 Python 應用程序創建、操作和渲染 PDF 文件。 它簡化了將 HTML 內容轉換為 PDF 文件、創建交互式表單、執行各類 PDF 操作如合併文件或添加水印等任務。 IronPDF 與現有的 Python 框架和環境無縫集成,為開發人員提供生成和自定義 PDF 文件的多功能解決方案。 與 fastparquet 一起,IronPDF 可實現 parquet 文件格式的數據操作和 PDF 生成的無縫集成。 IronPDF 提供全面的文檔和代碼範例,幫助開發者充分利用其功能。 For more information, please refer to the documentation and code example pages. Curtis Chau 立即與工程團隊聊天 技術作家 Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。 相關文章 更新日期 6月 22, 2025 deepstream io(開發人員的工作原理) 在這篇文章中,我們將學習如何使用開放即時伺服器 deepstream 和 IronPDF 生成 PDF。 閱讀更多 更新日期 6月 22, 2025 imageio python(開發人員如何工作) 我們將探討如何使用 Imageio 讀寫圖像,然後我們還將研究 IronPDF 從 Iron Software 生產的生成 PDF 文檔 閱讀更多 更新日期 6月 22, 2025 igraph python(開發人員如何工作) 在這篇文章中,我們使用 igraph 展示了如何能夠生成網絡圖,並打印到 PDF 文件,使用靈活和可靠的 IronPDF 庫。 閱讀更多 Flask python(開發人員工作原理)Keras python(開發人員工作...
更新日期 6月 22, 2025 imageio python(開發人員如何工作) 我們將探討如何使用 Imageio 讀寫圖像,然後我們還將研究 IronPDF 從 Iron Software 生產的生成 PDF 文檔 閱讀更多
更新日期 6月 22, 2025 igraph python(開發人員如何工作) 在這篇文章中,我們使用 igraph 展示了如何能夠生成網絡圖,並打印到 PDF 文件,使用靈活和可靠的 IronPDF 庫。 閱讀更多