Zum Fußzeileninhalt springen
PYTHON-HILFE

fastparquet python (Wie es für Entwickler funktioniert)

fastparquet ist eine Python-Bibliothek, die für die Verarbeitung des Parquet-Dateiformats entwickelt wurde, das häufig in Big-Data-Workflows verwendet wird. Es lässt sich gut mit anderen Python-basierten Datenverarbeitungstools wie Dask und Pandas integrieren. Schauen wir uns die Funktionen an und sehen wir uns einige Code-Beispiele an. Later in this article, we will also learn about IronPDF, a PDF generation library from Iron Software.

Überblick über fastparquet

fastparquet ist effizient und unterstützt eine breite Palette von Parquet-Funktionen. Einige der wichtigsten Merkmale sind:

Lesen und Schreiben von Parquet-Dateien

Einfaches Lesen von und Schreiben in Parquet-Dateien und anderen Datendateien.

Integration mit Pandas und Dask

Nahtloses Arbeiten mit Pandas DataFrames und Dask für parallele Verarbeitung.

Komprimierungsunterstützung

Unterstützt verschiedene Kompressionsalgorithmen wie gzip, snappy, brotli, lz4 und zstandard in Datendateien.

Effiziente Speicherung

Optimiert für die Speicherung und den Abruf großer Datensätze oder Datendateien unter Verwendung des kolumnaren Parquet-Dateiformats und einer Metadaten-Datei, die auf die Datei verweist.

Installation

Sie können fastparquet mit pip installieren:

pip install fastparquet
pip install fastparquet
SHELL

Oder mit conda:

conda install -c conda-forge fastparquet
conda install -c conda-forge fastparquet
SHELL

Grundlegende Verwendung

Hier ist ein einfaches Beispiel, um Ihnen den Einstieg in fastparquet zu erleichtern.

Schreiben einer Parkett-Datei

Sie können einen Pandas DataFrame in eine Parquet-Datei schreiben:

import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
})

# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')

# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")
import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
})

# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')

# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")
PYTHON

Ausgabe

fastparquet Python (How It Works For Developers): Abbildung 1 - Konsolenausgabe

Lesen einer Parquet-Datei

Sie können eine Parquet-Datei in einen Pandas DataFrame einlesen:

import pandas as pd

# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')

# Display the DataFrame
print(df.head())
import pandas as pd

# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')

# Display the DataFrame
print(df.head())
PYTHON

Ausgabe

fastparquet Python (How It Works For Developers): Abbildung 2 - Konsolenausgabe

Anzeige der Metadaten von Parkettdateien

import fastparquet as fp

# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
import fastparquet as fp

# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
PYTHON

Ausgabe

fastparquet Python (How It Works For Developers): Abbildung 3 - Konsolenausgabe

Erweiterte Funktionen

Verwendung von Dask für parallele Verarbeitung

fastparquet lässt sich gut mit Dask integrieren, um große Datensätze parallel zu verarbeiten:

import dask.dataframe as dd

# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')

# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()

# Display the result
print(result)
import dask.dataframe as dd

# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')

# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()

# Display the result
print(result)
PYTHON

Komprimierung anpassen

Sie können beim Schreiben von Parquet-Dateien verschiedene Kompressionsalgorithmen angeben:

import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})

# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})

# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
PYTHON

Einführung in IronPDF

fastparquet Python (Wie es für Entwickler funktioniert): Abbildung 4 - IronPDF for Python: Die Python-PDF-Bibliothek

IronPDF ist eine robuste Python-Bibliothek zum Erzeugen, Ändern und digitalen Signieren von PDF-Dokumenten aus HTML, CSS, Bildern und JavaScript. Sie zeichnet sich durch eine hohe Leistung bei minimalem Speicherbedarf aus. Hier sind die wichtigsten Merkmale:

1. HTML zu PDF Konvertierung

Konvertieren Sie mit IronPDF HTML-Dateien, HTML-Strings und URLs in PDF-Dokumente. Zum Beispiel können Sie mit dem PDF-Renderer von Chrome mühelos Webseiten in PDFs umwandeln.

2. plattformübergreifende Unterstützung

Kompatibel mit Python 3+ unter Windows, Mac, Linux und verschiedenen Cloud-Plattformen. IronPDF ist auch für .NET-, Java-, Python- und Node.js-Umgebungen zugänglich.

3. redaktionelle Bearbeitung und Unterzeichnung

Modify document properties, enhance security with password protection and permissions, and integrate digital signatures into your PDFs using IronPDF.

4. seitenvorlagen und einstellungen

Tailor PDFs with customized headers, footers, page numbers, and adjustable margins. Sie unterstützt responsive Layouts und passt sich an individuelle Papiergrößen an.

5. Einhaltung von Standards

Konformität mit PDF-Standards wie PDF/A und PDF/UA. Sie behandelt die UTF-8-Zeichenkodierung und verwaltet Assets wie Bilder, CSS-Stylesheets und Schriftarten effektiv.

Erzeugen von PDF-Dokumenten mit IronPDF und fastparquet

IronPDF for Python Voraussetzungen

  1. IronPDF setzt auf .NET 6.0 als zugrunde liegende Technologie. Bitte stellen Sie daher sicher, dass .NET 6.0 Runtime auf Ihrem System installiert ist.
  2. Python 3.0+: Stellen Sie sicher, dass Sie Python Version 3 oder höher installiert haben.
  3. pip: Installieren Sie das Python-Paket-Installationsprogramm pip für die Installation des IronPDF-Pakets.

Installation

# Install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
# Install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
SHELL

Codebeispiel

Das folgende Codebeispiel demonstriert die Verwendung von fastparquet und IronPDF zusammen in Python:

import pandas as pd
import fastparquet as fp
from ironpdf import ChromePdfRenderer, License

# Apply your license key for IronPDF
License.LicenseKey = "your Key"

# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)

# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()

# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)

# Initialize a ChromePdfRenderer instance
renderer = ChromePdfRenderer()

# Create a PDF from a HTML string using IronPDF
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:</p>"
content += "<p>" + f"{str(df)}" + "</p>"
content += "<p> DataFrame read from Parquet file:</p>"
content += "<p>" + f"{str(df_read)}" + "</p>"

# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)

# Export the PDF to a file
pdf.SaveAs("Demo-FastParquet.pdf")
import pandas as pd
import fastparquet as fp
from ironpdf import ChromePdfRenderer, License

# Apply your license key for IronPDF
License.LicenseKey = "your Key"

# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)

# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()

# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)

# Initialize a ChromePdfRenderer instance
renderer = ChromePdfRenderer()

# Create a PDF from a HTML string using IronPDF
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:</p>"
content += "<p>" + f"{str(df)}" + "</p>"
content += "<p> DataFrame read from Parquet file:</p>"
content += "<p>" + f"{str(df_read)}" + "</p>"

# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)

# Export the PDF to a file
pdf.SaveAs("Demo-FastParquet.pdf")
PYTHON

Code-Erläuterung

Dieser Codeschnipsel zeigt, wie mehrere Python-Bibliotheken verwendet werden, um Daten zu manipulieren und ein PDF-Dokument aus HTML-Inhalten zu erzeugen.

  1. Importieren und Einrichten: Importieren Sie die erforderlichen Bibliotheken für die Datenbearbeitung, das Lesen und Schreiben von Parquet-Dateien und die PDF-Erzeugung.

  2. Lizenzschlüssel festlegen: Legen Sie den Lizenzschlüssel für IronPDF fest, um den vollen Funktionsumfang zu aktivieren.

  3. Erstellen eines Beispiel-DataFrame: Definieren Sie einen Beispiel-DataFrame (df), der Informationen über Personen (Name, Alter, Stadt) enthält.

  4. DataFrame zu Parquet schreiben: Schreiben Sie den DataFrame df in eine Parquet-Datei mit dem Namen Beispiel.parquet.

  5. Lesen aus Parquet-Datei: Lesen von Daten aus der Parquet-Datei (example.parquet) zurück in einen DataFrame (df_read).

  6. Erzeugung von PDF aus HTML:
    • Initialisieren Sie eine ChromePdfRenderer-Instanz mit IronPDF.
    • Konstruieren Sie einen HTML-String (content), der eine Überschrift (<h1>) und Absätze (<p>) enthält, die den ursprünglichen DataFrame (df) und den aus der Parquet-Datei gelesenen DataFrame (df_read) anzeigen.
    • Rendern Sie den HTML-Inhalt mit IronPDF als PDF-Dokument.
    • Speichern Sie das erzeugte PDF-Dokument als Demo-FastParquet.pdf.

Der Code demonstriert einen Beispielcode für FastParquet, der Datenverarbeitungsfunktionen mit der PDF-Generierung verbindet und damit nützlich für die Erstellung von Berichten oder Dokumenten auf der Grundlage von in Parkettdateien gespeicherten Daten ist.

AUSGABE

fastparquet Python (How It Works For Developers): Abbildung 5 - Konsolenausgabe mit Anzeige der Daten aus dem ursprünglichen Datenrahmen und dem aus der Parquet-Datei gelesenen Datenrahmen.

AUSGABE PDF

fastparquet Python (Wie es für Entwickler funktioniert): Abbildung 6 - Mit der IronPDF-Bibliothek erzeugte PDF-Ausgabe

IronPDF Lizenz

Lizenzinformationen finden Sie auf der IronPDF Lizenzierungsseite.

Setzen Sie den Lizenzschlüssel an den Anfang des Skripts, bevor Sie das IronPDF-Paket verwenden:

from ironpdf import License

# Apply your license key
License.LicenseKey = "your Key"
from ironpdf import License

# Apply your license key
License.LicenseKey = "your Key"
PYTHON

Abschluss

fastparquet ist eine leistungsstarke und effiziente Bibliothek für die Arbeit mit Parkettdateien in Python. Die Integration mit Pandas und Dask macht es zu einer guten Wahl für die Verarbeitung großer Datenmengen in einem Python-basierten Big-Data-Workflow. IronPDF ist eine robuste Python-Bibliothek, die die Erstellung, Bearbeitung und das Rendering von PDF-Dokumenten direkt aus Python-Anwendungen ermöglicht. Sie vereinfacht Aufgaben wie die Konvertierung von HTML-Inhalten in PDF-Dokumente, die Erstellung interaktiver Formulare und die Durchführung verschiedener PDF-Manipulationen wie das Zusammenführen von Dateien oder das Hinzufügen von Wasserzeichen. IronPDF lässt sich nahtlos in bestehende Python-Frameworks und -Umgebungen integrieren und bietet Entwicklern eine vielseitige Lösung zur dynamischen Erzeugung und Anpassung von PDF-Dokumenten. Zusammen mit fastparquet ermöglicht IronPDF die nahtlose Datenmanipulation in Parkettdateiformaten und die PDF-Erzeugung.

IronPDF bietet eine umfassende Dokumentation und Codebeispiele, um Entwicklern zu helfen, die Funktionen optimal zu nutzen. For more information, please refer to the documentation and code example pages.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen