Zum Fußzeileninhalt springen
PYTHON-HILFE

fastparquet python (Wie es für Entwickler funktioniert)

fastparquet ist eine Python-Bibliothek, die entwickelt wurde, um mit dem Parquet-Dateiformat umzugehen, das häufig in Big-Data-Workflows verwendet wird. Es integriert sich gut mit anderen Python-basierten Datenverarbeitungstools wie Dask und Pandas. Lassen Sie uns seine Funktionen erkunden und einige Codebeispiele ansehen. Später in diesem Artikel erfahren wir auch mehr über IronPDF, eine PDF-Generierungsbibliothek von Iron Software.

Überblick über fastparquet

fastparquet ist effizient und unterstützt eine breite Palette von Parquet-Funktionen. Einige seiner wichtigsten Funktionen sind:

Lesen und Schreiben von Parquet-Dateien

Einfaches Lesen von und Schreiben zu Parquet-Dateien und anderen Datendateien.

Integration mit Pandas und Dask

Nahtlose Arbeit mit Pandas DataFrames und Dask für parallele Verarbeitung.

Unterstützung für Komprimierung

Unterstützt verschiedene Kompressionsalgorithmen wie gzip, snappy, brotli, lz4 und zstandard in Datendateien.

Effiziente Speicherung

Optimiert für sowohl Speicherung als auch Abruf großer Datensätze oder Datendateien mithilfe des Parquet-säulenbasierten Dateiformats und Metadatendateien, die auf die Datei verweisen.

Installation

Sie können fastparquet mit pip installieren:

pip install fastparquet
pip install fastparquet
SHELL

Oder mit conda:

conda install -c conda-forge fastparquet
conda install -c conda-forge fastparquet
SHELL

Grundlagen

Hier ist ein einfaches Beispiel, um Ihnen den Einstieg mit fastparquet zu erleichtern.

Schreiben einer Parquet-Datei

Sie können ein Pandas DataFrame in eine Parquet-Datei schreiben:

import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
})

# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')

# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")
import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
})

# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')

# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")
PYTHON

Ausgabe

fastparquet Python (So funktioniert es für Entwickler): Abbildung 1 - Konsolenausgabe

Lesen einer Parquet-Datei

Sie können eine Parquet-Datei in ein Pandas DataFrame einlesen:

import pandas as pd

# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')

# Display the DataFrame
print(df.head())
import pandas as pd

# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')

# Display the DataFrame
print(df.head())
PYTHON

Ausgabe

fastparquet Python (So funktioniert es für Entwickler): Abbildung 2 - Konsolenausgabe

Anzeigen von Parquet-Dateimetadata

import fastparquet as fp

# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
import fastparquet as fp

# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
PYTHON

Ausgabe

fastparquet Python (So funktioniert es für Entwickler): Abbildung 3 - Konsolenausgabe

Erweiterte Funktionen

Verwendung von Dask für parallele Verarbeitung

fastparquet integriert sich gut mit Dask für die Bearbeitung großer Datensätze in Parallelverarbeitung:

import dask.dataframe as dd

# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')

# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()

# Display the result
print(result)
import dask.dataframe as dd

# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')

# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()

# Display the result
print(result)
PYTHON

Anpassen der Komprimierung

Sie können beim Schreiben von Parquet-Dateien verschiedene Kompressionsalgorithmen angeben:

import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})

# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})

# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
PYTHON

Einführung in IronPDF

fastparquet Python (So funktioniert es für Entwickler): Abbildung 4 - IronPDF for Python: Die Python PDF-Bibliothek

IronPDF ist eine robuste Python-Bibliothek, die für das Erstellen, Ändern und digitale Signieren von PDF-Dokumenten entwickelt wurde, die von HTML, CSS, Bildern und JavaScript abgeleitet sind. Es überzeugt durch Leistung und behält gleichzeitig einen minimalen Speicherbedarf bei. Hier sind seine Hauptfunktionen:

1. HTML-zu-PDF-Umwandlung

Konvertieren Sie HTML-Dateien, HTML-Strings und URLs in PDF-Dokumente mit IronPDF. Zum Beispiel mühelos Webseiten in PDFs rendern mit dem Chrome PDF-Renderer.

2. Plattformübergreifende Unterstützung

Kompatibel mit Python 3+ unter Windows, Mac, Linux und verschiedenen Cloud-Plattformen. IronPDF ist auch für .NET-, Java-, Python- und Node.js-Umgebungen zugänglich.

3. Bearbeiten und Signieren

Ändern Sie die Dokumenteigenschaften, erhöhen Sie die Sicherheit mit Passwortschutz und Berechtigungen und integrieren Sie digitale Signaturen in Ihre PDFs mit IronPDF.

4. Seitenschablonen und Einstellungen

Passen Sie PDFs mit benutzerdefinierten Kopfzeilen, Fußzeilen, Seitenzahlen und anpassbaren Rändern an. Es unterstützt responsive Layouts und bietet die Möglichkeit, benutzerdefinierte Papiergrößen anzupassen.

5. Einhaltung von Standards

Es erfüllt PDF-Standards wie PDF/A und PDF/UA. Es verarbeitet UTF-8-Zeichencodierung und verwaltet effektiv Assets wie Bilder, CSS-Stilblätter und Schriftarten.

PDF-Dokumente mit IronPDF und fastparquet erstellen

IronPDF für Python Voraussetzungen

  1. IronPDF stützt sich auf .NET 6.0 als seine zugrunde liegende Technologie. Stellen Sie daher sicher, dass .NET 6.0 Runtime auf Ihrem System installiert ist.
  2. Python 3.0+: Stellen Sie sicher, dass Sie Python Version 3 oder höher installiert haben.
  3. pip: Installieren Sie den Python-Paketmanager pip für die Installation des IronPDF-Pakets.

Installation

# Install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
# Install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
SHELL

Beispielcode

Das folgende Codebeispiel zeigt die Verwendung von fastparquet und IronPDF zusammen in Python:

import pandas as pd
import fastparquet as fp
from ironpdf import ChromePdfRenderer, License

# Apply your license key for IronPDF
License.LicenseKey = "your Key"

# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)

# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()

# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)

# Initialize a ChromePdfRenderer instance
renderer = ChromePdfRenderer()

# Create a PDF from a HTML string using IronPDF
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:</p>"
content += "<p>" + f"{str(df)}" + "</p>"
content += "<p> DataFrame read from Parquet file:</p>"
content += "<p>" + f"{str(df_read)}" + "</p>"

# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)

# Export the PDF to a file
pdf.SaveAs("Demo-FastParquet.pdf")
import pandas as pd
import fastparquet as fp
from ironpdf import ChromePdfRenderer, License

# Apply your license key for IronPDF
License.LicenseKey = "your Key"

# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)

# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()

# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)

# Initialize a ChromePdfRenderer instance
renderer = ChromePdfRenderer()

# Create a PDF from a HTML string using IronPDF
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:</p>"
content += "<p>" + f"{str(df)}" + "</p>"
content += "<p> DataFrame read from Parquet file:</p>"
content += "<p>" + f"{str(df_read)}" + "</p>"

# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)

# Export the PDF to a file
pdf.SaveAs("Demo-FastParquet.pdf")
PYTHON

Code-Erklärung

Dieser Codeausschnitt zeigt, wie Sie mehrere Python-Bibliotheken verwenden, um Daten zu manipulieren und ein PDF-Dokument aus HTML-Inhalten zu erstellen.

  1. Import und Einrichtung: Importieren Sie die notwendigen Bibliotheken für die Datenmanipulation, das Lesen und Schreiben von Parquet-Dateien und die PDF-Generierung.

  2. Lizenzschlüssel festlegen: Legen Sie den Lizenzschlüssel für IronPDF fest, um alle Funktionen zu aktivieren.

  3. Erstellen eines Beispiel-DataFrames: Definieren Sie einen Beispiel-DataFrame (df), der Informationen über Personen (Name, Alter, Stadt) enthält.

  4. DataFrame in Parquet schreiben: Schreiben Sie den DataFrame df in eine Parquet-Datei mit dem Namen example.parquet.

  5. Lesen aus der Parquet-Datei: Daten aus der Parquet-Datei (example.parquet) zurück in einen DataFrame (df_read) lesen.

  6. PDF aus HTML generieren:
    • Eine ChromePdfRenderer-Instanz mit IronPDF initialisieren.
    • Erstellen Sie eine HTML-Zeichenkette (content), die eine Überschrift (<h1>) und Absätze (<p>) enthält, welche den ursprünglichen DataFrame (df) und den aus der Parquet-Datei gelesenen DataFrame (df_read) anzeigen.
    • Den HTML-Inhalt als PDF-Dokument mit IronPDF rendern.
    • Speichern Sie das generierte PDF-Dokument unter Demo-FastParquet.pdf.

Der Code zeigt ein Beispiel für die Verwendung von FastParquet, indem Datenverarbeitungsfunktionen mit der PDF-Erzeugung integriert werden, was es nützlich macht, Berichte oder Dokumente basierend auf Daten zu erstellen, die in Parquet-Dateien gespeichert sind.

AUSGABE

fastparquet Python (So funktioniert es für Entwickler): Abbildung 5 – Konsolenausgabe mit Daten aus dem ursprünglichen Dataframe und dem aus der Parquet-Datei gelesenen Dataframe.

AUSGABE-PDF

fastparquet Python (So funktioniert es für Entwickler): Abbildung 6 - Ausgabe-PDF, generiert mit der IronPDF Bibliothek

IronPDF-Lizenz

Für Lizenzinformationen besuchen Sie die IronPDF-Lizenzierungsseite.

Setzen Sie den Lizenzschlüssel am Anfang des Skripts, bevor Sie das IronPDF-Paket verwenden:

from ironpdf import License

# Apply your license key
License.LicenseKey = "your Key"
from ironpdf import License

# Apply your license key
License.LicenseKey = "your Key"
PYTHON

Abschluss

fastparquet ist eine leistungsstarke und effiziente Bibliothek zum Arbeiten mit Parquet-Dateien in Python. Die Integration mit Pandas und Dask macht es zu einer hervorragenden Wahl für die Handhabung großer Datensätze in einem Python-basierten Big-Data-Workflow. IronPDF ist eine robuste Python-Bibliothek, die die Erstellung, Bearbeitung und Wiedergabe von PDF-Dokumenten direkt aus Python-Anwendungen ermöglicht. Es vereinfacht Aufgaben wie das Konvertieren von HTML-Inhalten in PDF-Dokumente, das Erstellen interaktiver Formulare und das Durchführen verschiedener PDF-Manipulationen wie das Zusammenführen von Dateien oder das Hinzufügen von Wasserzeichen. IronPDF integriert sich nahtlos mit bestehenden Python-Frameworks und -Umgebungen und bietet Entwicklern eine vielseitige Lösung zur dynamischen Erstellung und Anpassung von PDF-Dokumenten. Zusammen mit fastparquet ermöglicht IronPDF nahtlose Datenverarbeitung im Parquet-Dateiformat und die PDF-Erzeugung.

IronPDF bietet umfassende Dokumentation und Codebeispiele, um Entwicklern dabei zu helfen, das Beste aus seinen Funktionen herauszuholen. Für weitere Informationen lesen Sie bitte die Dokumentation und die Codebeispiel-Seiten.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen

Iron Support Team

Wir sind 24 Stunden am Tag, 5 Tage die Woche online.
Chat
E-Mail
Rufen Sie mich an