DataFrame describe() in Pandas in breve
La funzione di Pandas per Python DataFrame describe()
serve a creare un riepilogo statistico delle colonne numeriche presenti in un DataFrame. Tale riepilogo contiene importanti informazioni statistiche come media, deviazione standard, minimo, massimo e diversi quantili dei dati.
- Certificato SSL e protezione DDoS
- Velocità, flessibilità e scalabilità
- Dominio e consulente personale
- 1 anno gratis del gestionale di fatturazione elettronica FlexTax
Sintassi della funzione describe()
in Pandas
La sintassi di base della funzione describe()
in Pandas per un DataFrame è piuttosto complicata e si presenta così:
DataFrame.describe(percentiles=None, include=None, exclude=None)
pythonParametri importanti per DataFrame.describe()
in Pandas
È possibile apportare modifiche all’output della funzione describe()
utilizzando alcuni parametri. I parametri sono:
Parametro | Descrizione | Valore standard |
---|---|---|
percentiles
|
Elenca i quantili da includere nella descrizione | [.25, .5, .75]
|
include
|
Determina i tipi di dati da includere nella descrizione; i valori possibili sono numpy.number , numpy.object , all o None
|
None
|
exclude
|
Determina i tipi di dati da escludere dalla descrizione; i valori sono analoghi a include
|
None
|
I quantili statistici sono valori che dividono un insieme ordinato di dati in intervalli uguali e indicano la percentuale di punti di dati che rientra al di sotto di tale soglia. Sono utilizzati per comprendere la distribuzione dei dati e possono comprendere ad esempio la mediana (50º percentile), il 25º e il 75º percentile.
Esempi di applicazione di describe()
in Pandas
La funzione DataFrame.describe()
in Pandas è utilizzata soprattutto per avere una rapida panoramica degli indicatori statistici più importanti di un record di dati.
Esempio 1: riepilogo statistico dei dati numerici
L’esempio seguente riguarda il dataframe df
che contiene diversi dati di vendita.
import pandas as pd
import numpy as np
# Esempio di DataFrame con dati di vendita
data = {
'Prodotto': ['A', 'B', 'C', 'D', 'E'],
'Quantità': [10, 20, 15, 5, 30],
'Prezzo': [100, 150, 200, 80, 120],
'Ricavo': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
pythonA questo punto puoi usare describe()
in Pandas per creare un riepilogo statistico delle colonne numeriche:
summary = df.describe()
print(summary)
pythonLa chiamata della funzione DataFrame.describe()
in Pandas dà il seguente risultato:
Quantità Prezzo Ricavo
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000
Le informazioni numeriche emesse hanno il seguente significato:
count
: numero delle voci non NaNmean
: media dei valori (visualizzabile anche conDataFrame.mean()
)std
: deviazione standard dei valorimin, 25%, 50%, 75%, max
: minimo, 25º percentile, mediana (50º percentile), 75º percentile, massimo dei valori
Esempio 2: adattamento dei quantili
È possibile adeguare il funzionamento di DataFrame.describe()
con i parametri già descritti per prendere in considerazione quantili specifici:
# Riepilogo statistico con quantili adattati
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
pythonLa chiamata di funzione dà il seguente risultato, che tiene conto dei quantili scelti 10%, 50% (mediana) e 90%:
Quantità Prezzo Ricavo
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000