La funzione di Pandas per Python DataFrame describe() serve a creare un riepilogo sta­ti­sti­co delle colonne numeriche presenti in un DataFrame. Tale riepilogo contiene im­por­tan­ti in­for­ma­zio­ni sta­ti­sti­che come media, de­via­zio­ne standard, minimo, massimo e diversi quantili dei dati.

Web Hosting
Diventa il n°1 della rete con il provider di hosting n°1 in Europa
  • Di­spo­ni­bi­li­tà garantita al 99,99%
  • Dominio, SSL ed e-mail inclusi
  • As­si­sten­za 24/7 in lingua italiana

Sintassi della funzione describe() in Pandas

La sintassi di base della funzione describe() in Pandas per un DataFrame è piuttosto com­pli­ca­ta e si presenta così:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Parametri im­por­tan­ti per DataFrame.describe() in Pandas

È possibile apportare modifiche all’output della funzione describe() uti­liz­zan­do alcuni parametri. I parametri sono:

Parametro De­scri­zio­ne Valore standard
percentiles Elenca i quantili da includere nella de­scri­zio­ne [.25, .5, .75]
include Determina i tipi di dati da includere nella de­scri­zio­ne; i valori possibili sono numpy.number, numpy.object, all o None None
exclude Determina i tipi di dati da escludere dalla de­scri­zio­ne; i valori sono analoghi a include None
De­fi­ni­zio­ne

I quantili sta­ti­sti­ci sono valori che dividono un insieme ordinato di dati in in­ter­val­li uguali e indicano la per­cen­tua­le di punti di dati che rientra al di sotto di tale soglia. Sono uti­liz­za­ti per com­pren­de­re la di­stri­bu­zio­ne dei dati e possono com­pren­de­re ad esempio la mediana (50º per­cen­ti­le), il 25º e il 75º per­cen­ti­le.

Esempi di ap­pli­ca­zio­ne di describe() in Pandas

La funzione DataFrame.describe() in Pandas è uti­liz­za­ta so­prat­tut­to per avere una rapida pa­no­ra­mi­ca degli in­di­ca­to­ri sta­ti­sti­ci più im­por­tan­ti di un record di dati.

Esempio 1: riepilogo sta­ti­sti­co dei dati numerici

L’esempio seguente riguarda il dataframe df che contiene diversi dati di vendita.

import pandas as pd
import numpy as np
# Esempio di DataFrame con dati di vendita
data = {
    'Prodotto': ['A', 'B', 'C', 'D', 'E'],
    'Quantità': [10, 20, 15, 5, 30],
    'Prezzo': [100, 150, 200, 80, 120],
    'Ricavo': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

A questo punto puoi usare describe() in Pandas per creare un riepilogo sta­ti­sti­co delle colonne numeriche:

summary = df.describe()
print(summary)
python

La chiamata della funzione DataFrame.describe() in Pandas dà il seguente risultato:

Quantità       Prezzo      Ricavo
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Le in­for­ma­zio­ni numeriche emesse hanno il seguente si­gni­fi­ca­to:

  • count: numero delle voci non NaN
  • mean: media dei valori (vi­sua­liz­za­bi­le anche con DataFrame.mean())
  • std: de­via­zio­ne standard dei valori
  • min, 25%, 50%, 75%, max: minimo, 25º per­cen­ti­le, mediana (50º per­cen­ti­le), 75º per­cen­ti­le, massimo dei valori

Esempio 2: adat­ta­men­to dei quantili

È possibile adeguare il fun­zio­na­men­to di DataFrame.describe() con i parametri già descritti per prendere in con­si­de­ra­zio­ne quantili specifici:

# Riepilogo statistico con quantili adattati
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

La chiamata di funzione dà il seguente risultato, che tiene conto dei quantili scelti 10%, 50% (mediana) e 90%:

Quantità       Prezzo      Ricavo
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000
Vai al menu prin­ci­pa­le