La funzione di Pandas per Python DataFrame describe() serve a creare un riepilogo statistico delle colonne numeriche presenti in un DataFrame. Tale riepilogo contiene importanti informazioni statistiche come media, deviazione standard, minimo, massimo e diversi quantili dei dati.

Il tuo web hosting come mai prima d'ora
  • Certificato SSL e protezione DDoS
  • Velocità, flessibilità e scalabilità
  • Dominio e consulente personale
  • 1 anno gratis del gestionale di fatturazione elettronica FlexTax

Sintassi della funzione describe() in Pandas

La sintassi di base della funzione describe() in Pandas per un DataFrame è piuttosto complicata e si presenta così:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Parametri importanti per DataFrame.describe() in Pandas

È possibile apportare modifiche all’output della funzione describe() utilizzando alcuni parametri. I parametri sono:

Parametro Descrizione Valore standard
percentiles Elenca i quantili da includere nella descrizione [.25, .5, .75]
include Determina i tipi di dati da includere nella descrizione; i valori possibili sono numpy.number, numpy.object, all o None None
exclude Determina i tipi di dati da escludere dalla descrizione; i valori sono analoghi a include None
Definizione

I quantili statistici sono valori che dividono un insieme ordinato di dati in intervalli uguali e indicano la percentuale di punti di dati che rientra al di sotto di tale soglia. Sono utilizzati per comprendere la distribuzione dei dati e possono comprendere ad esempio la mediana (50º percentile), il 25º e il 75º percentile.

Esempi di applicazione di describe() in Pandas

La funzione DataFrame.describe() in Pandas è utilizzata soprattutto per avere una rapida panoramica degli indicatori statistici più importanti di un record di dati.

Esempio 1: riepilogo statistico dei dati numerici

L’esempio seguente riguarda il dataframe df che contiene diversi dati di vendita.

import pandas as pd
import numpy as np
# Esempio di DataFrame con dati di vendita
data = {
    'Prodotto': ['A', 'B', 'C', 'D', 'E'],
    'Quantità': [10, 20, 15, 5, 30],
    'Prezzo': [100, 150, 200, 80, 120],
    'Ricavo': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

A questo punto puoi usare describe() in Pandas per creare un riepilogo statistico delle colonne numeriche:

summary = df.describe()
print(summary)
python

La chiamata della funzione DataFrame.describe() in Pandas dà il seguente risultato:

Quantità       Prezzo      Ricavo
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Le informazioni numeriche emesse hanno il seguente significato:

  • count: numero delle voci non NaN
  • mean: media dei valori (visualizzabile anche con DataFrame.mean())
  • std: deviazione standard dei valori
  • min, 25%, 50%, 75%, max: minimo, 25º percentile, mediana (50º percentile), 75º percentile, massimo dei valori

Esempio 2: adattamento dei quantili

È possibile adeguare il funzionamento di DataFrame.describe() con i parametri già descritti per prendere in considerazione quantili specifici:

# Riepilogo statistico con quantili adattati
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

La chiamata di funzione dà il seguente risultato, che tiene conto dei quantili scelti 10%, 50% (mediana) e 90%:

Quantità       Prezzo      Ricavo
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000
Hai trovato questo articolo utile?
Vai al menu principale