DataFrame describe() in Pandas in breve

Indice

La funzione di Pandas per Python DataFrame describe() serve a creare un riepilogo statistico delle colonne numeriche presenti in un DataFrame. Tale riepilogo contiene importanti informazioni statistiche come media, deviazione standard, minimo, massimo e diversi quantili dei dati.

Web Hosting

Diventa il n°1 della rete con il provider di hosting n°1 in Europa

Disponibilità garantita al 99,99%
Dominio, SSL ed e-mail inclusi
Assistenza 24/7 in lingua italiana

Sintassi della funzione `describe()` in Pandas

La sintassi di base della funzione describe() in Pandas per un DataFrame è piuttosto complicata e si presenta così:

DataFrame.describe(percentiles=None, include=None, exclude=None)

python

Parametri importanti per `DataFrame.describe()` in Pandas

È possibile apportare modifiche all’output della funzione describe() utilizzando alcuni parametri. I parametri sono:

Parametro	Descrizione	Valore standard
`percentiles`	Elenca i quantili da includere nella descrizione	`[.25, .5, .75]`
`include`	Determina i tipi di dati da includere nella descrizione; i valori possibili sono `numpy.number`, `numpy.object`, `all` o `None`	`None`
`exclude`	Determina i tipi di dati da escludere dalla descrizione; i valori sono analoghi a `include`	`None`

Definizione

I quantili statistici sono valori che dividono un insieme ordinato di dati in intervalli uguali e indicano la percentuale di punti di dati che rientra al di sotto di tale soglia. Sono utilizzati per comprendere la distribuzione dei dati e possono comprendere ad esempio la mediana (50º percentile), il 25º e il 75º percentile.

Esempi di applicazione di `describe()` in Pandas

La funzione DataFrame.describe() in Pandas è utilizzata soprattutto per avere una rapida panoramica degli indicatori statistici più importanti di un record di dati.

Esempio 1: riepilogo statistico dei dati numerici

L’esempio seguente riguarda il dataframe df che contiene diversi dati di vendita.

import pandas as pd
import numpy as np
# Esempio di DataFrame con dati di vendita
data = {
    'Prodotto': ['A', 'B', 'C', 'D', 'E'],
    'Quantità': [10, 20, 15, 5, 30],
    'Prezzo': [100, 150, 200, 80, 120],
    'Ricavo': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)

python

A questo punto puoi usare describe() in Pandas per creare un riepilogo statistico delle colonne numeriche:

summary = df.describe()
print(summary)

python

La chiamata della funzione DataFrame.describe() in Pandas dà il seguente risultato:

Quantità       Prezzo      Ricavo
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Le informazioni numeriche emesse hanno il seguente significato:

count: numero delle voci non NaN
mean: media dei valori (visualizzabile anche con DataFrame.mean())
std: deviazione standard dei valori
min, 25%, 50%, 75%, max: minimo, 25º percentile, mediana (50º percentile), 75º percentile, massimo dei valori

Esempio 2: adattamento dei quantili

È possibile adeguare il funzionamento di DataFrame.describe() con i parametri già descritti per prendere in considerazione quantili specifici:

# Riepilogo statistico con quantili adattati
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)

python

La chiamata di funzione dà il seguente risultato, che tiene conto dei quantili scelti 10%, 50% (mediana) e 90%:

Quantità       Prezzo      Ricavo
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

Articoli popolari

Vendere domini: come guadagnare con i domini?

Comprare e vendere domini può essere un'attività lucrativa, se si sa come procedere. Vi…

5 alternative a Nextcloud a confronto

Scopri le migliori alternative a Nextcloud, ideali per diverse esigenze di archiviazione…

I 7 migliori servizi di backup online a confronto

Salva i tuoi dati al sicuro nel cloud. Ti presentiamo 7 servizi per proteggere i tuoi…

Aggiornamento a Debian 13: come funziona

Questa guida ti mostra come eseguire un aggiornamento a Debian 13, preparare il tuo…

4 alternative gratuite a InDesign di Adobe

I software Adobe sono troppo costosi? Sul web sono disponibili alcune alternative gratuite…

Articoli simili

OhSuratShutterstock

Pandas read_csv(): come caricare file CSV in Python

La funzione read_csv() di Pandas è uno strumento efficace per poter accedere rapidamente ai dati contenuti nei file CSV in Python. La funzione è flessibile e offre numerosi parametri per personalizzare il processo di caricamento in base alle proprie esigenze specifiche.…

Python Pandas

Mr. Kosalshutterstock

Pandas: conoscere l’indice dei DataFrame

L’indicizzazione dei DataFrame in Pandas è un potente strumento che ti permette di lavorare con i dati in modo efficiente ed efficace. Esistono vari metodi per accedere in modo mirato ai dati e ai sottoinsiemi del tuo DataFrame e modificarli. In questo articolo ti spieghiamo che…

Python Pandas

BEST-BACKGROUNDSShutterstock

Pulizia dei dati con dropna() in Pandas

La funzione DataFrame.dropna() di Pandas è un potente strumento per ripulire i record di dati rimuovendo in modo efficiente i valori mancanti. Essa offre flessibilità grazie ai vari parametri che consentono ai programmatori e alla programmatrici di impostare requisiti specifici…

Python Pandas

ESB Professionalshutterstock

DataFrame in Pandas: manipolazione delle tabelle in modo rapido e chiaro in Python

Il modulo Pandas è uno dei più potenti strumenti per la manipolazione dei dati in Python. Una delle strutture di dati centrali in Pandas è DataFrame. I DataFrame ti permettono di manipolare dati strutturati e bidimensionali in modo chiaro ed efficiente. In questo articolo ti…

Python Pandas

BEST-BACKGROUNDSShutterstock

La funzione iterrows() in Pandas: come eseguire l’iterazione sui DataFrame

La funzione DataFrame.iterrows() in Pandas è una possibilità per eseguire iterazioni sulle righe di un DataFrame. È utilizzata in particolare quando è necessaria un’elaborazione riga per riga, ad esempio durante l’esecuzione di calcoli. In questo articolo scoprirai meglio come…

Python Pandas

UndreyShutterstock

Pandas per Python: il metodo iloc[]

Lavorando con i DataFrame in Pandas per Python è possibile che non tutte le righe o colonne di un DataFrame siano utili per l’analisi dei dati. Il metodo iloc[] per i DataFrame in Pandas è quindi uno strumento utile per selezionare la riga o le colonne desiderate in base ai loro…

Python Pandas

DataFrame describe() in Pandas in breve

Sintassi della funzione describe() in Pandas

Parametri im­por­tan­ti per DataFrame.describe() in Pandas

Esempi di ap­pli­ca­zio­ne di describe() in Pandas

Esempio 1: riepilogo sta­ti­sti­co dei dati numerici

Esempio 2: adat­ta­men­to dei quantili

Sintassi della funzione `describe()` in Pandas

Parametri importanti per `DataFrame.describe()` in Pandas

Esempi di applicazione di `describe()` in Pandas

Esempio 1: riepilogo statistico dei dati numerici

Esempio 2: adattamento dei quantili