Pandas mean(): come calcolare facilmente la media
La funzione DataFrame.mean()
in Pandas per Python serve a calcolare il valore medio in uno o più assi di un DataFrame. La funzione mean()
di Pandas è fondamentale per l’analisi di dati numerici e permette di ottenere informazioni preziose sulla loro distribuzione e sui valori medi.
- Certificato SSL e protezione DDoS
- Velocità, flessibilità e scalabilità
- Dominio e consulente personale
- 1 anno gratis del gestionale di fatturazione elettronica FlexTax
La sintassi di DataFrame.mean()
in Pandas
La funzione mean()
di Pandas accetta fino a tre parametri e presenta una semplice sintassi di base:
DataFrame.mean(axis=None, skipna=True, numeric_only=None)
pythonParametri applicabili
Grazie a diversi parametri è possibile personalizzare il funzionamento di DataFrame.mean()
in Pandas a seconda della tua applicazione specifica.
Parametro | Descrizione | Valore predefinito |
---|---|---|
axis
|
Stabilisce se eseguire il calcolo sulle righe (axis=0 ) o sulle colonne (axis=1 )
|
0
|
skipna
|
Se True , ignora i valori NaN
|
True
|
numeric_only
|
Se True , considera solo i tipi di dati numerici per il calcolo
|
False
|
Utilizzo della funzione mean()
in Pandas
È possibile applicare la funzione DataFrame.mean()
di Pandas in diversi modi.
Calcolo dei valori medi per ciascuna colonna
Negli esempi di codice seguenti prendiamo in considerazione un DataFrame di Pandas con i seguenti dati di esempio:
import pandas as pd
data = {
'A': [1, 2, 3, 4],
'B': [4, 5, 6, 7],
'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)
pythonIl DataFrame risultante è il seguente:
A B C
0 1 4 7
1 2 5 8
2 3 6 9
3 4 7 10
Per calcolare il valore medio di ciascuna colonna è possibile utilizzare la funzione mean()
di Pandas con il parametro standard axis=0
:
column_means = df.mean()
print(column_means)
pythonIn questo modo vengono calcolati i valori medi di ogni colonna (A, B e C) dividendo la somma degli elementi per il numero di elementi nella colonna. Il risultato è la seguente serie di Pandas:
A 2.5
B 5.5
C 8.5
dtype: float64
Calcolo dei valori medi per ciascuna riga
Per calcolare il valore medio di ciascuna riga non devi far altro che utilizzare il parametro axis
impostato su 1:
row_means = df.mean(axis=1)
print(row_means)
pythonLe medie di ogni riga vengono quindi calcolate con mean()
in Pandas dividendo la somma degli elementi per il numero di elementi in ciascuna riga. La chiamata della funzione dà il seguente risultato:
0 4.0
1 5.0
2 6.0
3 7.0
dtype: float64
Ignorare i valori NaN
L’esempio seguente utilizza un altro DataFrame che contiene alcuni valori NaN:
import pandas as pd
import numpy as np
data = {
'A': [1, 2, np.nan, 4],
'B': [4, np.nan, 6, 7],
'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)
pythonIl codice precedente dà il seguente DataFrame come risultato:
A B C
0 1.0 4.0 7.0
1 2.0 NaN 8.0
2 NaN 6.0 9.0
3 4.0 7.0 NaN
Per calcolare la media considerando i valori NaN si utilizza il parametro skipna
. Il valore predefinito è True
, ossia i valori NaN vengono ignorati automaticamente dalla funzione mean()
in Pandas. Impostando invece skipna=False
, anche la media di una qualsiasi colonna contenente almeno un valore NaN sarebbe NaN.
mean_with_nan = df.mean()
print(mean_with_nan)
pythonLa chiamata della funzione mean()
in Pandas dà questo risultato:
A 2.333333
B 5.666667
C 8.000000
dtype: float64