La funzione DataFrame.mean() in Pandas per Python serve a calcolare il valore medio in uno o più assi di un DataFrame. La funzione mean() di Pandas è fondamentale per l’analisi di dati numerici e permette di ottenere informazioni preziose sulla loro distribuzione e sui valori medi.

Il tuo web hosting come mai prima d'ora
  • Certificato SSL e protezione DDoS
  • Velocità, flessibilità e scalabilità
  • Dominio e consulente personale
  • 1 anno gratis del gestionale di fatturazione elettronica FlexTax

La sintassi di DataFrame.mean() in Pandas

La funzione mean() di Pandas accetta fino a tre parametri e presenta una semplice sintassi di base:

DataFrame.mean(axis=None, skipna=True, numeric_only=None)
python

Parametri applicabili

Grazie a diversi parametri è possibile personalizzare il funzionamento di DataFrame.mean() in Pandas a seconda della tua applicazione specifica.

Parametro Descrizione Valore predefinito
axis Stabilisce se eseguire il calcolo sulle righe (axis=0) o sulle colonne (axis=1) 0
skipna Se True, ignora i valori NaN True
numeric_only Se True, considera solo i tipi di dati numerici per il calcolo False

Utilizzo della funzione mean() in Pandas

È possibile applicare la funzione DataFrame.mean() di Pandas in diversi modi.

Calcolo dei valori medi per ciascuna colonna

Negli esempi di codice seguenti prendiamo in considerazione un DataFrame di Pandas con i seguenti dati di esempio:

import pandas as pd
data = {
    'A': [1, 2, 3, 4],
    'B': [4, 5, 6, 7],
    'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)
python

Il DataFrame risultante è il seguente:

A  B    C
0  1  4    7
1  2  5    8
2  3  6    9
3  4  7  10

Per calcolare il valore medio di ciascuna colonna è possibile utilizzare la funzione mean() di Pandas con il parametro standard axis=0:

column_means = df.mean()
print(column_means)
python

In questo modo vengono calcolati i valori medi di ogni colonna (A, B e C) dividendo la somma degli elementi per il numero di elementi nella colonna. Il risultato è la seguente serie di Pandas:

A    2.5
B    5.5
C    8.5
dtype: float64

Calcolo dei valori medi per ciascuna riga

Per calcolare il valore medio di ciascuna riga non devi far altro che utilizzare il parametro axis impostato su 1:

row_means = df.mean(axis=1)
print(row_means)
python

Le medie di ogni riga vengono quindi calcolate con mean() in Pandas dividendo la somma degli elementi per il numero di elementi in ciascuna riga. La chiamata della funzione dà il seguente risultato:

0    4.0
1    5.0
2    6.0
3    7.0
dtype: float64

Ignorare i valori NaN

L’esempio seguente utilizza un altro DataFrame che contiene alcuni valori NaN:

import pandas as pd
import numpy as np
data = {
    'A': [1, 2, np.nan, 4],
    'B': [4, np.nan, 6, 7],
    'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)
python

Il codice precedente dà il seguente DataFrame come risultato:

A    B    C
0  1.0  4.0  7.0
1  2.0  NaN  8.0
2  NaN  6.0  9.0
3  4.0  7.0  NaN

Per calcolare la media considerando i valori NaN si utilizza il parametro skipna. Il valore predefinito è True, ossia i valori NaN vengono ignorati automaticamente dalla funzione mean() in Pandas. Impostando invece skipna=False, anche la media di una qualsiasi colonna contenente almeno un valore NaN sarebbe NaN.

mean_with_nan = df.mean()
print(mean_with_nan)
python

La chiamata della funzione mean() in Pandas dà questo risultato:

A    2.333333
B    5.666667
C    8.000000
dtype: float64
Hai trovato questo articolo utile?
Vai al menu principale