La funzione groupby() in Pandas

Indice

La funzione DataFrame.groupby() in Pandas per Python permette di raggruppare i dati in base a determinati criteri e di effettuare diverse aggregazioni e trasformazioni su questi gruppi.

Web Hosting

Diventa il n°1 della rete con il provider di hosting n°1 in Europa

Disponibilità garantita al 99,99%
Dominio, SSL ed e-mail inclusi
Assistenza 24/7 in lingua italiana

La sintassi di `DataFrame.groupby()` in Pandas

La funzione groupby()` di Pandas accetta fino a quattro parametri. La sintassi di base si presenta così:

DataFrame.groupby(by=None, level=None, as_index=True, sort=True, group_keys=True, dropna=True)

python

Parametri applicabili

Parametro	Descrizione	Valore predefinito
`by`	Chiave o lista di chiavi su cui basare il raggruppamento; non in combinazione con `level`	`None`
`level`	Utilizzato con multi-indici per specificare uno o più livelli per effettuare il raggruppamento per livelli specifici	`None`
`as_index`	Se `True`, le chiavi del gruppo vengono impostate come indice del DataFrame risultante	`True`
`group_keys`	Se `True`, le chiavi del gruppo sono contenute negli indici dei gruppi	`True`
`dropna`	Stabilisce se escludere i gruppi con valori NaN	`True`

Applicazione di `DataFrame.groupby()` in Pandas

La funzione groupby() di Pandas è particolarmente utile per analizzare e riassumere grandi quantità di dati al fine di individuare modelli o anomalie.

Raggruppamento e aggregazione

Nelle parti seguenti utilizziamo un record di dati contenente le vendite di prodotti con informazioni sulla data di vendita, sul prodotto e sulla quantità venduti:

import pandas as pd
# Record di dati di esempio con vendite di prodotti
data = {
    'Data': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03'],
    'Prodotto': ['A', 'B', 'A', 'B', 'A'],
    'Quantità': [10, 20, 15, 25, 10]
}
df = pd.DataFrame(data)
print(df)

python

Il DataFrame risultante si presenta così:

Data  Prodotto  Quantità
0  2021-01-01       A     10
1  2021-01-01       B     20
2  2021-01-02       A     15
3  2021-01-02       B     25
4  2021-01-03       A     10

Nella fase successiva passiamo a raggruppare il record di dati per prodotto. A tal fine utilizziamo la funzione groupby() di Pandas. Il totale della quantità venduta per ciascun prodotto viene quindi calcolato utilizzando la funzione sum():

# Raggruppamento per prodotto e calcolo del totale della quantità venduta
totale = df.groupby('Prodotto')['Quantità'].sum()
print(totale)

Il risultato mostra quante unità di ciascun prodotto sono state vendute in totale:

Prodotto
A    35
B    45
Nome: quantità, dtype: int64

Aggregazioni multiple

L’esempio seguente utilizza un record di dati simile, ma ampliato, che contiene anche il fatturato:

data = {
    'Data': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03'],
    'Prodotto': ['A', 'B', 'A', 'B', 'A'],
    'Quantità': [10, 20, 15, 25, 10],
    'Fatturato': [100, 200, 150, 250, 100]
}
df = pd.DataFrame(data)
print(df)

python

Viene quindi preso in considerazione il seguente DataFrame:

Data  Prodotto  Quantità Fatturato
0  2021-01-01       A     10     100
1  2021-01-01       B     20     200
2  2021-01-02       A     15     150
3  2021-01-02       B     25     250
4  2021-01-03       A     10     100

I dati vengono nuovamente raggruppati per prodotto utilizzando DataFrame.groupby() in Pandas. Successivamente si utilizza la funzione agg() per eseguire aggregazioni in base alle quantità totali vendute e ai fatturati, nonché al fatturato medio per prodotto.

# Raggruppamento per prodotto e applicazione di più aggregazioni
gruppi = df.groupby('Prodotto').agg({
    'Quantità': 'sum',
    'Fatturato': ['sum', 'mean']
})
print(gruppi)

Il risultato si presenta così:

Quantità Fatturato        
      sum    sum    mean
Prodotto             
A      35    350  116.666667
B      45    450  225.000000

Articoli popolari

Vendere domini: come guadagnare con i domini?

Comprare e vendere domini può essere un'attività lucrativa, se si sa come procedere. Vi…

5 alternative a Nextcloud a confronto

Scopri le migliori alternative a Nextcloud, ideali per diverse esigenze di archiviazione…

I 7 migliori servizi di backup online a confronto

Salva i tuoi dati al sicuro nel cloud. Ti presentiamo 7 servizi per proteggere i tuoi…

Aggiornamento a Debian 13: come funziona

Questa guida ti mostra come eseguire un aggiornamento a Debian 13, preparare il tuo…

4 alternative gratuite a InDesign di Adobe

I software Adobe sono troppo costosi? Sul web sono disponibili alcune alternative gratuite…

Articoli simili

UndreyShutterstock

DataFrame[].unique() in Pandas: rilevamento dei valori univoci

La funzione DataFrame[].unique() di Pandas permette di individuare rapidamente i valori univoci presenti in una colonna di un DataFrame. Questa funzione è particolarmente utile per trovare i duplicati. Restituendo direttamente un array numpy, essa facilita una gestione efficiente…

Python Pandas

Gorodenkoffshutterstock

DataFrame.where() di Pandas: verificare condizioni all’interno di un DataFrame

DataFrame.where() in Pandas è una funzione utile per eseguire manipolazioni condizionali all’interno di un DataFrame. Questo strumento permette di impostare condizioni che determinano quali valori devono essere mantenuti e quali invece sostituiti, rendendola ideale per operazioni…

Python Pandas

GaudiLabShutterstock

Pandas loc[]: selezione di dati dai DataFrame

Il metodo loc[] dei DataFrame in Pandas offre la possibilità di estrarre i dati sulla base di etichette. È particolarmente utile per lavorare con dati in cui la posizione di righe e colonne non è sempre prevedibile. In questo articolo scoprirai come utilizzare loc[] e le…

Python Pandas

ra2 studioShutterstock

Tabella in Pandas: formattare i DataFrame come tabelle

Visualizzare un DataFrame con Python Pandas sotto forma di tabella è un’operazione di base che può essere eseguita in molti modi diversi. Pandas offre numerose opzioni per gestire e visualizzare le tabelle indipendentemente dallo scopo, ad esempio è possibile elaborare l’output…

Python Pandas

Ranjit Karmakarshutterstock

DataFrame describe() in Pandas in breve

Il metodo DataFrame.describe() in Pandas è un modo rapido per generare un completo riepilogo statistico dei dati numerici presenti in un DataFrame. La capacità di adeguare i quantili e specificare i tipi di dati lo rende estremamente flessibile e adatto per le più svariate…

Python Pandas

OhSuratShutterstock

Pandas read_csv(): come caricare file CSV in Python

La funzione read_csv() di Pandas è uno strumento efficace per poter accedere rapidamente ai dati contenuti nei file CSV in Python. La funzione è flessibile e offre numerosi parametri per personalizzare il processo di caricamento in base alle proprie esigenze specifiche.…

Python Pandas

La funzione groupby() in Pandas

La sintassi di DataFrame.groupby() in Pandas

Parametri ap­pli­ca­bi­li

Ap­pli­ca­zio­ne di DataFrame.groupby() in Pandas

Rag­grup­pa­men­to e ag­gre­ga­zio­ne

Ag­gre­ga­zio­ni multiple

La sintassi di `DataFrame.groupby()` in Pandas

Parametri applicabili

Applicazione di `DataFrame.groupby()` in Pandas

Raggruppamento e aggregazione

Aggregazioni multiple