DataFrame.where() di Pandas: verificare condizioni all’interno di un DataFrame

Indice

La funzione DataFrame.where() di Pandas in Python si usa per eseguire manipolazioni condizionali dei dati all’interno di un DataFrame. Consente ai programmatori o alle programmatrici di sostituire o mascherare i valori in un DataFrame in Pandas in base a una determinata condizione.

Web Hosting

Diventa il n°1 della rete con il provider di hosting n°1 in Europa

Disponibilità garantita al 99,99%
Dominio, SSL ed e-mail inclusi
Assistenza 24/7 in lingua italiana

Sintassi di `DataFrame.where()` in Pandas

La funzione where() accetta fino a cinque parametri e segue la sintassi di base mostrata qui di seguito:

DataFrame.where(cond, other=nan, inplace=False, axis=None, level=None)

python

In questo caso, la funzione si applica a un DataFrame e mantiene invariati solo i valori che soddisfano la condizione specificata (cond). Tutti gli altri valori, invece, vengono sostituiti con quelli indicati nel parametro other.

Principali parametri

La funzione DataFrame.where() di Pandas accetta diversi parametri che permettono una manipolazione dei dati altamente personalizzabile:

Parametro	Descrizione	Valore predefinito
`cond`	Condizione che deve essere soddisfatta affinché i valori siano mantenuti nel DataFrame
`other`	Valore che sostituisce i valori che non soddisfano la condizione
`inplace`	Se `True`, l’operazione viene eseguita direttamente sul DataFrame	`False`
`axis`	Specifica lungo quale asse applicare la condizione (`axis=0`/righe o `axis=1`/colonne)	`None`
`level`	Specifica il livello dell’indice multiplo su cui applicare la condizione	`None`

Applicazione di `DataFrame.where()` in Pandas

La funzione where() può essere utilizzata in diverse situazioni che richiedono la manipolazione condizionale dei dati. Questo include, ad esempio, la pulizia dei dati o la creazione di nuove colonne in base a condizioni.

Sostituzione condizionale dei valori

Supponiamo di avere un DataFrame che contiene i risultati delle vendite di un’azienda e di voler visualizzare solo i risultati positivi, sostituendo tutti i risultati negativi con 0. Per farlo basta usare la funzione DataFrame.where() in Pandas. Si procede creando un DataFrame:

import pandas as pd
# Creare un DataFrame di esempio
data = {
    'Regione': ['Nord', 'Sud', 'Est', 'Ovest'],
    'Vendite_Trimestre1': [15000, -5000, 3000, -1000],
    'Vendite_Trimestre2': [20000, 25000, -7000, 5000]
}
df = pd.DataFrame(data)
print(df)

python

Questo il DataFrame risultante dal precedente codice:

Regione      Vendite_Trimestre1  Vendite_Trimestre2
0    Nord          15000                            20000
1     Sud            -5000                          25000
2     Est             3000                          -7000
3    Ovest          -1000                          5000

Ora è possibile sostituire tutti i valori negativi con 0 usando where(). Tuttavia, è importante assicurarsi che la funzione venga applicata solo alle colonne con valori numerici, altrimenti il confronto potrebbe non funzionare correttamente.

# Sostituzione condizionale dei valori
df_positive = df.copy()
df_positive[['Vendite_Trimestre1', 'Vendite_Trimestre2']] = df[['Vendite_Trimestre1', 'Vendite_Trimestre2']].where(df[['Vendite_Trimestre1', 'Vendite_Trimestre2']] > 0, 0)
print(df_positive)

python

Il DataFrame risultante, df_positive, contiene solo i risultati di vendita positivi e sostituisce tutti i valori negativi con 0, come richiesto:

Regione  Vendite_Trimestre1  Vendite_Trimestre2
0   Nord        15000                20000
1    Sud         0                   25000
2    Est         3000                 0
3   Ovest        0                    5000

Mascheramento condizionato dei valori

DataFrame.where() in Pandas può anche essere usato per mascherare i valori, cioè per rendere visibili solo alcune parti di un DataFrame. Di seguito, il DataFrame deve visualizzare solo i valori superiori a un certo valore di soglia (in questo caso 10000). Anche in questo caso è necessario assicurarsi che vengano considerate solo le colonne numeriche:

# Visualizzare solo i valori superiori a 10000
df_masked = df.copy()
df_masked['Vendite_Trimestre1', 'Vendite_Trimestre2']] = df[['Vendite_Trimestre1', 'Vendite_Trimestre2']].where(df[['Vendite_Trimestre1', 'Vendite_Trimestre2']] > 10000)
print(df_masked)

python

In questo caso, il DataFrame risultante df_masked mostra solo i valori superiori a 10000. Tutti gli altri valori sono visualizzati come NaN(not a number):

Regione    Vendite_Trimestre1    Vendite_Trimestre2
0     Nord            15000.0                                20000.0
1        Sud                NaN                                    25000.0
2        Est                NaN                                        NaN
3     Ovest             NaN                                        NaN

Articoli popolari

Vendere domini: come guadagnare con i domini?

Comprare e vendere domini può essere un'attività lucrativa, se si sa come procedere. Vi…

5 alternative a Nextcloud a confronto

Scopri le migliori alternative a Nextcloud, ideali per diverse esigenze di archiviazione…

I 7 migliori servizi di backup online a confronto

Salva i tuoi dati al sicuro nel cloud. Ti presentiamo 7 servizi per proteggere i tuoi…

Aggiornamento a Debian 13: come funziona

Questa guida ti mostra come eseguire un aggiornamento a Debian 13, preparare il tuo…

4 alternative gratuite a InDesign di Adobe

I software Adobe sono troppo costosi? Sul web sono disponibili alcune alternative gratuite…

Articoli simili

ESB Professionalshutterstock

DataFrame in Pandas: manipolazione delle tabelle in modo rapido e chiaro in Python

Il modulo Pandas è uno dei più potenti strumenti per la manipolazione dei dati in Python. Una delle strutture di dati centrali in Pandas è DataFrame. I DataFrame ti permettono di manipolare dati strutturati e bidimensionali in modo chiaro ed efficiente. In questo articolo ti…

Python Pandas

Mr. Kosalshutterstock

La funzione any() di pandas in Python

Il metodo DataFrame any() di Pandas è uno strumento efficiente per verificare rapidamente se esiste almeno un valore vero in un asse specifico di un dataframe. È particolarmente utile quando si analizzano e si convalidano i dati. Nell’articolo ti indichiamo come puoi utilizzare…

Python Pandas

Ranjit Karmakarshutterstock

DataFrame describe() in Pandas in breve

Il metodo DataFrame.describe() in Pandas è un modo rapido per generare un completo riepilogo statistico dei dati numerici presenti in un DataFrame. La capacità di adeguare i quantili e specificare i tipi di dati lo rende estremamente flessibile e adatto per le più svariate…

Python Pandas

BEST-BACKGROUNDSShutterstock

Pulizia dei dati con dropna() in Pandas

La funzione DataFrame.dropna() di Pandas è un potente strumento per ripulire i record di dati rimuovendo in modo efficiente i valori mancanti. Essa offre flessibilità grazie ai vari parametri che consentono ai programmatori e alla programmatrici di impostare requisiti specifici…

Python Pandas

Mr. Kosalshutterstock

Pandas: conoscere l’indice dei DataFrame

L’indicizzazione dei DataFrame in Pandas è un potente strumento che ti permette di lavorare con i dati in modo efficiente ed efficace. Esistono vari metodi per accedere in modo mirato ai dati e ai sottoinsiemi del tuo DataFrame e modificarli. In questo articolo ti spieghiamo che…

Python Pandas

GaudiLabShutterstock

Pandas loc[]: selezione di dati dai DataFrame

Il metodo loc[] dei DataFrame in Pandas offre la possibilità di estrarre i dati sulla base di etichette. È particolarmente utile per lavorare con dati in cui la posizione di righe e colonne non è sempre prevedibile. In questo articolo scoprirai come utilizzare loc[] e le…

Python Pandas

DataFrame.where() di Pandas: verificare condizioni all’interno di un DataFrame

Sintassi di DataFrame.where() in Pandas

Principali parametri

Applicazione di DataFrame.where() in Pandas

Sostituzione condizionale dei valori

Mascheramento condizionato dei valori

Sintassi di `DataFrame.where()` in Pandas

Applicazione di `DataFrame.where()` in Pandas