La foresta casuale (random forest) è un algoritmo di ap­pren­di­men­to au­to­ma­ti­co che si basa su un grande numero di alberi de­ci­sio­na­li. È una delle me­to­do­lo­gie più af­fi­da­bi­li per la clas­si­fi­ca­zio­ne e la re­gres­sio­ne. In par­ti­co­la­re, per chi è agli inizi offre la pos­si­bi­li­tà di svi­lup­pa­re i primi modelli di successo.

Che cos’è random forest?

Random forest è un algoritmo di ap­pren­di­men­to au­to­ma­ti­co in cui molti singoli alberi de­ci­sio­na­li producono insieme un risultato. Invece di fare af­fi­da­men­to su un unico albero, questo pro­ce­di­men­to combina le pre­vi­sio­ni di molti modelli per ottenere una maggiore ac­cu­ra­tez­za. Ogni singolo albero viene ad­de­stra­to con dati o ca­rat­te­ri­sti­che leg­ger­men­te diversi, au­men­tan­do così la varietà.

L’idea di base è che molti alberi de­ci­sio­na­li, che presi sin­go­lar­men­te possono variare anche molto, insieme formino un modello com­ples­si­vo stabile. La foresta casuale è meno soggetta a over­fit­ting (so­vra­dat­ta­men­to), perché la varietà all’interno del modello compensa gli errori dei singoli alberi. L’algoritmo può essere uti­liz­za­to sia per compiti di clas­si­fi­ca­zio­ne sia per compiti di re­gres­sio­ne. Funziona in modo af­fi­da­bi­le anche quando i dati con­ten­go­no molte ca­rat­te­ri­sti­che o in­for­ma­zio­ni in­com­ple­te.

I software IA di IONOS
Scopri la potenza del­l'in­tel­li­gen­za ar­ti­fi­cia­le
  • Siti web in tempo record
  • Soluzioni IA per il tuo business
  • Risparmio di tempo e risultati ec­cel­len­ti

Come funziona l’algoritmo random forest?

L’algoritmo random forest inizia generando diversi campioni casuali a partire dal set di dati originale. Questo processo è chiamato boo­tstrap­ping. Per ognuno di questi campioni, in un secondo passaggio viene ad­de­stra­to un proprio albero de­ci­sio­na­le. È im­por­tan­te che ogni albero consideri solo una parte casuale delle ca­rat­te­ri­sti­che di­spo­ni­bi­li, così che i modelli si dif­fe­ren­zi­no tra loro. Durante l’ad­de­stra­men­to ogni albero viene creato in modo del tutto in­di­pen­den­te dagli altri, per cui anche piccole dif­fe­ren­ze nei dati in­fluen­za­no for­te­men­te la struttura dell’albero. Nei problemi di clas­si­fi­ca­zio­ne ogni albero fornisce una decisione di classe, mentre nei problemi di re­gres­sio­ne re­sti­tui­sce un valore numerico.

Dopo l’ad­de­stra­men­to, i risultati di tutti gli alberi vengono combinati: nella clas­si­fi­ca­zio­ne decide la mag­gio­ran­za dei voti, nella re­gres­sio­ne si calcola la media. Questo sistema di votazione riduce la pro­ba­bi­li­tà che singoli valori anomali in­fluen­zi­no la pre­vi­sio­ne com­ples­si­va. In questo modo la foresta casuale minimizza l’over­fit­ting, perché le decisioni errate di un albero si com­pen­sa­no nella media. Inoltre, l’algoritmo misura quanto ogni ca­rat­te­ri­sti­ca con­tri­bui­sce alla pre­vi­sio­ne, aiutando così nell’in­ter­pre­ta­zio­ne del modello.

Immagine: Funzionamento di random forest
Con l’algoritmo random forest i risultati di più alberi de­ci­sio­na­li vengono combinati tramite votazione per ottenere un risultato finale.

Vantaggi e svantaggi di una foresta casuale

L’algoritmo random forest convince per l’elevata ac­cu­ra­tez­za, la fles­si­bi­li­tà e la stabilità, ma come ogni algoritmo presenta anche alcune sfide.

Vantaggi di random forest

Di norma la foresta casuale fornisce risultati molto precisi, anche quando i tuoi dati con­ten­go­no molte variabili o molto rumore. Poiché l’algoritmo combina molti modelli, l’over­fit­ting si verifica molto meno spesso rispetto ai singoli alberi de­ci­sio­na­li. Inoltre, la foresta casuale gestisce bene i valori mancanti e lavora in modo stabile anche se la qualità dei dati non è perfetta. Par­ti­co­lar­men­te utile è la pos­si­bi­li­tà di valutare l’im­por­tan­za delle singole variabili, che ti offre preziose in­for­ma­zio­ni sulla struttura dei tuoi dati. In più, l’algoritmo è estre­ma­men­te fles­si­bi­le e può essere uti­liz­za­to sia per compiti di clas­si­fi­ca­zio­ne sia per compiti di re­gres­sio­ne.

Svantaggi di random forest

No­no­stan­te i suoi vantaggi, l’algoritmo random forest presenta anche alcune sfide. Se nel modello sono presenti mol­tis­si­mi alberi, il fab­bi­so­gno di calcolo aumenta no­te­vol­men­te, il che può portare a tempi di ad­de­stra­men­to più lunghi. Anche l’in­ter­pre­ta­bi­li­tà è limitata, poiché un intero bosco di alberi de­ci­sio­na­li non è im­me­dia­ta­men­te com­pren­si­bi­le. Questo rende più difficile spiegare in dettaglio le decisioni in ambiti in cui la tra­spa­ren­za è im­por­tan­te. La foresta casuale può inoltre rag­giun­ge­re i propri limiti nei requisiti di ela­bo­ra­zio­ne in tempo reale, dato che la pre­vi­sio­ne deve at­tra­ver­sa­re numerosi alberi. Nei set di dati par­ti­co­lar­men­te grandi, il modello può inoltre ri­chie­de­re molto spazio di ar­chi­via­zio­ne.

Vantaggi e svantaggi dell’algoritmo random forest in sintesi

Vantaggi Svantaggi
Elevata ac­cu­ra­tez­za e ro­bu­stez­za In­ter­pre­ta­bi­li­tà ridotta
Quasi nessun over­fit­ting Elevato fab­bi­so­gno di calcolo per modelli di grandi di­men­sio­ni
Funziona bene con molte variabili Pre­vi­sio­ni più lente con un numero molto elevato di alberi
Gestisce bene i valori mancanti Richiede molta memoria
Meno adatto a requisiti strin­gen­ti in tempo reale

Quali sono i tipici casi d’uso per la foresta casuale?

L’algoritmo random forest viene uti­liz­za­to in molti settori, perché è af­fi­da­bi­le, robusto e versatile. È par­ti­co­lar­men­te van­tag­gio­so quando sono presenti grandi quantità di dati, molte variabili o schemi complessi.

Va­lu­ta­zio­ne del credito e del rischio

Le banche uti­liz­za­no random forest come parte dei loro sistemi di IA per stimare la pro­ba­bi­li­tà di un mancato pagamento. L’algoritmo può combinare dati come reddito, com­por­ta­men­to nei pagamenti, durata dell’impiego o storia cre­di­ti­zia. Grazie alla sua ro­bu­stez­za riconosce schemi che persone o anche reti neurali semplici po­treb­be­ro non cogliere. Il gran numero di alberi fa sì che valori anomali casuali non in­fluen­zi­no la decisione. Questo è par­ti­co­lar­men­te im­por­tan­te per decisioni eque e stabili.

Dia­gno­sti­ca medica

Anche nel settore sanitario random forest viene spesso uti­liz­za­to come com­po­nen­te di una dia­gno­sti­ca sup­por­ta­ta dall’IA. Può combinare valori di la­bo­ra­to­rio, sintomi o ca­rat­te­ri­sti­che di immagini per formulare pre­vi­sio­ni sulle malattie. Poiché i dati medici sono spesso in­com­ple­ti o rumorosi, questo ambito trae grande beneficio dalla natura robusta dell’algoritmo. In com­bi­na­zio­ne con altri modelli, ad esempio una rete neurale per l’analisi delle immagini, è possibile creare sistemi com­ples­si­vi af­fi­da­bi­li.

Ri­le­va­men­to delle frodi

Le aziende uti­liz­za­no la foresta casuale, tra l’altro, in sistemi di ri­le­va­men­to delle frodi basati sull’IA per ri­co­no­sce­re tran­sa­zio­ni frau­do­len­te. L’algoritmo analizza i modelli nei dati storici e li confronta con le attività correnti. Grazie alla sua capacità di ri­co­no­sce­re relazioni complesse, è molto efficace nell’iden­ti­fi­ca­zio­ne di com­por­ta­men­ti insoliti e offre pre­sta­zio­ni molto buone anche rispetto a reti neurali di struttura semplice. I tassi di falsi allarmi restano bassi, poiché molti alberi col­la­bo­ra­no tra loro. Anche se alcuni alberi prendono decisioni errate, la mag­gio­ran­za le compensa. In questo modo il sistema fornisce decisioni più af­fi­da­bi­li rispetto ai metodi semplici.

Esempi pratici di random forest

Anche su scala ridotta, ma allo stesso modo nelle grandi aziende, l’algoritmo random forest mostra la sua forza in scenari ap­pli­ca­ti­vi molto diversi. Nell’e-commerce si potrebbe usare random forest per prevedere quali clienti pro­ba­bil­men­te ac­qui­ste­ran­no di nuovo un de­ter­mi­na­to prodotto. A tale scopo il modello analizza modelli di acquisto pre­ce­den­ti, orari di visita, categorie di prodotto e in­te­ra­zio­ni.

Nel marketing i modelli di random forest aiutano le aziende a seg­men­ta­re il pubblico di ri­fe­ri­men­to in modo più preciso. Ana­liz­za­no il com­por­ta­men­to dei clienti, le ca­rat­te­ri­sti­che de­mo­gra­fi­che e gli interessi per con­sen­ti­re campagne per­so­na­liz­za­te. In questo modo si possono ridurre le di­sper­sio­ni e uti­liz­za­re i budget di marketing in modo più ef­fi­cien­te.

Anche nella cy­ber­si­cu­rez­za il modello trova im­por­tan­ti ap­pli­ca­zio­ni. L’algoritmo random forest riconosce attività di rete insolite con­fron­tan­do i modelli tratti dai dati storici con gli eventi attuali. In questo modo aiuta a iden­ti­fi­ca­re pre­co­ce­men­te po­ten­zia­li attacchi e a ridurre al minimo i rischi per la sicurezza.

Vai al menu prin­ci­pa­le