Il few-shot learning (FSL) è un framework di ap­pren­di­men­to au­to­ma­ti­co in cui un modello di in­tel­li­gen­za ar­ti­fi­cia­le impara a fare pre­vi­sio­ni accurate uti­liz­zan­do un numero limitato di esempi eti­chet­ta­ti. Questo approccio si basa sull’ad­de­stra­men­to del modello su schemi e ca­rat­te­ri­sti­che generali validi per diversi compiti. Si rivela par­ti­co­lar­men­te utile in contesti in cui i dati di­spo­ni­bi­li sono limitati, come nel ri­co­no­sci­men­to di immagini e nell’ela­bo­ra­zio­ne del lin­guag­gio.

Che cosa significa few-shot learning?

Il few-shot learning (FSL) è un framework dell’ap­pren­di­men­to au­to­ma­ti­co, ovvero una struttura di base per il codice di pro­gram­ma­zio­ne. Viene uti­liz­za­to per ad­de­stra­re i modelli di in­tel­li­gen­za ar­ti­fi­cia­le a fare pre­vi­sio­ni accurate uti­liz­zan­do una piccola quantità di dati per l’ad­de­stra­men­to. Mentre i metodi di ap­pren­di­men­to au­to­ma­ti­co tra­di­zio­na­li in genere ri­chie­do­no migliaia di dati per ottenere risultati af­fi­da­bi­li, il few-shot learning punta all’ot­ti­miz­za­zio­ne dell’ap­pren­di­men­to con quantità minime di dati.

L’obiettivo prin­ci­pa­le del few-shot learning è ap­pren­de­re in modo efficace basandosi su pochi esempi. Lavorando con una quantità minima di dati, questo approccio si rivela par­ti­co­lar­men­te prezioso nelle si­tua­zio­ni in cui è difficile rac­co­glie­re grandi quantità di dati eti­chet­ta­ti. Spesso sem­pli­ce­men­te i costi sono troppo elevati oppure, a volte, sono di­spo­ni­bi­li solo pochi esempi o campioni. Questo è il caso, ad esempio, di malattie rare o di ma­no­scrit­ti unici.

I software IA di IONOS
Scopri la potenza del­l'in­tel­li­gen­za ar­ti­fi­cia­le
  • Siti web in tempo record
  • Soluzioni IA per il tuo business
  • Risparmio di tempo e risultati ec­cel­len­ti

Il few-shot learning è con­si­de­ra­to un sot­toin­sie­me dell’n-shot learning. Ciò significa che il few-shot learning rap­pre­sen­ta ge­ne­ral­men­te un co­sid­det­to sistema di ca­te­go­riz­za­zio­ne N-way-K-shot, dove “N” rap­pre­sen­ta il numero delle classi e “K” il numero di esempi forniti per ciascuna classe. In questo ambito dell’in­tel­li­gen­za ar­ti­fi­cia­le rientrano anche il one-shot learning (un esempio eti­chet­ta­to per classe) e il zero-shot learning (nessun esempio eti­chet­ta­to). Il primo è con­si­de­ra­to una variante avanzata del few-shot learning, mentre il secondo è trattato come un problema di ap­pren­di­men­to distinto.

Come funziona il few-shot learning?

Sebbene algoritmi specifici e reti neurali siano spesso in grado di svolgere con successo molti compiti a esso correlati, il few-shot learning è definito so­prat­tut­to dal problema di ap­pren­di­men­to specifico, piuttosto che dall’uso di un modello specifico. Di con­se­guen­za, esiste una vasta gamma di metodi FSL che spaziano dall’adat­ta­men­to di modelli già ad­de­stra­ti al meta-ap­pren­di­men­to, fino all’uso di modelli ge­ne­ra­ti­vi. Di seguito, esa­mi­nia­mo più nel dettaglio i singoli approcci.

Ap­pren­di­men­to per tra­sfe­ri­men­to

Gli approcci basati sull’ap­pren­di­men­to per tra­sfe­ri­men­to, o transfer learning, si con­cen­tra­no sull’adat­ta­men­to di modelli già ad­de­stra­ti per risolvere nuovi compiti. Invece di ad­de­stra­re un modello da zero, si tra­sfe­ri­sco­no ca­rat­te­ri­sti­che e rap­pre­sen­ta­zio­ni già apprese, per­fe­zio­nan­do­le per un nuovo compito. Ciò aiuta a evitare il sovra-ad­de­stra­men­to, che è spesso un rischio dell’ap­pren­di­men­to su­per­vi­sio­na­to con pochi esempi, so­prat­tut­to per i modelli con un gran numero di parametri, come le reti neurali con­vo­lu­zio­na­li (CNN).

Un metodo comune consiste nel con­fi­gu­ra­re un modello di clas­si­fi­ca­zio­ne, ad­de­stran­do­lo con poche nuove classi di dati. Nei casi più complessi, le reti del few-shot learning ri­chie­do­no spesso l’adat­ta­men­to dell’ar­chi­tet­tu­ra di rete. L’ap­pren­di­men­to per tra­sfe­ri­men­to risulta par­ti­co­lar­men­te efficace quando esistono forti si­mi­li­tu­di­ni tra il compito originale e quello nuovo o quando l’ad­de­stra­men­to originale è stato svolto in un contesto simile.

Approccio a livello di dati

Il few-shot learning a livello di dati si basa sull’idea di generare dati di ad­de­stra­men­to ag­giun­ti­vi per af­fron­ta­re il problema della quantità limitata di campioni di dati eti­chet­ta­ti. Questo approccio è utile in si­tua­zio­ni in cui è difficile ottenere esempi reali, come nel caso di specie appena scoperte. Se sono di­spo­ni­bi­li campioni suf­fi­cien­te­men­te vari, si possono creare dati sup­ple­men­ta­ri simili uti­liz­zan­do modelli ge­ne­ra­ti­vi come le reti ge­ne­ra­ti­ve av­ver­sa­rie, anche co­no­sciu­te come Ge­ne­ra­ti­ve Ad­ver­sa­rial Network (GAN). È inoltre possibile combinare l’am­plia­men­to dei dati con altri metodi come il meta-ap­pren­di­men­to.

Meta-ap­pren­di­men­to

Il meta-ap­pren­di­men­to, o meta-learning, offre un approccio più ampio e indiretto rispetto al classico ap­pren­di­men­to per tra­sfe­ri­men­to o all’ap­pren­di­men­to su­per­vi­sio­na­to. Infatti, qui il modello non viene ad­de­stra­to solo per compiti specifici: nel breve termine impara a risolvere compiti entro un certo contesto, mentre a lungo termine è in grado di ri­co­no­sce­re schemi e strutture comuni a più compiti. Questo permette di fare pre­vi­sio­ni sul grado di so­mi­glian­za tra i punti dati di varie classi e di servirsi di queste in­for­ma­zio­ni per risolvere compiti suc­ces­si­vi.

Meta-ap­pren­di­men­to basato su metriche

Gli approcci di meta-ap­pren­di­men­to basati su metriche non modellano confini diretti di clas­si­fi­ca­zio­ne, ma valori continui per rap­pre­sen­ta­re uno specifico campione di dati. L’inferenza si basa sull’ap­pren­di­men­to di nuove ca­rat­te­ri­sti­che che misurano le si­mi­la­ri­tà tra il valore e quelli dei singoli campioni e classi. Gli algoritmi FSL basati su metriche includono:

  • Reti siamesi: si avvalgono dell’ap­pren­di­men­to con­tra­sti­vo per risolvere problemi di clas­si­fi­ca­zio­ne binaria, ve­ri­fi­can­do se due campioni co­sti­tui­sco­no una coppia positiva (cor­ri­spon­den­te) o negativa (non cor­ri­spon­den­te).
  • Reti cor­ri­spon­den­ti : i matching network sono in grado di ef­fet­tua­re clas­si­fi­ca­zio­ni multiple, uti­liz­zan­do una rete neurale per re­sti­tui­re un in­cor­po­ra­men­to per ogni campione all’interno dei set di supporto e di query. La clas­si­fi­ca­zio­ne viene prevista con­fron­tan­do i campioni di supporto e quelli di in­ter­ro­ga­zio­ne.
  • Reti pro­to­ti­pi­che: calcolano le ca­rat­te­ri­sti­che medie dei campioni forniti per ciascuna classe per creare un prototipo per ogni classe. I singoli punti di dati vengono clas­si­fi­ca­ti in base alla loro relativa vicinanza ai prototipi specifici della classe.
  • Reti di relazioni: i relation network (RN) impiegano un modulo di in­cor­po­ra­zio­ne, ma anche un modulo di relazione che genera una funzione di distanza non lineare adatta al problema di clas­si­fi­ca­zio­ne specifico.

Meta-ap­pren­di­men­to basato sull’ot­ti­miz­za­zio­ne

Nelle tecniche di meta-ap­pren­di­men­to basate sull’ot­ti­miz­za­zio­ne, noto anche come meta-ap­pren­di­men­to basato sul gradiente, l’algoritmo individua i parametri iniziali del modello o gli iper­pa­ra­me­tri delle reti neurali da ot­ti­miz­za­re per adattarsi in modo efficace alle necessità spe­ci­fi­che. Si tratta dunque di un processo di ot­ti­miz­za­zio­ne dell’algoritmo di ot­ti­miz­za­zio­ne stesso, definito anche come meta-ot­ti­miz­za­zio­ne o ot­ti­miz­za­zio­ne della discesa del gradiente.

Il più noto metodo FSL basato sull’ot­ti­miz­za­zio­ne è il meta-ap­pren­di­men­to agnostico del modello, o model-agnostic meta-learning (MAML), il quale non si concentra su un compito specifico, ma può essere applicato a tutti i modelli che ap­pren­do­no tramite discesa del gradiente. Per ad­de­stra­re i modelli di meta-ap­pren­di­men­to si possono uti­liz­za­re anche le reti LSTM (LSTM = long short-term memory). La par­ti­co­la­ri­tà di questo tipo di ot­ti­miz­za­zio­ne dell’in­cor­po­ra­zio­ne latente, ovvero latent embedding op­ti­mi­sa­tion (LEO), è l’ap­pren­di­men­to di una di­stri­bu­zio­ne ge­ne­ra­ti­va dei parametri del modello specifici per ciascun compito specifico.

Quali sono i prin­ci­pa­li ambiti di ap­pli­ca­zio­ne del few-shot learning?

Il few-shot learning può essere uti­liz­za­to in molti modi diversi, perché in ultima analisi sono molti i settori e le aree di ricerca in grado di trarre vantaggio da questo tipo di ap­pren­di­men­to, ef­fi­cien­te anche in si­tua­zio­ni in cui i dati eti­chet­ta­ti sono limitati. Le prin­ci­pa­li aree di ap­pli­ca­zio­ne includono:

  • Visione ar­ti­fi­cia­le: molti degli algoritmi FSL più popolari sono stati ini­zial­men­te svi­lup­pa­ti per compiti di clas­si­fi­ca­zio­ne delle immagini. Tuttavia, il few-shot learning è adatto anche a problemi di visione ar­ti­fi­cia­le più complessi, come il ri­co­no­sci­men­to di oggetti, in cui è ne­ces­sa­rio lo­ca­liz­za­re con pre­ci­sio­ne i singoli com­po­nen­ti dell’immagine.
  • Robotica: il few-shot learning può essere uti­liz­za­to per aiutare i robot a orien­tar­si più ra­pi­da­men­te in nuovi ambienti e pa­dro­neg­gia­re più ve­lo­ce­men­te nuovi compiti.
  • Ela­bo­ra­zio­ne del lin­guag­gio naturale (NLP): i metodi FSL (in par­ti­co­la­re l’ap­pren­di­men­to per tra­sfe­ri­men­to) aiutano ad adattare i modelli lin­gui­sti­ci di grandi di­men­sio­ni, o large language model (LLM). Questi modelli vengono ad­de­stra­ti in anticipo con grandi quantità di dati per svolgere compiti specifici per i quali è richiesta la com­pren­sio­ne del contesto. Tra questi troviamo la clas­si­fi­ca­zio­ne dei testi e l’analisi del sentiment.
  • Sanità: grazie alla sua capacità di rilevare e ap­pren­de­re ra­pi­da­men­te classi di dati sco­no­sciu­te e rare, il few-shot learning risulta ideale per i settori medici in cui è difficile ottenere dati eti­chet­ta­ti. Un esempio classico è la diagnosi di malattie rare.
  • Settore bancario: gli istituti di credito uti­liz­za­no algoritmi di few-shot learning per il ri­le­va­men­to delle frodi, al fine di iden­ti­fi­ca­re modelli o com­por­ta­men­ti anomali nelle tran­sa­zio­ni fi­nan­zia­rie. Questo approccio è efficace anche quando sono di­spo­ni­bi­li solo pochi casi di frode nel dataset.

Sfide pratiche nell’im­ple­men­ta­zio­ne del few-shot learning

L’im­ple­men­ta­zio­ne del few-shot learning presenta alcune sfide pratiche: una delle prin­ci­pa­li è il rischio di over­fit­ting (sovra-adat­ta­men­to). I modelli con pochi esempi di ad­de­stra­men­to tendono infatti ad ap­pren­de­re in modo eccessivo dai dati di­spo­ni­bi­li, ri­sul­tan­do poco ge­ne­ra­liz­za­bi­li. Inoltre, il few-shot learning richiede che i modelli siano adattati e sin­to­niz­za­ti con estrema pre­ci­sio­ne per ottenere buone pre­sta­zio­ni.

Anche la qualità dei dati di­spo­ni­bi­li è un fattore cruciale: se i pochi esempi non sono rap­pre­sen­ta­ti­vi o con­ten­go­no errori, le pre­sta­zio­ni del modello ne ri­sen­ti­ran­no si­gni­fi­ca­ti­va­men­te. Inoltre, la selezione di ca­rat­te­ri­sti­che ap­pro­pria­te e di metodi per ampliare il dataset risulta par­ti­co­lar­men­te im­pe­gna­ti­va data la quantità limitata di dati. Anche le risorse di calcolo e il tempo necessari per l’ad­de­stra­men­to di modelli ot­ti­miz­za­ti di few-shot learning sono aspetti da non sot­to­va­lu­ta­re.

Vai al menu prin­ci­pa­le