Generative Adversarial Networks: il lato creativo dell’apprendimento automatico

Indice

Lo sviluppo rapido dell’intelligenza artificiale (abbreviato IA) ha reso le macchine sempre più intelligenti. Grazie alla loro capacità di svilupparsi in modo autonomo sulla base dei dati forniti, le macchine stanno creando nuovi modi per aiutarci a svolgere compiti sempre più complessi.

Una soluzione molto promettente e che sta già producendo risultati impressionanti in vari settori è rappresentata dalle Generative Adversarial Networks (GAN), in italiano reti generative avversarie.Le GAN sono utilizzate principalmente per la generazione di immagini, ma consentono anche la creazione automatica di testi. Cosa sono esattamente le GAN?Come funzionano? E come possiamo usarle in modo sensato?

Cos’è una GAN?

Prima di occuparci di come utilizzare le GAN per i nostri scopi, vediamo prima di tutto cosa sono. Si tratta di un sistema di apprendimento automatico sviluppato nel 2014 da un team di Ian J. Goodfellow, informatico attivo nel campo del deep learning e dell’IA. Il compito di una GAN è di generare creazioni proprie basate su un insieme di esempi di dati reali che devono sembrare così vere da rendere difficile immaginare che siano state generate da un computer senza l’intervento di esseri umani. Per raggiungere quest’obiettivo si utilizzano due reti neurali in competizione tra loro.

Il compito della rete generativa è di creare un’imitazione. La rete è alimentata da una serie di dati, per esempio foto di donne. Sulla base di questi dati, crea la propria foto. La rete può anche studiare quali sono le caratteristiche comuni degli originali. La nuova immagine non è quindi un duplicato di uno dei dati di partenza, ma un’opera completamente nuova, di natura simile. Nel nostro esempio rappresenta la foto di una donna inesistente.

I dati di base e le informazioni generate vengono trasmesse insieme alla rete partner. Lo scopo del discriminatore è verificare se i dati ricevuti siano autentici o falsificati. Un’immagine viene classificata come falsificata non solo quando si discosta troppo dai dati di base, ma anche quando è troppo perfetta: se il generatore dovesse semplicemente prendere un valore medio da tutti i dati e crearne uno nuovo, la creazione meccanica sarebbe evidente. Quindi il discriminatore filtra anche i dati che non hanno un effetto naturale.

Entrambe le reti cercano di svolgere il proprio ruolo in competizione. Quando il discriminatore rileva il set di dati falso, restituisce i dati. In questo caso la rete generativa non è ancora abbastanza efficace e deve quindi continuare ad apprendere. Allo stesso tempo, però, anche il discriminatore ha imparato. Poiché le due reti neurali si addestrano a vicenda, ci stiamo confrontando con un sistema di deep learning. Il generatore cerca di creare insiemi di dati che sembrino così reali, da essere classificati come tali dal discriminatore. Il discriminatore, invece, cerca di analizzare e comprendere gli esempi reali in modo così preciso, che i dati falsificati non abbiano alcuna possibilità di essere identificati come reali.

Come funzionano le GAN?

Come ogni intelligenza artificiale, le GAN devono essere addestrate per ottimizzare il lavoro. Questa forma di apprendimento automatico si realizza in sei passaggi:

definizione del problema: il primo passaggio è definire un problema che il sistema deve risolvere. A questo scopo gli sviluppatori devono raccogliere dati reali che il sistema può utilizzare.
Architettura: problematiche diverse richiedono anche diverse Generative Adversarial Networks. Pertanto la GAN deve avere un’architettura adeguata in base all’applicazione.
Primo addestramento per discriminatori: in questa fase inizia l’addestramento vero e proprio. Il generatore si arresta, mentre il discriminatore analizza solo i dati reali e impara a comprenderli.
Primo addestramento del generatore: ora è il discriminatore a fermarsi, mentre il generatore inizia a creare dati falsificati.
Secondo addestramento per discriminatori: il discriminatore viene ora alimentato con i nuovi dati falsificati del generatore e deve decidere quali dati considera reali e quali falsi.
Secondo addestramento del generatore: il generatore viene ulteriormente migliorato con i risultati del secondo addestramento del discriminatore. Impara i punti deboli del discriminatore e cerca di sfruttarli e di generare set di dati falsificati ancora più realistici.

Grazie alla competizione, entrambe le reti sono in costante evoluzione, si migliorano e guadagnano efficienza. Il generatore impara a sviluppare set di dati sempre più realistici. Il discriminatore impara a identificare come falsificati anche set di dati reali.

Quali sfide deve superare il sistema?

Come per quasi tutte le tecnologie, gli sviluppatori di GAN devono affrontare una serie di sfide da risolvere affinché l’addestramento si svolga senza intoppi.

Una competizione equilibrata

Come spiegato in precedenza, le GAN si basano sulla competizione tra due reti neurali. Questa ha successo solo se entrambe le reti hanno uguale forza ed efficacia. Se una delle due reti è superiore all’altra, il sistema collassa. Se, ad esempio, il generatore è superiore, il discriminatore classificherà tutti i dati falsificati come autentici. Se il discriminatore è superiore, classificherà tutti i dati del generatore come falsificati. In questo caso, nessuna delle due reti può continuare a svilupparsi.

Comprendere correttamente gli oggetti

Le Generative Adversarial Networks hanno spesso problemi a riconoscere e comprendere correttamente gli oggetti. Questo vale soprattutto per le immagini. Esempio: un’immagine reale mostra due gatti con due occhi ciascuno. Se il generatore non comprende la struttura completa e la posizione dell’immagine, potrebbe generare un gatto con quattro occhi. Le GAN possono lasciarsi ingannare dalle prospettive e non capire che due immagini rappresentano lo stesso motivo ma da direzioni diverse.

Dove si utilizzano le GAN?

Le Generative Adversarial Networks hanno ottenuto un’attenzione particolare, anche al di fuori dell’informatica, dopo che il collettivo di artisti Obvious ha utilizzato la tecnologia per creare un’opera d'arte. Questo dipinto è stato venduto all’asta per 432.500 dollari. Una GAN può dare risultati sorprendenti anche al di fuori dell’ambito artistico.

Previsioni video

Le GAN sono in grado di prevedere in base a dei fotogrammi video come proseguire e prolungare in autonomia il video al termine della registrazione. Sono inclusi tutti gli elementi video, come ad esempio movimenti e azioni, ma anche cambiamenti di sfondo come pioggia o nebbia.

Generazione di immagini basate sul testo

A partire da una descrizione, le GAN possono generare immagini. Ad esempio, possono sviluppare uno storyboard in autonomia sulla base di un copione.

Generazione di oggetti complessi

Anche semplici schizzi possono essere trasformati automaticamente in oggetti tridimensionali complessi in un lasso di tempo molto breve. Ad esempio, utilizzando le GAN, un albero disegnato in modo semplice può essere trasformato in un oggetto molto complesso con piccoli dettagli come le foglie che si muovono al vento e la chioma vacillante.

Miglioramento dei dettagli dell’immagine

Le GAN possono aggiungere nuovi dettagli a un’immagine con una risoluzione scadente o pixel mancanti. Le Generative Adversarial Networks utilizzano le informazioni di immagini simili per aggiungere informazioni a immagini scarne.

Sviluppo di nuovi prodotti

Alcune aziende stanno sperimentando le GAN nella fase di sviluppo del prodotto e, con l’aiuto dei loro sistemi, stanno creando design e gamme di prodotti completamente nuove.

Generazione del testo del prodotto

Le GAN possono essere utilizzate per la scrittura di testi e vengono già usate per generare descrizioni di prodotti che svolgono un ruolo sempre più importante nelle decisioni d’acquisto dei clienti. Le GAN non solo consentono di creare tali descrizioni in modo rapido, ma possono anche analizzare le descrizioni di prodotti che hanno avuto più successo in passato e, su questa base, scrivere testi analoghi.

Le Generative Adversarial Networks sono già utilizzate con successo in tutti questi settori. Aziende e sviluppatori lavorano costantemente a nuove applicazioni ed è prevedibile che nel medio termine queste reti avranno una grande influenza su molti settori della nostra vita e del nostro lavoro.

Prodotti correlati

AI Model Hub

Articoli popolari

Vendere domini: come guadagnare con i domini?

Comprare e vendere domini può essere un'attività lucrativa, se si sa come procedere. Vi…

5 alternative a Nextcloud a confronto

Scopri le migliori alternative a Nextcloud, ideali per diverse esigenze di archiviazione…

I 7 migliori servizi di backup online a confronto

Salva i tuoi dati al sicuro nel cloud. Ti presentiamo 7 servizi per proteggere i tuoi…

Aggiornamento a Debian 13: come funziona

Questa guida ti mostra come eseguire un aggiornamento a Debian 13, preparare il tuo…

4 alternative gratuite a InDesign di Adobe

I software Adobe sono troppo costosi? Sul web sono disponibili alcune alternative gratuite…

Articoli simili

Titima OngkantongShutterstock

Cos’è l’apprendimento supervisionato (supervised learning)?

L’intelligenza artificiale svolgerà un ruolo importante in futuro: grazie a essa, le macchine potranno risolvere problemi autonomamente senza attendere il nostro input. Per farlo, tuttavia, è innanzitutto necessario addestrare gli algoritmi. Nel caso del supervised learning, gli…

Lessico
Intelligenza artificiale

pixelparticleShutterstock

Che cos’è l’apprendimento non supervisionato (unsupervised learning)?

L’apprendimento non supervisionato insegna agli algoritmi a prendere decisioni in autonomia e a migliorarsi continuamente con l’aiuto dell’intelligenza artificiale. Ma come fa una macchina a imparare? Scopri come i computer e i programmi sono in grado di imparare senza seguire…

Lessico
Intelligenza artificiale

Gorodenkoffshutterstock

Che cos’è l’Explainable AI (XAI)?

L’intelligenza artificiale porta grandi progressi, ad esempio automatizzando molti processi ed elaborando modelli di dati con notevole efficienza. Allo stesso tempo solleva anche molte domande, ad esempio sul modo in cui prendere le decisioni. L’Explainable AI (IA spiegabile)…

Lessico
Intelligenza artificiale

NDAB Creativityshutterstock

Keras: libreria open source per la configurazione di reti neurali

La configurazione e la manutenzione di reti neurali rappresentano uno standard importante in molti progetti industriali e di ricerca. Keras è una libreria open source, che semplifica questi processi indipendentemente dalla piattaforma di deep learning predefinita. Qui scoprirete…

BEST-BACKGROUNDSShutterstock

GitHub Copilot: una presentazione dell’assistente alla programmazione

GitHub Copilot è stato pensato per aiutare gli sviluppatori a scrivere il codice e persino per creare blocchi da zero. Allo stato attuale, tuttavia, l’IA di GitHub si trova ancora in fase di test. In questo articolo vi spieghiamo che cos’è GitHub Copilot, quali vantaggi potrebbe…

Willyam BradberryShutterstock

Cos’è l’IA generativa?

L’IA generativa è in grado di creare nuovi contenuti come testi, immagini e musica. Oltre a numerosi campi di applicazione, la tecnologia offre molti altri vantaggi, tra cui l’automazione dei processi manuali. Tuttavia, ci sono anche preoccupazioni riguardo all’abuso, al diritto…

Lessico
Intelligenza artificiale

Ge­ne­ra­ti­ve Ad­ver­sa­rial Networks: il lato creativo dell’ap­pren­di­men­to au­to­ma­ti­co

Cos’è una GAN?

Come fun­zio­na­no le GAN?

Quali sfide deve superare il sistema?

Una com­pe­ti­zio­ne equi­li­bra­ta

Com­pren­de­re cor­ret­ta­men­te gli oggetti

Dove si uti­liz­za­no le GAN?

Pre­vi­sio­ni video

Ge­ne­ra­zio­ne di immagini basate sul testo

Ge­ne­ra­zio­ne di oggetti complessi

Mi­glio­ra­men­to dei dettagli dell’immagine

Sviluppo di nuovi prodotti

Ge­ne­ra­zio­ne del testo del prodotto

Generative Adversarial Networks: il lato creativo dell’apprendimento automatico

Come funzionano le GAN?

Una competizione equilibrata

Comprendere correttamente gli oggetti

Dove si utilizzano le GAN?

Previsioni video

Generazione di immagini basate sul testo

Generazione di oggetti complessi

Miglioramento dei dettagli dell’immagine

Generazione del testo del prodotto