Nell’ap­pren­di­men­to au­to­ma­ti­co, gli embedding sono uti­liz­za­ti per con­ver­ti­re gli oggetti mul­ti­di­men­sio­na­li (come immagini, testo, video o dati audio) in vettori. In questo modo, i modelli di machine learning sono in grado di ri­co­no­scer­li e clas­si­fi­car­li meglio. Questo metodo è già stato uti­liz­za­to con grande successo so­prat­tut­to in database vet­to­ria­li come ChromaDB.

Che cos’è l’embedding nell’ap­pren­di­men­to au­to­ma­ti­co?

L’embedding nel machine learning è una tecnica uti­liz­za­ta dai sistemi per rap­pre­sen­ta­re oggetti reali in forma ma­te­ma­ti­ca e renderli com­pren­si­bi­li da parte dell’in­tel­li­gen­za ar­ti­fi­cia­le (IA). Questi embedding (tra­du­ci­bi­li in italiano come “in­cor­po­ra­men­ti”) sem­pli­fi­ca­no la rap­pre­sen­ta­zio­ne degli oggetti reali, pur man­te­nen­do­ne le ca­rat­te­ri­sti­che e le relazioni con altri oggetti. Questo metodo è uti­liz­za­to per insegnare ai modelli di ap­pren­di­men­to au­to­ma­ti­co a in­di­vi­dua­re gli oggetti che pre­sen­ta­no si­mi­li­tu­di­ni. Tali oggetti possono essere, tra gli altri, testi naturali, immagini, dati audio o video. Per gli oggetti di questo tipo si parla di dati ad alta di­men­sio­na­li­tà perché, ad esempio, un’immagine può contenere numerosi valori di colore dei pixel.

In senso stretto, gli embedding per l’IA sono vettori. In ma­te­ma­ti­ca, per vettore si intende una serie di numeri che definisce un punto all’interno di uno spazio di­men­sio­na­le.

AI Model Hub
La tua piat­ta­for­ma IA mul­ti­mo­da­le e sicura
  • Con­for­mi­tà al GDPR e hosting sicuro in Europa
  • Potenti modelli basati sul­l'in­tel­li­gen­za ar­ti­fi­cia­le
  • Assenza di vendor lock-in grazie all'open source

L’idea di base degli embedding nell’ap­pren­di­men­to au­to­ma­ti­co è che un algoritmo di ricerca all’interno di un database vet­to­ria­le iden­ti­fi­ca due vettori il più vicini possibile tra loro. Maggiore è la com­ples­si­tà di questi vettori, tanto più preciso sarà il risultato nella maggior parte dei casi, se due di essi si as­so­mi­glia­no. Pertanto, per l’embedding nel machine learning è ne­ces­sa­rio vet­to­riz­za­re e con­si­de­ra­re nel confronto il maggior numero possibile di fattori o di­men­sio­ni. Per ottenere un buon risultato, un modello viene ad­de­stra­to con i set di dati più grandi ed ete­ro­ge­nei possibile.

N.B.

In de­ter­mi­na­ti scenari, ad esempio per evitare un so­vra­dat­ta­men­to (“over­fit­ting”) o per ot­ti­miz­za­re le pre­sta­zio­ni di calcolo, può essere opportuno uti­liz­za­re anche un minor numero di di­men­sio­ni per ottenere un buon risultato dagli embedding per l’IA.

Quali sono le ap­pli­ca­zio­ni degli embedding nel machine learning?

Gli embedding nel machine learning trovano ap­pli­ca­zio­ne so­prat­tut­to nei modelli lin­gui­sti­ci di grandi di­men­sio­ni, ossia i Large Language Model (LLM). Questi modelli sono uti­liz­za­ti da numerosi strumenti di IA. Il metodo non si limita a in­cor­po­ra­re solo una parola, ma anche il relativo contesto. In questo modo, le soluzioni come ChatGPT sono in grado di ana­liz­za­re sequenze di parole, frasi o interi testi. Per l’embedding nel machine learning sono inoltre di­spo­ni­bi­li le seguenti pos­si­bi­li­tà ap­pli­ca­ti­ve:

  • Mi­glio­ra­men­to di ricerche e query: l’embedding nel machine learning può essere uti­liz­za­to per per­fe­zio­na­re in­ter­ro­ga­zio­ni e query di ricerca, ottenendo quindi risultati più precisi a lungo termine.
  • Con­te­stua­liz­za­zio­ne: è possibile ottenere risposte più precise anche at­tra­ver­so la messa a di­spo­si­zio­ne di ulteriori in­for­ma­zio­ni di contesto.
  • Adat­ta­men­ti per­so­na­liz­za­ti: uti­liz­zan­do gli embedding per l’IA è possibile spe­ci­fi­ca­re e per­so­na­liz­za­re i modelli lin­gui­sti­ci di grandi di­men­sio­ni. La soluzione permette quindi di adattarli con pre­ci­sio­ne a si­tua­zio­ni o ter­mi­no­lo­gie spe­ci­fi­che.
  • In­te­gra­zio­ne: gli in­cor­po­ra­men­ti possono essere uti­liz­za­ti anche per integrare dati pro­ve­nien­ti da fonti esterne. I set di dati diventano quindi ancora più estesi ed ete­ro­ge­nei.

Come funziona l’embedding? (esempio: ChromaDB)

La soluzione migliore per un’ar­chi­via­zio­ne efficace e per il suc­ces­si­vo recupero dei dati in­cor­po­ra­ti è un database vet­to­ria­le. Questi spazi di ar­chi­via­zio­ne non soltanto me­mo­riz­za­no i dati ri­spar­mian­do spazio, ma con­sen­to­no anche di eseguire query che non re­sti­tui­sco­no il risultato esatto, bensì risultati simili. Una delle memorie vet­to­ria­li open source più note è ChromaDB, che permette di me­mo­riz­za­re gli embedding per il machine learning insieme ai metadati in modo da poterli riu­ti­liz­za­re con i modelli lin­gui­sti­ci di grandi di­men­sio­ni in un secondo momento. Questa soluzione consente di capire meglio il fun­zio­na­men­to degli embedding. In generale sono suf­fi­cien­ti i tre passaggi descritti qui di seguito.

Primo passaggio: creazione di una nuova raccolta

Il primo passaggio consiste nel creare una raccolta che presenti so­mi­glian­ze con le tabelle ar­chi­via­te in un database re­la­zio­na­le. Tali so­mi­glian­ze vengono con­ver­ti­te in in­cor­po­ra­men­ti. ChromaDB utilizza la con­ver­sio­ne all-MiniLM-L6-v2 come standard per gli embedding. È comunque possibile cambiare questa im­po­sta­zio­ne e uti­liz­za­re un modello diverso. Se hai bisogno di una raccolta spe­cia­liz­za­ta, ad esempio, la scelta di un modello diverso consente una migliore adat­ta­bi­li­tà a esigenze spe­ci­fi­che, come l’ela­bo­ra­zio­ne di immagini o testi spe­cia­liz­za­ti. La fles­si­bi­li­tà nella scelta del modello rende ChromaDB uno strumento versatile per dati di testo, audio o immagini.

Secondo passaggio: aggiunta di nuovi documenti

A questo punto, aggiungi documenti di testo con metadati e un proprio ID alla nuova raccolta. Se il testo è presente nella raccolta, ChromaDB lo converte au­to­ma­ti­ca­men­te in embedding. I metadati fungono da in­for­ma­zio­ni ag­giun­ti­ve per per­fe­zio­na­re suc­ces­si­va­men­te la query in modo mirato, ad esempio filtrando per categorie o per marca temporale. Questa strut­tu­ra­zio­ne ti permette di gestire grandi quantità di dati in modo chiaro e di trovare risultati per­ti­nen­ti più ra­pi­da­men­te.

Terzo passaggio: query dei documenti cercati

Nel terzo passaggio puoi quindi eseguire query degli embedding in ChromaDB o dei testi. Come output otterrai risultati che saranno simili alla tua richiesta. Inoltre, è possibile ri­chie­de­re l’emissione dei documenti de­si­de­ra­ti inserendo i metadati. I risultati sono ordinati in base alla loro so­mi­glian­za, mostrando più in alto quelli più rilevanti. Per ot­ti­miz­za­re la query, puoi anche impostare soglie di so­mi­glian­za oppure applicare filtri sup­ple­men­ta­ri con cui aumentare ul­te­rior­men­te la pre­ci­sio­ne.

Managed Database Services
Con­cen­tra­ti sul tuo progetto, noi pensiamo al resto
  • Partner IONOS Cloud
  • Soluzioni fles­si­bi­li e su misura
  • Data center situati in Europa
Vai al menu prin­ci­pa­le