Un database vet­to­ria­le è un tipo di database che memorizza, gestisce e recupera i dati sotto forma di vettori ad alta di­men­sio­ne. Continua a leggere per saperne di più su come fun­zio­na­no i database vet­to­ria­li e in quali ambiti vengono uti­liz­za­ti.

Cos’è un database vet­to­ria­le?

Ana­lo­ga­men­te a un database tra­di­zio­na­le, nei database vet­to­ria­li possono essere me­mo­riz­za­ti diversi tipi di dati, tra cui testo, immagini e altri contenuti mul­ti­me­dia­li. La dif­fe­ren­za sta nel modo in cui i dati vengono ar­chi­via­ti e re­cu­pe­ra­ti. Mentre i dati nei database normali sono spesso ar­chi­via­ti in un formato tabellare in­di­ciz­za­to, nei database vet­to­ria­li sono rap­pre­sen­ta­ti come vettori numerici ad alta di­men­sio­ne. I valori contenuti in un vettore possono essere intesi come parametri. Ognuno di questi parametri ha la finalità di de­scri­ve­re una proprietà del dato originale. In questo modo, i set di dati possono essere pa­ra­me­triz­za­ti e con­fron­ta­ti e rag­grup­pa­ti in base a metriche di so­mi­glian­za.

Con i database vet­to­ria­li è quindi molto più facile clas­si­fi­ca­re e in­ter­ro­ga­re i dati in base alle loro proprietà ap­pros­si­ma­ti­ve. Questo è par­ti­co­lar­men­te van­tag­gio­so per i sistemi di ap­pren­di­men­to au­to­ma­ti­co e deep learning.

I software IA di IONOS
Scopri la potenza del­l'in­tel­li­gen­za ar­ti­fi­cia­le
  • Siti web in tempo record
  • Soluzioni IA per il tuo business
  • Risparmio di tempo e risultati ec­cel­len­ti

Come fun­zio­na­no i database vet­to­ria­li?

Rispetto ai tra­di­zio­na­li database re­la­zio­na­li, i database vet­to­ria­li offrono molti vantaggi nel campo dell’in­tel­li­gen­za ar­ti­fi­cia­le. Tuttavia, l’ar­chi­via­zio­ne e la gestione dei dati vet­to­ria­li pre­sen­ta­no alcune criticità. La prima grande sfida di questo tipo di database è la con­ver­sio­ne dei tra­di­zio­na­li dati digitali in vettori numerici che rap­pre­sen­ti­no ac­cu­ra­ta­men­te le proprietà di questi oggetti. È qui che entrano in gioco i modelli di in­cor­po­ra­zio­ne vet­to­ria­le.

I vettori possono essere intesi come coor­di­na­te in uno spazio mul­ti­di­men­sio­na­le. Lo spazio ad alta di­men­sio­ne in cui si trovano i vettori me­mo­riz­za­ti in un database vet­to­ria­le è chiamato in­cor­po­ra­zio­ne vet­to­ria­le. Per passare da un oggetto di dati digitali a un cor­ri­spon­den­te in­cor­po­ra­men­to vet­to­ria­le, è ne­ces­sa­rio un modello di in­cor­po­ra­men­to vet­to­ria­le. In questo caso si tratta di un modello di ap­pren­di­men­to au­to­ma­ti­co spe­cia­liz­za­to che analizza gli oggetti di dati e genera una rap­pre­sen­ta­zio­ne vet­to­ria­le adatta in base al loro si­gni­fi­ca­to e al contesto.

Prendiamo come esempio un database vet­to­ria­le che memorizza e ca­te­go­riz­za le parole. Le parole “sushi” e “pasta” hanno un si­gni­fi­ca­to semantico simile no­no­stan­te la loro diversa or­to­gra­fia. Di con­se­guen­za, il modello di in­cor­po­ra­men­to dovrebbe generare in­cor­po­ra­zio­ni vet­to­ria­li simili per le due parole. Per farlo, il modello potrebbe, ad esempio, ana­liz­za­re i contesti testuali in cui le due parole ricorrono spesso.

L’in­ter­ro­ga­zio­ne dei dati del database vet­to­ria­le avviene in modo simile all’in­se­ri­men­to dei dati. Il modello di in­cor­po­ra­zio­ne genera un vettore adatto (o una coor­di­na­ta nello spazio ad alta di­men­sio­ne) per l’in­ter­ro­ga­zio­ne stessa. Vengono quindi uti­liz­za­ti algoritmi ma­te­ma­ti­ci spe­cia­liz­za­ti per trovare i vettori più vicini. È quindi possibile re­cu­pe­ra­re dal database non solo le cor­ri­spon­den­ze esatte, ma anche gli oggetti di dati il cui vettore è simile al vettore dell’in­ter­ro­ga­zio­ne. Ad esempio, inserendo “cibo” come query, po­treb­be­ro essere re­sti­tui­te le voci “pasta” e “sushi”. Invece, inserendo “cibo giap­po­ne­se”, il vettore della query sarà molto più simile al vettore “sushi” che al vettore “pasta”.

Quali sono i vantaggi dei database vet­to­ria­li?

I database vet­to­ria­li come ChromaDB offrono una serie di vantaggi rispetto ai tra­di­zio­na­li database re­la­zio­na­li che si rivelano par­ti­co­lar­men­te preziosi per le ap­pli­ca­zio­ni di in­tel­li­gen­za ar­ti­fi­cia­le. Di seguito ne esa­mi­nia­mo alcuni.

Ricerca per so­mi­glian­za ef­fi­cien­te

La rap­pre­sen­ta­zio­ne di un oggetto di dati come un punto in uno spazio ad alta di­men­sio­ne consente di uti­liz­za­re algoritmi spe­cia­liz­za­ti in vettori, così da trovare vettori vicini (o contenuti rilevanti per l’argomento) in modo rapido ed ef­fi­cien­te. Questo è es­sen­zia­le per ap­pli­ca­zio­ni come il ri­co­no­sci­men­to di immagini, dove vengono iden­ti­fi­ca­te immagini simili, o per i sistemi di rac­co­man­da­zio­ne che sug­ge­ri­sco­no prodotti o contenuti simili.

Pre­sta­zio­ni e sca­la­bi­li­tà

I sistemi di database vet­to­ria­li uti­liz­za­no spesso una serie di tecniche per ac­ce­le­ra­re in modo ef­fi­cien­te la velocità delle query e l’ela­bo­ra­zio­ne dei dati. Oltre all’ela­bo­ra­zio­ne ef­fi­cien­te di dati vet­to­ria­li ad alta di­men­sio­ne, i database vet­to­ria­li sono spesso pro­get­ta­ti in modo tale da con­sen­ti­re l’ese­cu­zio­ne di molte ope­ra­zio­ni in parallelo. La rap­pre­sen­ta­zio­ne di dati complessi come vettori permette anche di gestire in modo ef­fi­cien­te strutture di dati molto ar­ti­co­la­te. Nell’insieme, queste tecniche con­tri­bui­sco­no al fatto che i database vet­to­ria­li possono contenere ed elaborare grandi quantità di dati senza una si­gni­fi­ca­ti­va perdita di pre­sta­zio­ni.

In­te­gra­zio­ne di modelli di ap­pren­di­men­to au­to­ma­ti­co

Poiché le reti neurali uti­liz­za­no spesso vettori come input e output, molti modelli di IA possono essere integrati fa­cil­men­te nei database vet­to­ria­li. Ciò consente di me­mo­riz­za­re, gestire e in­ter­ro­ga­re di­ret­ta­men­te l’output e l’input del modello, sem­pli­fi­can­do e ac­ce­le­ran­do il processo di sviluppo e im­ple­men­ta­zio­ne delle ap­pli­ca­zio­ni di IA.

AI Model Hub
La tua piat­ta­for­ma IA mul­ti­mo­da­le e sicura
  • Con­for­mi­tà al GDPR e hosting sicuro in Europa
  • Potenti modelli basati sul­l'in­tel­li­gen­za ar­ti­fi­cia­le
  • Assenza di vendor lock-in grazie all'open source

Dove vengono uti­liz­za­ti i database vet­to­ria­li?

Un caso d’uso dei database vet­to­ria­li che oggi è molto rilevante è quello dell’ap­pren­di­men­to au­to­ma­ti­co e dell’IA ge­ne­ra­ti­va. Nell’ap­pren­di­men­to au­to­ma­ti­co, i database vet­to­ria­li vengono uti­liz­za­ti per eseguire ricerche di so­mi­glian­za, ne­ces­sa­rie per compiti quali clas­si­fi­ca­zio­ne, clu­ste­ring e sistemi di rac­co­man­da­zio­ne. I modelli possono essere ad­de­stra­ti per iden­ti­fi­ca­re ra­pi­da­men­te punti di dati simili e fare pre­vi­sio­ni o prendere decisioni in base ad essi. Ad esempio, un algoritmo di rac­co­man­da­zio­ne può basarsi su un database vet­to­ria­le per suggerire all’utente prodotti o contenuti simili alle sue pre­ce­den­ti pre­fe­ren­ze.

I software IA di IONOS
Scopri la potenza del­l'in­tel­li­gen­za ar­ti­fi­cia­le
  • Siti web in tempo record
  • Soluzioni IA per il tuo business
  • Risparmio di tempo e risultati ec­cel­len­ti

Inoltre, i database vet­to­ria­li possono essere uti­liz­za­ti per ac­ce­le­ra­re la for­ma­zio­ne di nuove reti neurali e per­met­to­no di gestire e con­sul­ta­re in modo ef­fi­cien­te dati di ad­de­stra­men­to di di­men­sio­ni molto grandi, mi­glio­ran­do in modo si­gni­fi­ca­ti­vo sia l’ac­cu­ra­tez­za che il tempo di ad­de­stra­men­to del modello.

Un’ap­pli­ca­zio­ne specifica che beneficia di questa ot­ti­miz­za­zio­ne è rap­pre­sen­ta­ta dai modelli di in­tel­li­gen­za ar­ti­fi­cia­le ge­ne­ra­ti­va come GPT di OpenAI, che uti­liz­za­no database vet­to­ria­li per ri­co­no­sce­re modelli complessi nei dati e creare nuovi contenuti. L’ef­fi­cien­za dei database vet­to­ria­li è fon­da­men­ta­le per le pre­sta­zio­ni di questi sistemi.

Consiglio

Uno svan­tag­gio si­gni­fi­ca­ti­vo dei modelli lin­gui­sti­ci di grandi di­men­sio­ni (LLM: Large Language Models), come GPT, sono gli alti costi di for­ma­zio­ne e i lunghi tempi di ap­pren­di­men­to. A causa di questi due fattori, non è possibile ag­gior­na­re gli LLM con i dati più recenti con suf­fi­cien­te re­go­la­ri­tà. Un metodo per aggirare questo punto debole è la Retrieval Augmented Ge­ne­ra­tion (RAG). Per saperne di più, consulta il nostro articolo al riguardo.

Vai al menu prin­ci­pa­le