Il ri­co­no­sci­men­to vocale au­to­ma­ti­co è un processo di con­ver­sio­ne au­to­ma­ti­ca del parlato in testo. Le tec­no­lo­gie ASR uti­liz­za­no metodi di ap­pren­di­men­to au­to­ma­ti­co per ana­liz­za­re ed elaborare i modelli vocali e ri­pro­dur­li sotto forma di testo. Il ri­co­no­sci­men­to au­to­ma­ti­co del parlato si presta a un’ampia gamma di ap­pli­ca­zio­ni, dagli as­si­sten­ti lin­gui­sti­ci virtuali alla ge­ne­ra­zio­ne di sot­to­ti­to­li per i video fino alla tra­scri­zio­ne di riunioni im­por­tan­ti.

Che cos’è il ri­co­no­sci­men­to vocale au­to­ma­ti­co?

Il ri­co­no­sci­men­to vocale au­to­ma­ti­co, in inglese “automatic speech re­co­gni­tion” (ASR), è un ramo dell’in­for­ma­ti­ca e della lin­gui­sti­ca com­pu­ta­zio­na­le che si occupa di svi­lup­pa­re metodi per tradurre au­to­ma­ti­ca­men­te il lin­guag­gio parlato in una forma leggibile dalle macchine. Quando la con­ver­sio­ne avviene in formato testuale, si parla anche di speech to text (STT). I processi ASR si basano su modelli sta­ti­sti­ci e algoritmi complessi.

N.B.

La pre­ci­sio­ne di un sistema ASR viene misurata dal co­sid­det­to tasso di errore delle parole (WER: “word error rate”), che mette in rapporto gli errori (cioè il numero di parole omesse, aggiunte o ri­co­no­sciu­te er­ro­nea­men­te) con il numero totale delle parole pro­nun­cia­te. Più basso è questo valore, maggiore è la pre­ci­sio­ne del ri­co­no­sci­men­to vocale au­to­ma­ti­co. Ad esempio, un tasso di errore del 10% cor­ri­spon­de a una pre­ci­sio­ne del 90%.

Come funziona il ri­co­no­sci­men­to vocale au­to­ma­ti­co?

Il processo di ri­co­no­sci­men­to vocale au­to­ma­ti­co è composto da diversi passaggi con­se­cu­ti­vi che si integrano per­fet­ta­men­te tra di loro. Di seguito trovi una spie­ga­zio­ne det­ta­glia­ta delle varie fasi:

  1. Ac­qui­si­zio­ne vocale (automatic speech re­co­gni­tion): il sistema ac­qui­si­sce la voce parlata tramite un microfono o un’altra sorgente audio.
  2. Ela­bo­ra­zio­ne del lin­guag­gio (natural language pro­ces­sing (NPL)): in primo luogo, la re­gi­stra­zio­ne vocale viene ripulita dai rumori di fondo. Un algoritmo analizza poi le ca­rat­te­ri­sti­che fonetiche e fonemiche del parlato. Dopodiché, le ca­rat­te­ri­sti­che re­gi­stra­te vengono con­fron­ta­te con modelli pre­ce­den­te­men­te ad­de­stra­ti per iden­ti­fi­ca­re le singole parole.
  3. Ge­ne­ra­zio­ne del testo (speech to text): infine, il sistema trasforma i suoni ri­co­no­sciu­ti in forma testuale.
Immagine: Diagramma illustrativo del funzionamento del riconoscimento vocale automatico
Il diagramma illustra le tre fasi del ri­co­no­sci­men­to vocale au­to­ma­ti­co.

Algoritmi ASR: approccio ibrido e deep learning a confronto

Esistono fon­da­men­tal­men­te due approcci prin­ci­pa­li per il ri­co­no­sci­men­to vocale au­to­ma­ti­co. Mentre in passato venivano uti­liz­za­ti so­prat­tut­to approcci ibridi classici, come i modelli di Markov nascosti (HMM: hidden Markov models), oggi si ricorre sempre più spesso alle tec­no­lo­gie di deep learning. Questo è dovuto al fatto che ul­ti­ma­men­te la pre­ci­sio­ne dei modelli tra­di­zio­na­li ha smesso di mi­glio­ra­re.

Approccio ibrido classico

I modelli classici ri­chie­do­no dati allineati for­za­ta­men­te, il che significa che uti­liz­za­no la tra­scri­zio­ne testuale di un segmento vocale per de­ter­mi­na­re in che punto compaiono de­ter­mi­na­te parole. L’approccio ibrido tra­di­zio­na­le combina sempre un modello lessicale, un modello acustico e un modello lin­gui­sti­co per tra­scri­ve­re il parlato:

  • Il modello lessicale definisce la pronuncia fonetica delle parole. Richiede la creazione di un set di dati o un insieme di fonemi per ogni lingua.
  • Il modello acustico mira a modellare i pattern acustici del lin­guag­gio. Uti­liz­zan­do dati allineati for­za­ta­men­te, prevede quali suoni o fonemi sono associati ai diversi segmenti vocali.
  • Il modello lin­gui­sti­co apprende quali sequenze di parole sono più probabili in una lingua. Il suo compito è quello di prevedere quali parole se­gui­ran­no le parole correnti e con quale pro­ba­bi­li­tà.

Uno dei prin­ci­pa­li svantaggi dell’approccio ibrido è che uti­liz­zan­do questo metodo risulta difficile aumentare la pre­ci­sio­ne del ri­co­no­sci­men­to vocale. Inoltre, è ne­ces­sa­rio ad­de­stra­re tre modelli separati, il che si rivela molto di­spen­dio­so in termini di tempo e costi. Cio­no­no­stan­te, molte aziende scelgono ancora questa opzione, dato che esiste già un’ampia co­no­scen­za su come creare un modello af­fi­da­bi­le uti­liz­zan­do questo approccio classico.

Deep learning con processi end-to-end

I sistemi end-to-end hanno la capacità di tra­scri­ve­re di­ret­ta­men­te una sequenza di ca­rat­te­ri­sti­che vocali in ingresso. L’algoritmo apprende come con­ver­ti­re le parole parlate uti­liz­zan­do grandi quantità di coppie di dati, come ad esempio file audio con­te­nen­ti una frase specifica e la sua tra­scri­zio­ne corretta.

Le ar­chi­tet­tu­re di ap­pren­di­men­to profondo come CTC, LAS e RNNT possono essere ad­de­stra­te in modo da fornire risultati precisi anche senza l’uso di dati allineati for­za­ta­men­te, modelli lessicali e lin­gui­sti­ci. Tuttavia, molti sistemi di deep learning vengono comunque collegati a un modello lin­gui­sti­co, poiché questo può aiutare a mi­glio­ra­re ul­te­rior­men­te la pre­ci­sio­ne della tra­scri­zio­ne.

Consiglio

Nel nostro articolo di confronto tra deep learning e machine learning spie­ghia­mo nel dettaglio le dif­fe­ren­ze prin­ci­pa­li tra i due concetti.

L’approccio end-to-end per il ri­co­no­sci­men­to vocale au­to­ma­ti­co non solo consente di ottenere punti con una pre­ci­sio­ne maggiore rispetto ai modelli con­ven­zio­na­li. Un altro vantaggio è che i sistemi ASR sono più facili da ad­de­stra­re e ri­chie­do­no meno lavoro umano.

Ri­co­no­sci­men­to vocale au­to­ma­ti­co: quali sono i prin­ci­pa­li campi di ap­pli­ca­zio­ne?

Grazie so­prat­tut­to ai progressi nel campo dell’ap­pren­di­men­to au­to­ma­ti­co, il ri­co­no­sci­men­to vocale au­to­ma­ti­co può essere uti­liz­za­to in diversi settori per aumentare l’ef­fi­cien­za, mi­glio­ra­re la sod­di­sfa­zio­ne della clientela e/o in­cre­men­ta­re il ritorno sugli in­ve­sti­men­ti (ROI). Tra i prin­ci­pa­li campi di ap­pli­ca­zio­ne troviamo:

  • Te­le­co­mu­ni­ca­zio­ni: i contact center uti­liz­za­no le tec­no­lo­gie ASR per tra­scri­ve­re le con­ver­sa­zio­ni con la clientela e ana­liz­zar­le. Le tra­scri­zio­ni accurate risultano utili anche per il mo­ni­to­rag­gio delle chiamate e per le soluzioni te­le­fo­ni­che rea­liz­za­te con server cloud.
  • Piat­ta­for­me video: la creazione di sot­to­ti­to­li in tempo reale sulle piat­ta­for­me video è ormai uno standard del settore. Il ri­co­no­sci­men­to vocale au­to­ma­ti­co è inoltre utile per la ca­te­go­riz­za­zio­ne dei contenuti.
  • Mo­ni­to­rag­gio dei media: le API ASR con­sen­to­no di ana­liz­za­re tra­smis­sio­ni te­le­vi­si­ve, podcast, programmi ra­dio­fo­ni­ci e altri media per de­ter­mi­na­re quante volte vengono men­zio­na­ti de­ter­mi­na­ti marchi o temi.
  • Vi­deo­con­fe­ren­ze: le tra­scri­zio­ni accurate delle riunioni, fornite da soluzioni software come Zoom, Microsoft Teams e Google Meet, per­met­to­no di ef­fet­tua­re analisi più ap­pro­fon­di­te, ottenere in­tui­zio­ni chiave e adottare con­se­guen­te­men­te misure adatte. Il ri­co­no­sci­men­to vocale au­to­ma­ti­co può essere uti­liz­za­to anche per fornire sot­to­ti­to­li in tempo reale durante le vi­deo­con­fe­ren­ze.
  • As­si­sten­ti vocali: gli as­si­sten­ti virtuali come Amazon Alexa, As­si­sten­te Google e Siri di Apple si basano sul ri­co­no­sci­men­to vocale au­to­ma­ti­co. Questa tec­no­lo­gia consente agli as­si­sten­ti di ri­spon­de­re a domande, eseguire compiti e in­te­ra­gi­re con altri di­spo­si­ti­vi.

Qual è il ruolo dell’in­tel­li­gen­za ar­ti­fi­cia­le nelle tec­no­lo­gie ASR?

L’in­tel­li­gen­za ar­ti­fi­cia­le con­tri­bui­sce a mi­glio­ra­re la pre­ci­sio­ne e la fun­zio­na­li­tà generale dei sistemi ASR. In par­ti­co­la­re, lo sviluppo di modelli lin­gui­sti­ci di grandi di­men­sio­ni ha reso possibile una migliore ela­bo­ra­zio­ne del lin­guag­gio naturale. Un modello lin­gui­sti­co di grandi di­men­sio­ni (LLM) non è solo in grado di creare o tradurre testi complessi con grande per­ti­nen­za, ma riconosce anche il lin­guag­gio parlato. Pertanto, i sistemi ASR be­ne­fi­cia­no enor­me­men­te di questi sviluppi. Inoltre, l’in­tel­li­gen­za ar­ti­fi­cia­le è utile anche nello sviluppo di modelli lin­gui­sti­ci specifici per diversi accenti.

I software IA di IONOS
Scopri la potenza del­l'in­tel­li­gen­za ar­ti­fi­cia­le
  • Siti web in tempo record
  • Soluzioni IA per il tuo business
  • Risparmio di tempo e risultati ec­cel­len­ti

Quali sono i punti di forza e di debolezza del ri­co­no­sci­men­to vocale au­to­ma­ti­co?

Rispetto alla tra­scri­zio­ne tra­di­zio­na­le, il ri­co­no­sci­men­to vocale au­to­ma­ti­co offre diversi vantaggi. Una delle prin­ci­pa­li forze dei moderni sistemi ASR è la loro elevata pre­ci­sio­ne, dovuta al fatto che tali sistemi possono essere ad­de­stra­ti con grandi quantità di dati. Questo consente di mi­glio­ra­re la qualità dei sot­to­ti­to­li e delle tra­scri­zio­ni e di fornirli in tempo reale.

Un altro im­por­tan­te vantaggio è l’aumento dell’ef­fi­cien­za. Il ri­co­no­sci­men­to vocale au­to­ma­ti­co consente alle aziende di scalare, ampliare più ra­pi­da­men­te la propria gamma di servizi e offrirli a un pubblico più vasto. Gli strumenti di ri­co­no­sci­men­to vocale au­to­ma­ti­co fa­ci­li­ta­no a stu­den­tes­se, studenti, pro­fes­sio­ni­ste e pro­fes­sio­ni­sti la do­cu­men­ta­zio­ne dei contenuti audio, come ad esempio una riunione aziendale o una lezione uni­ver­si­ta­ria.

D’altro canto, uno svan­tag­gio è che, sebbene i sistemi ASR siano più precisi che mai, non sono ancora in grado di rag­giun­ge­re la pre­ci­sio­ne umana. Questo è dovuto prin­ci­pal­men­te alle numerose sfumature della lingua parlata. Le sfide prin­ci­pa­li sono rap­pre­sen­ta­te da accenti, dialetti, diverse in­to­na­zio­ni, oltre che da rumori di fondo. Anche i modelli di deep learning più avanzati non riescono a gestire tutti i casi par­ti­co­la­ri. Inoltre, un’ulteriore pro­ble­ma­ti­ca rilevante è che le tec­no­lo­gie ASR spesso elaborano dati personali, sol­le­van­do pre­oc­cu­pa­zio­ni sulla privacy e la sicurezza dei dati.

Vai al menu prin­ci­pa­le