Gli screen reader, chiamati anche lettori di schermo, leggono gli elementi testuali, traducono quindi le informazioni in un testo vocale o in linee braille.
I toni per la riproduzione audio sintetica vengono prodotti per mezzo di un sintetizzatore, come ad esempio Elo o eSpeak. Queste applicazioni utilizzano vocabolari integrati all’interno dei quali è fornita anche la pronuncia della maggior parte delle parole. Tuttavia solo raramente la voce in uscita suona naturale. Inoltre capita spesso che le parole scritte nel testo vengano pronunciate in maniera diversa in base al loro significato o alla loro posizione sintattica. Ad esempio il sintetizzatore non è in grado di differenziare tra lettere maiuscole e minuscole, così come, a volte, non è in grado di riconoscere il significato di una parola, finendo per pronunciare allo stesso modo parole con accenti diversi, creando inevitabilmente confusione.
Altri problemi derivano dalla non sempre ortodossa intonazione delle domande. La modulazione della voce non è infatti sempre perfetta, rischiando così di alterare il significato della frase. Un semplice segno di interpunzione infatti cambia completamente il senso di una frase all’interno di un intero testo, e se la riproduzione vocale non è corretta, il rischio è quello che l’utente recepisca quella che era una domanda come un’affermazione.
Le caratteristiche qualitativamente significative della sintesi vocale sono soprattutto le seguenti:
- Intonazione: il sintetizzatore non dovrebbe pronunciare bene solamente le singole parole, dovrebbe bensì considerare la posizione all’interno dell’intera frase.
- Riproduzione sillabale: l’impostazione della riproduzione lineare e fluente delle sillabe è fondamentale per ripetere parole che siano comprensibili.
- Melodia della frase: se la modulazione della voce è importante ai fini della giusta trasmissione del senso della frase (definita nella lingua scritta dall’interpunzione), il sintetizzatore deve essere in grado di riprodurla correttamente.
- Ritmo della riproduzione vocale: il sintetizzatore dovrebbe tentare di riprodurre correttamente il ritmo naturale della frase così che all’utente non risulti innaturale l’ascolto.
- Velocità di lettura: anche il tempo della lettura è importante per l’utente. Idealmente deve essere impostabile dall’utente.
- Pause: gli elementi di formattazione come capoversi e gli accapo dovrebbero essere resi chiari grazie alle interruzioni così che l’inizio di un capoverso con nuovi contenuti sia di più facile comprensione.
La ricerca legata alla linguistica computazionale ha fatto dei significativi passi in avanti negli ultimi anni. Google Tacotron 2 System ha raggiunto standard comparabili a quelli della lingua parlata. Lo stimolo dietro ai nuovi sviluppi è l’apprendimento autonomo dei sintetizzatori moderni. Detto in parole povere: il programma impara la lingua come un bambino e costruisce pian piano il proprio vocabolario e le proprie capacità attingendo a documenti audio reali. A essere particolarmente incredibile è che Tacotron 2, oltre a cavarsela egregiamente con l’interpunzione e l’intonazione delle frasi (ad esempio per quel che riguarda il Caps Lock), è particolarmente resistente agli errori di scrittura.
Tuttavia alla sintesi vocale manca ancora l’emozionalità. Anche le parole straniere creano ancora qualche difficoltà a Tacotron 2. Rimane ancora da vedere quanto questo sintetizzatore e altri prodotti concorrenti di simile livello verranno messi a disposizione di un pubblico più vasto. Ulteriori dubbi riguardano le loro possibilità di utilizzo con la lingua italiana. Nel frattempo gli screen reader continuano a utilizzare i sintetizzatori vocali comuni, con le loro riproduzioni ancora troppo macchinose.