Il progetto presentato si compone di due programmi indipendenti ed interagenti fra di loro: l'HLSyn, un sintetizzatore in sintesi articolatoria e CRIiSTAL, un trascrittore fonetico per l'italiano standard, anche se in realtà vedremo che è utilizzabile anche per altre lingue.

Il sintetizzatore HLSyn

Il tratto vocale e tutti gli organi responsabili della fonazione nel corpo umano possono essere modellati con una serie di parametri che chiameremo di alto livello (HighLevel parameters), strettamente connessi con i valori delle formanti, le larghezze di banda e tutte le variabili che contribuiscono alla generazione del segnale vocale: queste caratteristiche sono utilizzate nella sintesi per formanti nel KLSyn88. L'HLSyn basa la sua elaborazioine su questo sintetizzatore, rappresentandone però un'evoluzione. All'interno dell'HLSyn vi sono 13 parametri di alto livello, variabili nel tempo, e 24 impostabili dall'utente ma costanti per tutto il processo di generazione che, tramite delle relazioni matematiche, sono trasformati nei parametri del KLSyn, che provvederà a realizzare la sintesi del segnale. I parametri utilizzati dall'HLSyn sono influenzati dallo stato degli organi fonatori e dai loro movimenti: il loro elenco è nella tabella riportata di seguito.

Parametro
Descrizione
f1, f2, f3, f4
Prime quattro frequenze naturali del tratto vocale. Queste sono le frequenze naturali quando la faringe è chiusa, non c'è accoppiamento acustico con la trachea e non ci sono occlusioni, anche parziali, davanti al tratto vocale formate dalla lingua o dalle labbra..
f0
Frequenza fondamentale di vibrazione delle corde vocali. E' data un decimi di Hz.
al
Area dell'apertura della glottide. Il range di variazione normale è tra 0 e 40 mm2. Il valore medio per suoni sonori è di circa 3 - 5 mm2.
ag
Area trasversale della costrizione formata dalle labbra durante la produzione delle consonanti. Il range di variazione è tra 0 e 100 mm2. Il valore 100 mm2 corrisponde alla configurazione senza costrizione.
ab
Area trasversale della costrizione formata dalla lingua durante la produzione delle consonanti. Il range di variazione è tra 0 e 100 mm2. Il valore 100 mm2 corrisponde alla configurazione senza costrizione
an
Area trasversale della costrizione del velo faringeo. Il range di variazione è tra 0 e 100 mm2.
ue
Rapidità di aumento del volume del tratto vocale durante l'intervallo di occlusione di una consonante occlusiva sonora. Un valore positivo di ue corrisponde ad una espansione della cavità dietro al punto di occlusione, un valore negativo ad una contrazione. L'integrale di ue calcolato sull'intervallo di costrizione è l'aumento o la diminuzione totale del volume.
ps
Pressione subglottale. Permette di aumentare o diminuire l'intensità del segnale prodotto. L'unità di misura è in cm di H2O.
dc
Variazione percentuale dell'elasticità delle pareti dell'apparato fonatorio durante la pronuncia.
ap
Area dell'interstizio glottale posteriore che persiste attraverso un ciclo glottale. L'unità di misura è mm2.

La creazione di un suono con l'HLSyn è fatta riportando in una tabella tipo foglio di calcolo, i valori dei parametri assunti negli istanti di tempo opportunamente selezionati. Riportiamo di seguito un esempio. I valori più scuri rappresentano dati inseriti dall'utente, quelli in grigio più chiaro sono ottenuti per interpolazione lineare.

Come si può creare un sistema automatico text-to-speech con HLSyn?

Utilizzando il programma CRIiSTAL.

CHE COS'E' CRIiSTAL?