Il
progetto presentato si compone di due programmi indipendenti ed interagenti
fra di loro: l'HLSyn, un sintetizzatore in sintesi articolatoria e CRIiSTAL,
un trascrittore fonetico per l'italiano standard, anche se in realtà
vedremo che è utilizzabile anche per altre lingue.
Il
sintetizzatore HLSyn
Il
tratto vocale e tutti gli organi responsabili della fonazione nel corpo
umano possono essere modellati con una serie di parametri che chiameremo
di alto livello (HighLevel
parameters), strettamente connessi con i valori delle formanti, le larghezze
di banda e tutte le variabili che contribuiscono alla generazione del
segnale vocale: queste caratteristiche sono utilizzate nella sintesi per
formanti nel KLSyn88. L'HLSyn basa la sua elaborazioine su questo sintetizzatore,
rappresentandone però un'evoluzione. All'interno dell'HLSyn vi
sono 13 parametri di alto livello, variabili nel tempo, e 24 impostabili
dall'utente ma costanti per tutto il processo di generazione che, tramite
delle relazioni matematiche, sono trasformati nei parametri del KLSyn,
che provvederà a realizzare la sintesi del segnale. I parametri
utilizzati dall'HLSyn sono influenzati dallo stato degli organi fonatori
e dai loro movimenti: il loro elenco è nella tabella riportata
di seguito.
Parametro
|
Descrizione
|
f1,
f2, f3, f4
|
Prime
quattro frequenze naturali del tratto vocale. Queste sono le frequenze
naturali quando la faringe è chiusa, non c'è accoppiamento
acustico con la trachea e non ci sono occlusioni, anche parziali,
davanti al tratto vocale formate dalla lingua o dalle labbra..
|
f0
|
Frequenza
fondamentale di vibrazione delle corde vocali. E' data un decimi
di Hz.
|
al
|
Area
dell'apertura della glottide. Il range di variazione normale è
tra 0 e 40 mm2. Il valore medio per suoni sonori è di circa
3 - 5 mm2.
|
ag
|
Area
trasversale della costrizione formata dalle labbra durante la produzione
delle consonanti. Il range di variazione è tra 0 e 100 mm2.
Il valore 100 mm2 corrisponde alla configurazione senza costrizione.
|
ab
|
Area
trasversale della costrizione formata dalla lingua durante la produzione
delle consonanti. Il range di variazione è tra 0 e 100 mm2.
Il valore 100 mm2 corrisponde alla configurazione senza costrizione
|
an
|
Area
trasversale della costrizione del velo faringeo. Il range di variazione
è tra 0 e 100 mm2.
|
ue
|
Rapidità
di aumento del volume del tratto vocale durante l'intervallo di
occlusione di una consonante occlusiva sonora. Un valore positivo
di ue corrisponde ad una espansione della cavità dietro al
punto di occlusione, un valore negativo ad una contrazione. L'integrale
di ue calcolato sull'intervallo di costrizione è l'aumento
o la diminuzione totale del volume.
|
ps
|
Pressione
subglottale. Permette di aumentare o diminuire l'intensità
del segnale prodotto. L'unità di misura è in cm di
H2O.
|
dc
|
Variazione
percentuale dell'elasticità delle pareti dell'apparato fonatorio
durante la pronuncia.
|
ap
|
Area
dell'interstizio glottale posteriore che persiste attraverso un
ciclo glottale. L'unità di misura è mm2.
|
La
creazione di un suono con l'HLSyn è fatta riportando in una tabella
tipo foglio di calcolo, i valori dei parametri assunti negli istanti di
tempo opportunamente selezionati. Riportiamo di seguito un esempio. I
valori più scuri rappresentano dati inseriti dall'utente, quelli
in grigio più chiaro sono ottenuti per interpolazione lineare.

Come
si può creare un sistema automatico text-to-speech con HLSyn?
Utilizzando
il programma CRIiSTAL.
CHE
COS'E' CRIiSTAL?
|