Ma collègue Catherine m'a parlé la semaine dernière d'applications de synthèse vocale multilingue en ligne, en voulant en discuter l'intérêt phonétique. Alexandra, étudiante de master, m'envoie hier un lien vers une application du même type en me questionnant sur l'utilité d'un tel outil "d'un point de vue didactique". Au premier semestre, dans un cours de phonétique multilingue, les étudiants consultaient spontanément en classe des applications (le plus souvent de type dictionnaire) sur leur smartphone pour entendre la prononciation (de plus en plus souvent proposée) d'un mot mal maîtrisé dans leur langues étrangères.

 

    Reconnaissance vocale (de type dictée vocale : générer du texte à partir de la parole naturelle) et synthèse vocale (générer de la voix de synthèse à partir d'un texte écrit) sont deux domaines qui intéressent évidemment la phonétique. Ces sujets sont traités dans les formations de phonétique de haut niveau, avant de devenir des domaines de spécialité. En synthèse vocale par exemple, on distingue différents types : la synthèse par concaténation - on combine des sections de phrases pour composer un énoncé complet, comme les annonces en gare de la SNCF avec la célèbre voix de Simone (Hérault) : "Le train en provenance de / Marseille Saint Charles / et à destination de / Paris Gare de Lyon / va entrer en gare / voie A./ Eloignez-vous de la bordure du quai s'il vous plaît./" Il existe bien sûr des synthèses vocales plus élaborées, comme la synthèse par diphones (en gros des moitiés de syllabes naturelles mise bout à bout et "lissées"), et la synthèse par formants. Ces deux domaines - reconnaissance et synthèse - ont fait de réels progrès ces dernières années : là où il fallait des heures d'apprentissage aux systèmes pour reconnaitre la parole naturelle d'un seul utilisateur, on trouve aujourd'hui des applications simples sur les appareils numériques multi-utilisateurs, sans apprentissage, et qui sont très performants. De même, la synthèse vocale a fait tellement de progrès que certaines plateformes téléphoniques l'utiliseraient pour contacter des prospects ou des usagers... à l'insu de leurs correspondants.

 

Des utilisations pour l'entraînement?

    C'est surtout la reconnaissance vocale qui a suscité intérêts et espoirs en entraînement de la prononciation. De nombreux logiciels multimédias ont cherché à évaluer la perfomance phonétique de l'utilisateur (d'une performance de "touriste"* à une performance d'"indigène"* / natif)... mais sans analyse contrastive, et sans pouvoir donner de feed-back sur les écarts réalisés par rapport au modèle. Ces évaluations n'étaient jusqu'à présent pas très fiables : certains accents étrangers étaient évalués comme natifs ou presque, et certains natifs identifiés comme des "touristes". En effet, la comparaison opérée par ces applications établit des correspondances (matching) entre la parole de l'utilisateur et le modèle (ou parfois une moyenne de modèles), ce qui n'évalue en rien le caractère "natif" de la parole produite.

* : termes utilisés par certains produits multimédia d'évaluation de la prononciation

    Olivier utilise en classe de FLE l’application de dictée vocale de son smartphone pour montrer à ses étudiants l’importance de la prononciation dans l’interaction homme - machine. Après avoir travaillé avec son groupe d’étudiants débutants sur la prononciation des chiffres et des nombres, il se sert de l’application de dictée vocale comme outil d’évaluation de la prononciation. Il relève une forte motivation de ses étudiants pour cet exercice et des résultats enthousiasmants.

    D'autres logiciels ont voulu exploiter la synthèse vocale à partir de la parole de l'utilisateur pour lui donner à entendre ce qu'il devrait produire avec sa propre voix (WinPitch de Philippe Martin).

 

    Mais c'est finalement une utilisation bien plus simple et pratique de la synthèse vocale qui semble aujourd'hui se répandre. Comment ce mot se prononce-t-il? Plus besoin de faire appel à un locuteur natif... ou à la prononciation plus ou moins convaincante de mon enseignant non-natif... ou à la transcription en Alphabet Phonétique International d'un dictionnaire ! Pas besoin de chercher une occurrence de ce mot en parole naturelle sur Internet. Puisque la synthèse vocale me permet d'entendre juste ce dont j'ai besoin. Et même de varier la vitesse d'élocution (ce qui me semble une fonctionnalité très intéressante). Entendre CE QUE JE VEUX, AUTANT DE FOIS QUE JE LE VEUX, AVEC DIFFÉRENTES POSSIBILITÉS DE VITESSES D'ÉLOCUTION est à l'évidence un nouveau moyen d'accès simple et permanent à de la prononciation multilingue à partir des médias connectés. C'est aussi un moyen simple d'entendre la prononciation de noms propres suivant les règles orthoépiques (correspondances graphie-phonie) de la langue.

    C'est la synthèse à partir d'énoncés écrits qui peut éventuellement poser encore quelques problèmes, en particulier avec les mots homographes non-homophones, comme le couvent / elles couvent, le président / ils président - et beaucoup de finales en "ent" : content, affluent, évident, ferment, excellent, divergent, etc - les fils (de leur père) / les fils (du tissu), plus (négation) / plus (comparaison),  tous (déterminant) / tous (pronom), etc. On intègre toujours ces mots dans des phrases (ex : Les poules du couvent couvent) afin de tester les  limites de la syntaxe de ces applications de synthèse vocale à partir du texte.

    Le rythme et l'intonation, qui ont déjà fait en synthèse vocale énormément de progrès, resteront probablement les ultimes différences avec la parole naturelle audibles sur du texte long. Sous ces aspects, la synthèse vocale sera sans doute encore pour longtemps un piètre lecteur, ou un mauvais interprète, qui aura du mal à retenir l'attention d'un auditeur plus de quelques secondes sans devoir solliciter de sa part une concentration supplémentaire.

     Peut-on imaginer qu'un jour ce soit la parole naturelle qui soit influencée par la parole de synthèse? A l'instar de la voix chantée qui subira l'influence d'Auto-tunes? ou comme les mouvements de Dub Break Dance qui semblent bien inspirés de l'image vidéo. Bref, arrivera-t-il un moment où la technologie deviendra une source d'inspiration, et même un modèle pour nos activités spécifiquement humaines ?

 

   Pour finir et puisqu'il s'agit de synthèse à partir du texte, amusons-nous avec le français et l'anglais, dont les orthographes sont si peu phonétiques (c'est sans doute pour cela que l'Alphabet Phonétique International a été officialisé par la réunion d'enseignants de langue britanniques et français). J'ai choisi une transcription orthographique aménagée en anglais du début de la chanson française "Au clair de la lune" (prise dans GAGNIÈRE, Claude (1997), Pour tout l’or des mots, Robert Laffont), prononcée deux fois par une voix de synthèse nord-américaine ralentie au maximum - ce qui ne me semble pas si lent, puis sur la même orthographe aménagée par une voix de synthèse française aussi très lente (une fois). Puis, avec la même voix de synthèse américaine sur la transcription en orthographe française (une fois), enfin deux fois avec la même voix française sur l'orthographe française. Il me faut préciser que cette orthographe aménagée avait pour objectif la chanson, avec ses allongements en finale : Au - clair - de - la - lu- ne, ce qui ne se pratique pas en parole naturelle. L'ensemble a été réalisé avec la synthèse multilingue disponible sur naturalreaders.com.

 

    Cet exercice d'écoute permet déjà d'observer énormément de caractéristiques phonétiques fondamentales qui opposent les deux langues. Qu'observez-vous?