Enseignement/Apprentissage de la Prononciation du Français

18 octobre 2023

C'est le progrès (?)

Pendant mes recherches de doctorat, il y a... plus de 25 ans (1993-1998), je me suis intéressé à un domaine émergent à l'époque : la correction automatique de l'accent. Autrement dit, l'ordinateur peut-il aider à corriger un accent en langue étrangère? Ces travaux faisaient appel à la phonétique bien sûr, mais surtout au traitement du signal et éventuellement à la reconnaissance de la parole et à la synthèse vocale (deux autres domaines alors également relativement émergents). A ce titre, la naissance de WinPitch (1996) de Philippe MARTIN était remarquable : présentée comme un "logiciel multimédia d'enseignement de la prosodie", l'application offrait une représentation visuelle du rythme et de l'intonation et proposait une synthèse correctrice à partir de la voix de l'utilisateur.

[MARTIN, Philippe (2005), WinPitch LTL, un logiciel multimédia d'enseignement de la prosodie, ALSIC, vol.8, n°2]

On était alors encore fort loin de la reconnaissance multilocuteurs des Siri (2011), Alexa (2014) et autres dictées vocales, capables de reconnaître la parole même dans des environnements bruités divers.

Des modèles articulatoires voyaient le jour, en particulier à l'Institut de la Communication Parlée (ICP) de Grenoble, qui faisaient bouger des lèvres 3D de synthèse en fonction du son émis. Je me rappelle, peu de temps après, avoir été très admiratif en voyant Shrek (2001), film américain d'animation en images de synthèse, avec des visages articulant précisément leurs dialogues.

Les systèmes de traduction automatique encore limités, progressaient en intégrant les connaissances mises à jour des domaines de la linguistique, tels que la sémantique, la morpho-syntaxe, l'énonciation, etc.

Le grand public a découvert l'Intelligence Artificielle quand Deep Blue (IBM) a vaincu aux échecs Kasparov (1996-1997), confirmé par la victoire de Watson (IBM, toujours) à Jeopardy (2011). On parle alors d'IA "classique", c'est-à-dire se concentrant sur l'exécution d'une tâche spécifique en apprenant à partir d'une grande quantité de données (= automatisation des tâches).

Mais sont apparues plus récemment des IA "génératives" capables de créer des productions originales (texte, image, musique) et permettant d'obtenir plusieurs réponses à une même demande (contrairement à l'IA classique). Certains parlent d'IA "de flemme" à propos des IA génératives, car elles créent ce que les humains savent déjà faire. Alors que l'IA classique réalise des calculs difficilement faits par l'homme.

En novembre 2022, OpenAI proposait ChatGPT pour la rédaction de textes, en suscitant de nombreuses réactions.

En même temps, était lancée l'application LENSA qui transforme des portraits photographiques en avatars d'illustration "artistique".

Toujours en 2022, Midjourney se montrait capable de générer des images à partir de descriptions textuelles (en gagant des concours), et SUNO, de générer des chansons à partir de textes.

[L' émission d' Arte, Le dessous des images, consacre quelques numéros à des applications de l'IA citées ci-dessus : vous y accéderez ICI]

Et voilà qu'il y a quelques semaines, les médias ont présenté HeyGen, un système qui traduit une vidéo d'un locuteur dans une autre langue, avec la voix du locuteur, en modifiant le mouvement de ses lèvres en fonction de la langue, et ce quelles que soient les conditions de l'image... Autrement dit, un système de traduction + synthèse vocale ET articulatoire à partir de données vidéo réelles. Une dizaine de langues sont disponibles... En proposant un essai gratuit, la plateforme est prise d'assaut.

Voici des exemples glanés sur le net :

Vu que tout le monde s’y met, je teste aussi l’app de traduction assitée par IA de @HeyGen_Official. Bluffant. pic.twitter.com/TQhyE11UDL
— Tristan Mendès France (@tristanmf) September 12, 2023

Comme toutes les avancées très spectaculaires dues à l'IA, de nombreuses questions émergent. C'est l'industrie du doublage qui a été la première à réagir. Mais cela interpelle finalement tous les locuteurs de langues étrangères, non?

Considérerons-nous bientôt que l'apprentissage des langues est vain, puisque la machine le fait si bien pour nous et comme nous ? Serons-nous au contraire stimulés par le fait de nous entendre et nous voir comme des locteurs natifs d'une autre langue ? Il y a déjà des domaines où la machine a influencé la pratique humaine : la voix chantée inspirée par AutoTune, ou SpedUp, la peinture inspirée par le traitement de l'image, la danse inspirée par le traitement vidéo, etc.

Et vous, quels sont vos commentaires face à cette spectaculaire performance de l'IA qui NOUS fait parler ?

Posté par fonetiks à 09:47 - Commentaires […] - Permalien [#]

Partager cet article

Vous aimez ?

0 vote