Workshop #01 : Donner de la voix à notre NLU

Chez Golem.ai, nous proposons une solution d’IA analytique avec InboxCare, mais nous sommes également une entreprise constituée d’experts et de passionnés du monde de l’IA. Dès lors, notre équipe Tech s’exerce lors d’ateliers de manière ludique sur de nouvelles utilisations de notre NLU, que nous partageons dans cet article. Cet atelier s’adresse en particulier dans les domaines du Speech-to-Text (STT) et du Text-to-Speech (TTS). Ces technologies, qui permettent respectivement de convertir la voix en texte et inversement, sont déjà omniprésentes dans notre quotidien (Google Assistant, Siri, Alexa…), mais connectées à un NLU, les cas d’usages se multiplient.. Ainsi, découvrez dans cet article quatre projets innovants mutualisant STT, TTS, SVI et NLU.

1. ChatGPT et Dungeons & Dragons : Une expérience immersive avec le STT/TTS

Par Emmanuel et Justin

L’utilisation combinée de STT et TTS a permis une expérience de jeu de rôle enrichie pour les amateurs de Dungeons & Dragons. Dans un atelier, précédant, une application permettant de jouer à Dungeons & Dragons avec plusieurs LLMs avait été développée.En transformant les interactions textuelles avec ChatGPT en dialogues vocaux, l’expérience devient plus immersive et accessible. Les joueurs peuvent interagir directement avec l’IA par la voix, n’ont plus besoin de lire de grande quantité de texte, le texte étant lu avec une bonne intonation, et peuvent même influencer subtilement ses décisions, ce qui enrichit le gameplay. 

Conclusion : L’intégration de STT/TTS dans les jeux de rôle offre une expérience plus fluide et engageante (personnalisation des demandes faites à l’IA, modification du contexte et des caractères…), bien que diriger cette IA reste un défi en raison de la nature des LLMs.

2. Pilotage vocal d’un drone : STT et NLU en action

Par Anne-Sophie et Amandine

Ce projet permet de contrôler un drone via des commandes vocales. Le STT traduit la parole en commandes textuelles, et le Natural Language Understanding (NLU) interprète ces commandes pour piloter le drone. Bien que le système fonctionne, le STT pouvait échouer à transcrire correctement les commandes, celles-ci étant des phrases courtes, avec peu de contexte pour se corriger. 

Conclusion : L’utilisation du STT et du NLU dans la commande vocale est prometteuse, mais nécessite une spécialisation, que ce soit sur le vocabulaire ou bien la voix de la personne, pour gérer le manque de contexte. 

3. Serveur vocal interactif (SVI) amélioré grâce au STT et au NLU

Par William et Willem

Traditionnellement, les SVI sont limités à des commandes clavier. En remplaçant cela par le STT couplé à un NLU pour comprendre l’intention de l’utilisateur, l’expérience devient plus intuitive. Toutefois, la configuration du NLU demande plus d’investissement au préalable , ce qui nous empêcha de produire une configuration couvrant l’ensemble de ce que nous voulions.. 

Conclusion : La modernisation des SVI via le STT et le NLU est un pas vers une interaction plus naturelle, mais requiert une configuration NLU minutieuse.

Aparté : Les deux projets précédents utilisent tous les deux du STT pour récupérer du texte auprès de l’utilisateur, et ensuite notre NLU pour analyser le texte. Mais ils sont bien différents : la commande vocale demande une spécialisation du STT (sur la voix, sur les actions) pour pouvoir gérer efficacement des commandes courtes, mais il est très facile d’analyser la commande parce que le domaine des actions possibles est bien défini. À l’inverse, le SVI profite bien du STT, mais demande plus de temps de  configuration du NLU pour couvrir un large domaine. Cet équilibre doit être pris en compte pour conserver une pertinence dans ce genre d’outils.

4. L’assistant virtuel « Y » : Une interface ChatGPT personnalisée

Par Vincent, Arthur et Kevin

Ce projet innovant combine STT, ChatGPT, et TTS pour créer un assistant virtuel basé sur la voix d’une personne réelle, qu’on appellera “Y” en utilisant seulement 5 minutes d’enregistrements vocaux pour l’entraînement, la voix générée est déjà reconnaissable, bien que perfectible. Plus encore, de la synthèse vidéo a été faite pour animer la bouche de Dark Y pour donner un effet encore plus réaliste.

Conclusion : La personnalisation des assistants vocaux avec des voix réelles est non seulement faisable, mais aussi rapide à mettre en œuvre, ouvrant la voie à des interfaces utilisateur plus personnalisées et engageantes. Ce qui explique hélas, la montée en flèche de nombreux fakes reportages télévisés.

Conclusion générale

La majorité de ces projets ont été réalisés en une après-midi, simplement en connectant les APIs des différents outils entre eux. Les LLMs ont donné des résultats intéressants et utilisables très rapidement, le STT et le TTS nous ont ouvert de nouvelles possibilités en termes d’expériences utilisateurs, nouvelles possibilités déjà ouvertes par les assistants vocaux tels que Siri, OK Google, Alexa ou bien Cortana.

Mais dans notre cas, ces résultats doivent encore être affûtés pour être utilisables à une grande échelle, l’apparente facilité à mettre en place pouvant être trompeuse. À cela vient s’ajouter également la problématique du coût élevé de chaque utilisation de STT ou de TTS. Notre NLU est ici une solution intéressante pour amortir ce coût : étant une IA frugale et donc abordable à grande échelle, et produisant une sortie structurée et précise, connecter ce NLU à la sortie d’un STT permet d’avoir une compréhension précise et efficace de l’intention contenue dans la demande d’un utilisateur.