
đ€ Interview â LâIA qui parle (et Ă©coute) en temps rĂ©el (Patrick PĂ©rez, Kyutai)
Monde Numérique (Actu Tech)
Composition et mission du laboratoire Kyutai
Patrick explique la taille de l'équipe, le recrutement, la formation et l'objectif de recherche ouverte du laboratoire.
Le patron du laboratoire français Kyutai détaille les avancées spectaculaires de ses IA vocales open source : interaction fluide, traduction en temps réel et synthÚse vocale à la volée.
Interview : Patrick Pérez, directeur général de Kyutai
Un laboratoire Ă but non lucratif pour une IA ouverte
Kyutai est un centre de recherche sur lâintelligence artificielle Ă but non lucratif, fondĂ© en 2023 grĂące au mĂ©cĂ©nat de Xavier Niel, Rodolphe SaadĂ© et Eric Schmidt, ancien CEO de Google.
Lâobjectif : faire progresser la recherche fondamentale sur les grands modĂšles dâIA et partager les rĂ©sultats en open source, du code aux modĂšles, pour stimuler lâĂ©cosystĂšme scientifique mondial.
Patrick Pérez, son directeur, le souligne : « nous ne faisons pas de produit, mais de la science ».
Moshi : la premiĂšre IA vocale vraiment naturelle
Le premier projet emblématique de Kyutai, Moshi, est une IA conversationnelle sans tour de parole imposé. Elle comprend et répond en temps réel, peut couper la parole à bon escient et saisit les nuances émotionnelles de la voix.
Une innovation majeure : Moshi ne passe pas par une transcription textuelle, prĂ©servant ainsi le timbre, lâĂ©motion et les intonations. Open-sourcĂ© en 2024, le modĂšle a dĂ©jĂ Ă©tĂ© tĂ©lĂ©chargĂ© plusieurs millions de fois et inspire de nouveaux projets comme SĂ©same, qui rĂ©utilise certaines de ses briques.
Ibiki : la traduction simultanée façon interprÚte
DĂ©voilĂ© au Sommet mondial de lâIA au Grand Palais en 2025, Ibiki traduit une conversation en simultanĂ©, tout en prĂ©servant la voix originale de lâorateur.
Ce modÚle, capable de fonctionner sur un smartphone, représente une avancée majeure face aux systÚmes propriétaires comme Meta AI ou OpenAI.
Encore au stade de prototype, Ibiki dĂ©montre la maturitĂ© de la recherche française en matiĂšre dâIA vocale temps rĂ©el et de traduction instantanĂ©e expressive.
Unmute : la synthÚse vocale à la volée
Avec Unmute, Kyutai repousse encore les limites : la synthĂšse vocale sâeffectue en mĂȘme temps que le texte est gĂ©nĂ©rĂ© par un modĂšle de langage (LLM).
Ce procĂ©dĂ© permet une rĂ©ponse instantanĂ©e et naturelle, sans latence perceptible. Ces avancĂ©es ouvrent la voie Ă de nouvelles expĂ©riences immersives â assistants vocaux, mĂ©dias parlants ou interfaces interactives.
Câest aussi lâun des chantiers clĂ©s de lâIA « multimodale », qui marie texte, son et vision dans un mĂȘme flux de communication.
Le futur : multimodalité et accessibilité
Kyutai poursuit ses recherches sur la multimodalitĂ©, visant Ă crĂ©er des IA capables dâinterprĂ©ter voix, texte, images et vidĂ©os en temps rĂ©el.
Certaines de ces briques sont déjà utilisées par le média La Provence pour convertir ses articles en audio expressif.
Une application concrĂšte de la mission de Kyutai : rendre la recherche ouverte, utile et inclusive, tout en dĂ©montrant que lâinnovation europĂ©enne peut rivaliser avec les gĂ©ants amĂ©ricains.
-----------
â„ïž Soutenez Monde NumĂ©rique
https://donorbox.org/monde-numerique
đïž Abonnez-vous Ă la Newsletter
https://mondenumerique.substack.com
đč Suivez la ChaĂźne YouTube
https://www.youtube.com/@mondenumerique
Hébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.


