Google Gemini 3.1 Flash Live : Les conversations vocales n’ont jamais été aussi naturelles.
 Par Nic007
GoogleLes interactions vocales avec l'intelligence artificielle évoluent rapidement : il ne s'agit plus seulement de dicter un message, mais de véritables conversations continues, avec des questions, des interruptions et des remises en question. Dans ce contexte, Google présente Gemini 3.1 Flash Live , un nouveau modèle audio conçu pour rendre le dialogue avec l'IA plus fluide , plus rapide et plus fiable , aussi bien pour ceux qui développent des services que pour ceux qui utilisent des outils du quotidien. Le modèle Gemini 3.1 Flash Live devient le nouveau moteur vocal de plusieurs produits Google . Les développeurs peuvent le prévisualiser à l'aide de l' API Gemini Live dans Google AI Studio. Les entreprises trouveront cette fonctionnalité intégrée à Gemini Enterprise for Customer Experience , une solution conçue pour créer des assistants vocaux et des systèmes de support client. Pour le grand public, elle sera disponible dans Gemini Live et Search Live , des expériences conversationnelles accessibles via le web et les applications. L'objectif affiché est d'offrir une plateforme technologique unique pour les agents vocaux , la recherche en temps réel et les outils de productivité , comblant ainsi le fossé entre l'usage personnel et les scénarios professionnels.

Google mise beaucoup sur le raisonnement et l'exécution de tâches complexes par la voix. Sur ComplexFuncBench Audio , un test de performance qui mesure la gestion des appels de fonctions en plusieurs étapes sous diverses contraintes, Gemini 3.1 Flash Live atteint un score de 90,8 % , surpassant ainsi son prédécesseur. Sur le Scale AI Audio MultiChallenge , qui teste la compréhension d' instructions complexes et le raisonnement à long terme en présence d' interruptions et d'hésitations typiques des conversations du monde réel, le modèle obtient un score de 36,1 % avec le mode « réflexion » actif. Selon Google, Gemini 3.1 Flash Live améliore également la compréhension du ton de la voix : dans Gemini Enterprise for Customer Experience, il reconnaît mieux des éléments comme l'intonation , la vitesse et les variations acoustiques que 2.5 Flash Native Audio . Cela permet d'adapter plus précisément les réponses à la frustration , à la confusion ou à d'autres nuances émotionnelles exprimées par l'utilisateur, un aspect crucial pour les centres d'appels et le service client .

Ce modèle est conçu pour fonctionner dans des environnements bruyants , tout en conservant la capacité de suivre des instructions complexes même lorsque le son n'est pas parfait. Google cite des retours positifs d'entreprises comme Verizon , LiveKit et The Home Depot , qui l'ont testé dans leurs propres flux de travail et soulignent la conversation plus naturelle . Une autre utilisation mise en avant concerne le développement logiciel : Gemini 3.1 Flash Live vous permet d' écrire et de modifier du code en parlant, avec des itérations rapides, en utilisant le modèle vocal comme interface avec des modèles de texte plus avancés. Pour les utilisateurs réguliers, le changement le plus notable concerne Gemini Live et Search Live . Grâce à Gemini 3.1 Flash Live, Gemini Live offre des réponses plus rapides que la version précédente et permet de maintenir des conversations deux fois plus longtemps . Ceci est particulièrement utile lors de longues séances , comme le brainstorming ou la planification détaillée, où il devient important de ne pas perdre de vue les références aux messages précédents. Le modèle est également multilingue par défaut , une fonctionnalité qui permet l' expansion mondiale de Search Live .

Google affirme qu'il est disponible dans plus de 200 pays et territoires , avec des conversations multimodales en temps réel (non seulement vocales, mais aussi textuelles et visuelles) dans la langue préférée de l'utilisateur . Parmi les cas d'utilisation mentionnés figure l'assistance immédiate à la résolution de problèmes : par exemple, décrire un dysfonctionnement et recevoir des instructions étape par étape en temps réel par la voix, directement depuis Search Live. Tous les fichiers audio produits par Gemini 3.1 Flash Live sont marqués avec SynthID , une technologie de marquage invisible intégrée directement au signal audio. Cette signature numérique permet de détecter avec fiabilité les contenus générés par l'IA, afin de lutter contre la désinformation et de clarifier l'origine des contenus oraux. Google renvoie à une fiche modèle dédiée pour plus de détails sur son approche en matière de sécurité et de responsabilité .
 Lire la suite
 Dernières actualités
 Archives
Informaticien.be - © 2002-2026 Akretio SRL  - Generated via Kelare Haut de page