
Ici, nous remarquons que Google a introduit une autre nouveauté : Flash Thinking 2.0 Experimental avec des applications , un modèle capable d'interagir avec des applications comme YouTube, Search et Google Maps , tout comme Gemini pouvait le faire auparavant. De cette façon, l'utilisateur peut combiner les capacités de raisonnement du modèle avec les applications Google pour des recherches spécifiques et plus précises. Comme nous l’avons mentionné, ces modèles sont désormais disponibles pour tous les utilisateurs et Google promet de les étendre bientôt aux utilisateurs de Google Workspace Business et Enterprise . Mais Google ne s'est pas arrêté là et a également présenté quelques nouveaux modèles. Le plus intéressant est le Gemini 2.0 Pro Experimental, mais le 2.0 Flash-Lite est également une très bonne alternative à surveiller. Après avoir lancé une première version expérimentale de Gemini 2.0 Experimental Advanced, connue sous le nom de Gemini-Exp-1206 , Google a recueilli les commentaires des développeurs sur ses points forts et a publié la version 2.0 Pro . Selon Google, le modèle offre de meilleures performances de codage , la capacité de gérer des requêtes complexes et une meilleure compréhension , un meilleur raisonnement et une meilleure connaissance du monde que n'importe quel modèle qu'il a « publié jusqu'à présent ». De plus, la fenêtre de contexte (un sujet extrêmement important ) a été augmentée à 2 millions de jetons, ce qui lui permet d’analyser et de comprendre de manière exhaustive de grandes quantités d’ informations. De plus, ce modèle dispose de la capacité intégrée d’interagir avec des outils tels que Google Search et est capable d’exécuter du code.
Mais comment se comporte-t-il sur le terrain ? Selon les tests de Google, il surpasse tous les modèles précédents, voici quelques exemples :
- MMLU-Pro , un test qui évalue les capacités générales car il se compose d'environ 16 000 questions à choix multiples couvrant 57 matières académiques dont les mathématiques, la philosophie, le droit et la médecine : 79,1 % (1,5 Pro a obtenu 75,8 %)
- LiveCodeBench (v5), un benchmark pour évaluer les compétences en programmation : 36 % (1.5 Pro : 24,2 %)
- GPQA, un test pour évaluer les capacités de raisonnement : 64,7 % (1,5 Pro : 59,1 %)
Ce ne sont que quelques exemples, mais pour vous donner une idée. Sur WebDev Arena , plateforme d'évaluation ouverte, la réalité est moins criante : 2.0 Pro Experimental est loin derrière Claude 3.5 Sonnet, DeepSeek-R1 et o3-mini. Dans tous les cas, Gemini 2.0 Pro est désormais disponible en tant que modèle expérimental pour les développeurs dans Google AI Studio et Vertex AI , et pour les utilisateurs de Gemini Advanced dans la liste déroulante des modèles sur ordinateur et mobile. Moins flashy mais peut-être plus impactant pour les utilisateurs est le nouveau Flash-Lite 2.0 , un modèle construit sur les commentaires positifs reçus sur le prix et la vitesse du Flash 1.5. Le nouveau modèle selon Google a une meilleure qualité de Flash 1,5, le surpassant dans la plupart des benchmarks , à la même vitesse et au même coût. Flash 2.0 dispose d'une fenêtre contextuelle d'un million de jetons et d'une entrée multimodale : il peut générer une légende pertinente d'une seule ligne pour environ 40 000 photos uniques , par exemple, pour un coût inférieur à un dollar dans le niveau payant de Google AI Studio. Gemini 2.0 Flash-Lite est disponible dans Google AI Studio et Vertex AI en aperçu public . À ce stade, nous pouvons voir comment les développeurs de modèles d’IA évoluent vers le raisonnement , une technologie qui devrait leur permettre de vérifier les faits, ce qui en théorie les aide à éviter les hallucinations et autres problèmes.
Nous avons déjà fait état des doutes des experts sur cette approche : certains sont convaincus que si c’est un moyen de générer de meilleures réponses, ce n’est pas nécessairement la bonne réponse pour améliorer l’IA. Il y a d'abord la question du coût, puis celle de la « sécurité », comme le rapporte un article dans lequel o1 d'OpenAI « manigance » dans le dos des utilisateurs. Google rassure les utilisateurs en déclarant que la nouvelle gamme Gemini 2.0 a été construite avec « de nouvelles techniques d'apprentissage par renforcement qui utilisent Gemini lui-même pour critiquer ses réponses ». Ils utilisent également une équipe rouge (un groupe indépendant de pirates informatiques pour tester l'IA) pour évaluer les risques de sécurité , y compris ceux posés par les risques d'injection rapide indirecte (un type d'attaque dans lequel les attaquants cachent des instructions malveillantes dans des données qui pourraient être récupérées par un système d'IA).


