Aujourd'hui, Google présente Genie 2, un modèle de monde de base capable de générer une variété infinie d'environnements 3D jouables et contrôlables par l'action pour la formation et l'évaluation des agents incarnés. Basé sur une seule image d'invite, il peut être joué par un agent humain ou IA à l'aide d'entrées clavier et souris. Les jeux jouent un rôle clé dans le monde de la recherche en intelligence artificielle (IA). Leur nature engageante, leur mélange unique de défis et leurs progrès mesurables en font des environnements idéaux pour tester et faire progresser en toute sécurité les capacités de l'IA. En effet, les jeux sont importants pour Google DeepMind depuis sa fondation. Depuis les premiers travaux avec les jeux Atari , des percées telles qu'AlphaGo et AlphaStar , jusqu'à nos recherches sur les agents généralistes en collaboration avec des développeurs de jeux, les jeux ont été au centre de nos recherches. Cependant, la formation d'agents incarnés plus généraux a traditionnellement été entravée par la disponibilité d'environnements de formation suffisamment riches et diversifiés. Genie 2 pourrait permettre aux futurs agents d'être formés et évalués dans un programme illimité de nouveaux mondes. Nos recherches ouvrent également la voie à de nouveaux flux de travail créatifs pour le prototypage d’expériences interactives.
Jusqu'à présent, les modèles de mondes se limitaient en grande partie à la modélisation de domaines étroits . Genie 2 est un modèle de monde , ce qui signifie qu'il peut simuler des mondes virtuels, y compris les conséquences de toute action (par exemple, sauter, nager, etc.). Il a été formé sur un ensemble de données vidéo à grande échelle et, comme d'autres modèles génératifs, démontre diverses capacités émergentes à grande échelle, telles que les interactions d'objets, l'animation complexe de personnages, la physique et la capacité de modéliser et donc de prédire le comportement d'autres agents. Pour chaque exemple, le modèle est invité à utiliser une seule image générée par Imagen 3 , le modèle texte-image de pointe de GDM. Cela signifie que n'importe qui peut décrire un monde qu'il souhaite dans un texte, sélectionner sa représentation préférée de cette idée, puis entrer dans ce monde nouvellement créé et interagir avec lui (ou faire en sorte qu'un agent d'IA soit formé ou évalué dans ce monde). À chaque étape, une personne ou un agent fournit une action au clavier et à la souris, et Genie 2 simule l'observation suivante. Genie 2 peut générer des mondes cohérents pendant une minute, la majorité des exemples présentés durant 10 à 20 secondes.
Jusqu'à présent, les modèles de mondes se limitaient en grande partie à la modélisation de domaines étroits . Genie 2 est un modèle de monde , ce qui signifie qu'il peut simuler des mondes virtuels, y compris les conséquences de toute action (par exemple, sauter, nager, etc.). Il a été formé sur un ensemble de données vidéo à grande échelle et, comme d'autres modèles génératifs, démontre diverses capacités émergentes à grande échelle, telles que les interactions d'objets, l'animation complexe de personnages, la physique et la capacité de modéliser et donc de prédire le comportement d'autres agents. Pour chaque exemple, le modèle est invité à utiliser une seule image générée par Imagen 3 , le modèle texte-image de pointe de GDM. Cela signifie que n'importe qui peut décrire un monde qu'il souhaite dans un texte, sélectionner sa représentation préférée de cette idée, puis entrer dans ce monde nouvellement créé et interagir avec lui (ou faire en sorte qu'un agent d'IA soit formé ou évalué dans ce monde). À chaque étape, une personne ou un agent fournit une action au clavier et à la souris, et Genie 2 simule l'observation suivante. Genie 2 peut générer des mondes cohérents pendant une minute, la majorité des exemples présentés durant 10 à 20 secondes.
Plus d'actualités dans cette catégorie