Le mois dernier, nous vous avons annoncé l'actualité du programme d'intelligence artificielle (IA) de Google appelé Imagen , qui peut générer des images à partir d'une description textuelle. Le programme s'est révélé particulièrement efficace selon un benchmark d'évaluation, et Google en avait développé un autre en parallèle, baptisé Parti , qui utilise une stratégie différente, bien que complémentaire de la première. Imagen et Parti ont tous deux commencé avec le programme d'intelligence artificielle DALL-E 2 d' Open AI , mais Imagen utilise un modèle appelé Diffusion , dans lequel il apprend à convertir un motif de points aléatoires en images. Les images commencent d'abord avec une résolution inférieure , puis augmentent progressivement en résolution. Ce type de modèle est utilisé à la fois dans les applications d' image et audio , telles que l'amélioration de la résolution d'image, la recoloration de photos en noir et blanc, l'édition de régions d'image, le recadrage d'image et la synthèse vocale.
Au lieu de cela, Parti convertit d'abord une collection d'images (dans ce cas, un message texte) en une séquence de lignes de code , semblable à des pièces de puzzle, et crée une nouvelle image correspondante. Cette approche s'appuie sur la connaissance de grands modèles de langage tels que PaLM et est capable de gérer des textes longs et complexes et de produire des images de haute qualité. Comme toujours dans le cas de l'IA, il y a des limites , car ni Parti ni Imagen ne peuvent produire de manière fiable un nombre donné d'objets (par exemple "dix pommes"), ou les positionner correctement en fonction de descriptions spatiales spécifiques (par exemple "une sphère rouge au à gauche d'un bloc bleu avec un triangle jaune dessus"). De plus, à mesure que les textes deviennent plus complexes , les modèles commencent à perdre des détails ou à introduire des détails qui n'étaient pas fournis dans le texte. Le problème se pose dans la phase d'apprentissage , car il n'a pas été possible de donner suffisamment d'informations aux modèles pour leur permettre une prise de conscience 3D. L'autre problème , beaucoup plus pertinent, concerne le côté éthique , et de fait, comme pour Imagen, Google n'a pas publié de pièces à usage public . Parce que les modèles sont formés sur de grands ensembles de données , des biais ont été créés qui créent des représentations stéréotypées et reflètent généralement les préjugés occidentaux . Si le sujet vous intéresse , vous trouverez ici l'article complet où vous pourrez essayer des parties : https://parti.research.google/
Au lieu de cela, Parti convertit d'abord une collection d'images (dans ce cas, un message texte) en une séquence de lignes de code , semblable à des pièces de puzzle, et crée une nouvelle image correspondante. Cette approche s'appuie sur la connaissance de grands modèles de langage tels que PaLM et est capable de gérer des textes longs et complexes et de produire des images de haute qualité. Comme toujours dans le cas de l'IA, il y a des limites , car ni Parti ni Imagen ne peuvent produire de manière fiable un nombre donné d'objets (par exemple "dix pommes"), ou les positionner correctement en fonction de descriptions spatiales spécifiques (par exemple "une sphère rouge au à gauche d'un bloc bleu avec un triangle jaune dessus"). De plus, à mesure que les textes deviennent plus complexes , les modèles commencent à perdre des détails ou à introduire des détails qui n'étaient pas fournis dans le texte. Le problème se pose dans la phase d'apprentissage , car il n'a pas été possible de donner suffisamment d'informations aux modèles pour leur permettre une prise de conscience 3D. L'autre problème , beaucoup plus pertinent, concerne le côté éthique , et de fait, comme pour Imagen, Google n'a pas publié de pièces à usage public . Parce que les modèles sont formés sur de grands ensembles de données , des biais ont été créés qui créent des représentations stéréotypées et reflètent généralement les préjugés occidentaux . Si le sujet vous intéresse , vous trouverez ici l'article complet où vous pourrez essayer des parties : https://parti.research.google/
Plus d'actualités dans cette catégorie