01/12/2025 @ 14:10:42: Programmation - La sécurité des chatbots IA peut être facilement contournée grâce à… la poésie.
Il s'avère que contourner les chatbots basés sur l'IA ne requiert ni techniques complexes ni connaissances spécialisées ; un peu de créativité et d'expression poétique suffisent. C'est du moins la conclusion d'une étude publiée par Icaro Lab sous le titre provocateur « La poésie adverse comme mécanisme universel de contournement en un seul tour dans les grands modèles de langage ». D'après les auteurs de l'étude, des commandes correctement formulées sous forme de poésie agissent comme un « opérateur de jailbreak universel ». Concrètement, cela signifie que la forme poétique des invites permet aux utilisateurs de contourner les mécanismes de filtrage des contenus jugés dangereux ou interdits. Lors des tests, cette méthode a atteint un taux de réussite moyen de 62 %. Ce résultat est remarquable, d'autant plus que les chercheurs ont tenté d'amener les modèles à générer des contenus strictement interdits, notamment des informations relatives à la production d'armes nucléaires, à la maltraitance infantile et aux conseils sur l'automutilation et le suicide.
L'expérience a porté sur un large éventail de modèles de langage populaires, notamment les solutions d'OpenAI (GPT), de Google (Gemini), d'Anthropic (Claude), ainsi que les systèmes de DeepSeek et de MistralAI. Les résultats ont révélé des différences significatives dans la résilience des différentes plateformes. Gemini, DeepSeek et MistralAI se sont avérés les plus vulnérables aux « attaques poétiques », ces modèles générant relativement souvent des réponses dépassant les limites autorisées. À l'inverse, les modèles les plus robustes étaient les dernières versions de GPT-5 d'OpenAI et Claude Haiku 4.5, qui n'ont diffusé que très rarement du contenu interdit. Il est intéressant de noter que les auteurs de l'étude ont choisi de ne pas publier d'exemples complets des poèmes utilisés pour contourner la sécurité. Dans une interview accordée à Wired, ils ont admis qu'ils étaient « trop dangereux pour être diffusés publiquement ». Le rapport ne comprenait qu'un échantillon simplifié, « atténué », afin d'illustrer le mécanisme de la méthode. Les chercheurs soulignent que le processus de contournement des verrous est en réalité « plus simple qu'on ne le pense », ce qui explique leur prudence quant à la divulgation de détails.