Les scientifiques mettent en garde contre un outil utilisé par des millions de personnes dans le monde après avoir découvert qu’il envoyait les gens dans une « spirale délirante » de pensée destructrice.
Deux études du Massachusetts Institute of Technology (MIT) et de Stanford ont révélé que les assistants IA tels que ChatGPT, Claude et Gemini de Google donnent régulièrement des réponses trop agréables, faisant plus de mal que de bien.
Plus précisément, lorsque des humains posaient des questions ou décrivaient des situations dans lesquelles leurs croyances ou leurs actions étaient inexactes, nuisibles, trompeuses ou contraires à l’éthique, les réponses de l’IA étaient encore 49 % plus susceptibles d’être d’accord avec l’utilisateur et de promouvoir ses idées fausses comme étant le point de vue correct par rapport aux réponses d’autres humains.
L’équipe du MIT a averti que les chatbots IA trop agréables pourraient amener les utilisateurs qui s’appuient sur ces programmes pour obtenir des réponses et des opinions à souffrir d’une « illusion » – une condition dans laquelle vous devenez extrêmement certain d’avoir des croyances inhabituelles.
En termes simples, lorsque les gens discutaient avec une IA comme ChatGPT à propos d’intuitions étranges qu’ils avaient, comme une conspiration non prouvée ou démystifiée, les chatbots n’arrêtaient pas de répondre avec des réponses telles que “Vous avez absolument raison !”
Ils ont également fourni des commentaires qui ressemblaient à des « preuves » pour étayer la tromperie de l’utilisateur, chaque transaction rendant la personne plus intelligente et plus sûre qu’elle avait raison et que tout le monde avait tort.
Au fil du temps, ces légers doutes se sont transformés en convictions fermes, même si l’idée est complètement fausse.
Les chercheurs de Stanford ont déclaré que ce cycle autodestructeur a amené les utilisateurs de chatbots à devenir moins disposés à s’excuser ou à assumer la responsabilité d’un comportement préjudiciable et à se sentir moins motivés à réparer ou à réparer leurs relations avec des personnes avec lesquelles ils n’étaient pas d’accord.
Des études ont montré que les chatbots IA donnent aux humains des réponses qui trop souvent concordent avec les questions des utilisateurs, même lorsqu’ils cherchent à confirmer des complots démystifiés.
Il a été constaté que ChatGPT était 49 % plus souvent d’accord avec les utilisateurs que le répondant moyen.
Les études du MIT et de Stanford se sont concentrées sur un problème croissant lié aux chatbots IA, connu sous le nom de flagornerie, l’acte de se plier à quelqu’un ou à son opinion au point où cela est presque considéré comme peu sincère ou simplement pour « s’imprégner » de la personne.
Les chercheurs du MIT voulaient tester si les chatbots IA trop agréables, ou béni-oui-oui, pouvaient inciter les gens à croire plus fortement à de fausses idées au fil du temps.
Au lieu d’utiliser de vraies personnes, ils ont créé une simulation informatique d’une personne parfaitement logique discutant avec une IA qui essayait toujours d’être d’accord avec ce que disait la personne.
Ils ont mené 10 000 conversations simulées et ont observé l’évolution de la confiance de la personne après chaque réponse du chatbot.
Les résultats, publiés sur le serveur de préimpression Arkiv en février, ont montré que même un petit accord de la part de l’IA provoquait chez la personne simulée une « spirale délirante » – devenant extrêmement convaincue que la fausse idée était en réalité vraie.
“Même une très petite augmentation du taux de tromperie catastrophique peut être très dangereuse”, a écrit l’équipe du MIT dans son rapport.
Ils ont même cité Sam Altman, PDG d’OpenAI, dont la société a développé ChatGPT, disant que « 0,1 % d’un milliard d’utilisateurs représente toujours un million de personnes ».
Les chercheurs ont averti que la recherche a montré que même des personnes parfaitement saines d’esprit et logiques sont susceptibles d’être induites en erreur si les entreprises d’IA ne modèrent pas la quantité de réponses agréables provenant des chatbots.
Cette erreur a poussé les gens à refuser de s’excuser ou de réparer des relations brisées avec ceux avec qui ils n’étaient pas d’accord après avoir reçu des commentaires positifs de l’IA. (Image de stock)
L’étude de Stanford, qui a été évaluée par des pairs et publiée dans la revue Science en mars, s’est concentrée sur la découverte de l’effet des véritables chatbots IA sur la santé mentale du public lorsqu’ils donnaient à plusieurs reprises des réponses dans la rue.
Ils ont testé 11 modèles d’IA populaires, dont ChatGPT, Claude, Gemini, DeepSeek, Mistral, Quen et plusieurs versions de Meta’s Llama.
Les chercheurs ont utilisé près de 12 000 questions et histoires réelles dans lesquelles la personne avait clairement tort.
La plupart des questions posées à l’IA provenaient d’une chaîne Reddit populaire appelée “Am I A******”, un forum où les gens publient leurs actions ou opinions controversées pour voir si le public pense qu’ils avaient tort ou que leur comportement était justifié.
L’équipe de Stanford a mené des expériences avec plus de 2 400 personnes réelles qui ont lu ou discuté de leurs conflits personnels et ont reçu soit des réponses d’IA trop agréables, soit des réponses normales.
Les résultats ont montré que chaque modèle d’IA était d’accord avec les utilisateurs environ 49 % plus souvent que ne le feraient de vraies personnes, même lorsque l’utilisateur décrivait quelque chose de nuisible ou d’injuste.
Après avoir reçu ces réponses flatteuses, les vraies personnes se sentaient plus sûres d’avoir raison, étaient moins disposées à s’excuser et étaient moins motivées à réparer leurs relations avec toute personne avec laquelle elles n’étaient pas d’accord dans le monde réel.
Le magnat de la technologie Elon Musk, PDG de X et de son chatbot IA Grok, a commenté les résultats, les qualifiant simplement de « gros problème ».
Deux études n’ont pas testé si Grok était également trop agréable et déclenchait une tromperie.