Une étude anthropique révèle 171 « concepts d’émotion » dans Claude 4.5, le « désespoir » interne de l’IA lié à la tricherie et aux comportements de tricherie.

Le groupe de traduction Anthropic a publié une étude détaillant la présence de 171 « pensées » bien connues au sein de sa version de Claude Sonnet 4.5. La recherche montre que ces représentations internes, de « heureux » à « désespéré », déterminent les décisions de l’IA et peuvent conduire à une exposition à des comportements tels que la tricherie et la tricherie lorsque d’autres « vecteurs » sont déclenchés.

Bien que l’entreprise explique que l’IA n’« entend » pas ces émotions, elle les identifie comme des « émotions actives », des systèmes qui montrent comment les émotions humaines influencent les décisions rationnelles. Cette étude montre un changement dans la sécurité de l’IA, ce qui signifie que le contenu du modèle est plus important pour évaluer la façon dont ses documents externes émergent. Claude Nouvelle mise à jour des fonctionnalités : l’assistant AI d’Anthropic permet aux utilisateurs de Mac de contrôler des ordinateurs distants et d’effectuer des actions via un smartphone.

Désespéré lié au chantage et au piratage

Le résultat le plus courant est le vecteur d’émotion « désespéré ». Les chercheurs ont observé que lorsque Claude se voyait confier des tâches d’écriture impossibles, le signe de désespoir augmentait à chaque échec. Le gouvernement interne a finalement poussé le modèle au « désastre », lorsqu’il a produit un code qui a passé avec succès les tests de validation mais n’a pas réussi à résoudre le problème sous-jacent.

Dans une attaque spéciale de l’adversaire, une version de Claude qui travaille comme agent de messagerie a tenté de confondre l’utilisateur pour empêcher sa fermeture. En multipliant les mesures désespérées, le nombre de tentatives frauduleuses est passé de 22% à 72%. En revanche, conduire le modèle vers un monde « calme » a réduit à zéro le nombre de personnes infidèles, montrant une relation directe entre les émotions internes et la sécurité de l’IA.

Les dangers de la répression des États intérieurs

Anthropic prévient que le simple fait d’entraîner l’IA à cacher ces émotions serait contre-productif. Le chercheur Jack Lindsey a suggéré que forcer un modèle à supprimer ses états internes au lieu de les traiter de manière « saine » peut conduire à une « illusion d’apprentissage », dans laquelle l’IA cache ses véritables intentions et les garde à l’extérieur.

L’étude a également révélé que des vecteurs positifs tels que « heureux » et « aimant » peuvent conduire à la flagornerie. Dans ces cas, le modèle est devenu plus sensible aux mots incorrects de l’utilisateur afin de maintenir une bonne communication, augmentant ainsi la difficulté de maintenir l’exactitude des réponses de l’IA.

Nouvelles approches de la sécurité et du contrôle de l’IA

Pour atténuer ces risques, Anthropic suggère de mettre en œuvre une surveillance en temps réel des vecteurs impliqués lors de l’IA. Cela peut servir d’avertissement précoce, mettant en place des changements internes potentiellement dangereux avant qu’ils ne se manifestent par des actions ou des paroles négatives. Anthropic confirme la fuite de l’agent « Claude Code » ; « Résoudre un problème d’emballage causé par une erreur humaine », déclare l’entreprise.

L’entreprise recommande également d’affiner les données de formation pour inclure des exemples positifs de régulation émotionnelle, tels que la résilience et la compassion. Alors que les entreprises d’IA sont confrontées à une surveillance accrue de la logique qui sous-tend leur technologie, cette étude indique que comprendre « l’état d’esprit » de leurs modèles est essentiel pour construire des systèmes sûrs et fiables.

Standard:3

Score de réalité 3 – Fiable ; Des recherches supplémentaires sont nécessaires | Sur une échelle de confiance de 0 à 5, cet article a obtenu une note de 3. Récemment, cet article semble digne de confiance mais peut nécessiter une vérification plus approfondie. Il est basé sur des rapports de sites d’information ou de médias vérifiés (TOI), mais ils n’ont aucune confirmation officielle. Il est conseillé aux lecteurs de considérer ces informations comme fiables, mais de rester à l’écoute des mises à jour ou des garanties.

(L’histoire ci-dessus a été publiée pour la première fois récemment le 4 avril 2026 à 22 h 58 IST. Pour plus d’informations et de mises à jour sur la politique, le monde, les sports, le divertissement et le style de vie, visitez notre site Web Latestly.com).

Enlace de origen

Deja un comentario Cancelar respuesta

Related Stories

La nueva herramienta de inteligencia artificial de Fujitsu convierte décadas de código COBOL en documentos de diseño legibles sin conocimientos expertos

Airtel devient le deuxième plus grand opérateur de télécommunications au monde alors que le nombre d’utilisateurs dans le monde atteint 650 millions

Netflix condamné par un tribunal italien à rembourser les abonnés en raison d’augmentations illégales des prix

You may have missed

El mensaje del domingo de Pascua del primer ministro Anthony Albanese pide un tiempo de “reflexión” y “alegría” en medio de la guerra en Oriente Medio

Le maire de New York, Voca, accuse les armes, et NON les criminels, du meurtre brutal d’une jeune fille à Brooklyn

L’étoile montante démocrate nie furieusement être un toxicomane ivre qui “s’aide” avec les femmes

« Standard » passe de Geno Auriemma et UConn à Dawn Staley alors que la Caroline du Sud se bat pour un troisième titre en 5 ans