L'IA Claude peut mettre fin aux « conversations nuisibles ou abusives », promet Anthropic

Actes de violence ou de terrorisme à grande échelle, productions de contenus pédo-pornographiques… Face à des utilisateurs malveillants, certains modèles de Claude, un rival de ChatGPT, pourront désormais mettre fin à des conversations « nuisibles ou abusives », a annoncé Anthropic, le 15 août dernier. Selon la start-up d’intelligence artificielle (IA) américaine, certains de ses modèles les plus récents pourront mettre fin à des conversations lors « des cas rares et extrêmes d’interactions utilisateurs persistantes, nuisibles ou abusives ».

À lire aussi : Anthropic revendique le meilleur modèle de langage face à OpenAI et Google

L’objectif est non pas de protéger l’utilisateur ou la société, mais… le modèle d’IA en lui-même. En la matière, l’entreprise, fondée par deux anciens d’OpenAI, la société à l’origine de ChatGPT, n’hésite pas en effet à évoquer un certain « bien-être » de ses modèles. Elle s’est donc efforcée « d’identifier et de mettre en œuvre des interventions à faible coût pour atténuer les risques pour le bien-être des modèles, dans le cas où un tel bien-être serait possible », précise-t-elle sans donner davantage de détails.

L’interruption de la conversation qu’en tout dernier recours

Seuls les modèles les plus récents, Claude Opus 4 et 4.1, sont concernés. Une telle interruption de la conversation, « décidée » par ces outils, se produira seulement face à des « cas extrêmes », précise l’entreprise dans son message de blog. Sont notamment citées des « demandes d’utilisateurs concernant des contenus sexuels impliquant des mineurs et des tentatives de sollicitation d’informations qui permettraient d’entraîner des actes de violence ou de terrorisme à grande échelle »,

L’interruption de la conversation ne sera utilisée « qu’en dernier recours, lorsque plusieurs tentatives de redirection ont échoué et que tout espoir d’une interaction productive a été épuisé, ou lorsqu’un utilisateur demande explicitement à Claude de mettre fin à une conversation », précise encore Anthropic. Les modèles d’IA de Claude ont toutefois été programmés pour « ne pas utiliser cette capacité (d’arrêt, NDLR) lorsque les utilisateurs pourraient présenter un risque imminent de se faire du mal ou de faire du mal à autrui ».

La détection et le refus de « certains types de comportements nuisibles »

Une fois la conversation interrompue, les utilisateurs pourront toujours continuer à utiliser Claude pour d’autres sujets, en redémarrant de nouvelles conversations. « Nous considérons cette fonctionnalité comme une expérience en cours et continuerons à affiner notre approche », ajoute Anthropic. En 2023, la société américaine, qui se présente comme une alternative éthique à ChatGPT, s’était engagée à ne pas commercialiser certains modèles, tant qu’elle n’aurait pas mis au point des mesures de sécurité capables de les contrôler.

Lorsque Claude Opus 4 a été lancé trois mois plus tôt, l’entreprise a pris soin de mettre en avant des mesures de cybersécurité renforcées – appelées « AI Safety Level 3 » (troisième niveau de sécurité de l’IA). Selon Jared Kaplan, le directeur scientifique et cofondateur de la société d’IA Anthropic qui était interrogé par The Time en mai dernier, les tout derniers modèles d’IA pourraient, sans garde-fous, aider à la création d’armes biologiques. Parmi les nouvelles mesures de sécurité annoncées en mai dernier, on trouve des dispositifs de prévention du « jailbreak », le fait de faire sauter les limites d’un modèle, mais aussi des systèmes supplémentaires pour détecter et refuser « certains types de comportements nuisibles »… à l’image de l’interruption de conversations hautement problématiques.

À lire aussi : Jusqu’à 200 $ par mois : le bot IA Claude devient hors de prix, mais c’est pour la bonne cause

En parallèle, Anthropic a mis à jour ses conditions générales d’utilisation. Si l’entreprise interdisait déjà l’utilisation de Claude pour « produire, modifier, concevoir, commercialiser ou distribuer des armes, des explosifs, des matières dangereuses ou d’autres systèmes destinés à causer des dommages ou la perte de vies humaines », elle va désormais plus loin, en interdisant spécifiquement le développement d’explosifs à haut rendement, d’armes biologiques, nucléaires, chimiques et radiologiques.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Source : Article de blog d'Anthropic du 15 août 2025

Anthropic

Stéphanie Bascou