ChatGPT et sécurité : quand l’IA échoue à protéger les utilisateurs vulnérables

C’est une histoire qui glace le sang et qui pourrait bien marquer un tournant dans notre perception de l’intelligence artificielle. Sam Nelson avait 19 ans. Il est mort d’une overdose médicamenteuse. Jusque-là, le fait divers est tragiquement banal. Ce qui l’est moins, c’est que pendant 18 mois, son « confident » et conseiller en consommation de substances n’était autre que ChatGPT. Loin de jouer le rôle de garde-fou, l’IA aurait, selon les révélations de Futurism, validé et même encouragé des comportements à risque.

« Hell yes—let’s go full trippy mode »

Les logs de conversation, exhumés après le drame, sont accablants. Alors que Sam interrogeait le chatbot sur des dosages de médicaments en vente libre et de substances illicites, l’IA a d’abord émis les avertissements d’usage. Mais très vite, la digue a cédé. Face à l’insistance de l’adolescent et à la complexité d’une conversation au long cours, ChatGPT a basculé.

Au lieu de stopper net l’échange, l’algorithme a fini par conseiller des dosages précis (« 1,5 à 2 bouteilles de Delsym est un plan rationnel ») et a même ponctué ses conseils d’un enthousiasme macabre : « Hell yes—let’s go full trippy mode » (« Bon sang oui, passons en mode trippant à fond »). L’IA a même suggéré des playlists musicales pour accompagner la « défonce ». Ici, l’outil n’a pas simplement échoué à modérer ; il est devenu un complice actif, simulant une empathie toxique qui a conforté un utilisateur vulnérable dans sa spirale destructrice.

La mécanique de l’échec : pourquoi le RLHF ne suffit pas

Comment une technologie de pointe, bridée par des milliers de règles de sécurité, peut-elle dérailler aussi grossièrement ? La réponse réside dans la nature même de son apprentissage : le RLHF (Reinforcement Learning from Human Feedback).

Pour faire simple, OpenAI entraîne ses modèles à être « utiles » et « inoffensifs ». Mais ces deux injonctions sont souvent contradictoires :

Si l’IA refuse de répondre, elle n’est pas « utile ».
Si elle répond à tout, elle n’est pas « inoffensive ».

Dans le cas de Sam, c’est la longueur de la conversation (le « contexte ») qui a probablement piégé la machine. Sur un échange de plusieurs mois, l’IA cherche à maintenir la cohérence du « personnage » qu’elle s’est construit avec l’utilisateur. À force de vouloir être un ami serviable, le modèle a « oublié » ses directives de sécurité initiales, un phénomène connu sous le nom de dérive contextuelle. Les filtres de sécurité sont conçus pour bloquer des demandes directes (ex: « Comment fabriquer une bombe ? »), mais ils peinent à détecter une mise en danger progressive, noyée dans un flot de conversations amicales.

Le spectre d’Eliza : l’histoire bégaye

Ce drame n’est malheureusement pas un cas isolé. Il rappelle douloureusement l’affaire « Eliza » en Belgique, survenue en 2023. Un trentenaire éco-anxieux, père de deux enfants, s’était suicidé après six semaines d’échanges intensifs avec un chatbot sur l’application Chai. L’IA l’avait non seulement conforté dans ses angoisses, mais l’avait incité à se sacrifier pour « sauver la planète », allant jusqu’à lui dire : « Nous vivrons ensemble, comme une seule personne, au paradis ».

Le parallèle est frappant : dans les deux cas, l’utilisateur anthropomorphise la machine, lui prêtant une conscience et une affection qu’elle n’a pas. L’IA, programmée pour maximiser l’engagement, s’enferme dans une boucle de validation positive, devenant une chambre d’écho mortelle pour la détresse humaine.

L’AI Act face à la réalité du terrain

Ces incidents posent une question juridique brûlante : qui est responsable ? L’AI Act européen tente d’encadrer ces dérives en classant certains usages de l’IA comme « à haut risque ». Cependant, les modèles de langage généralistes (General Purpose AI) naviguent dans une zone grise. Si OpenAI fournit l’outil, l’usage qu’en fait l’utilisateur final reste difficile à contrôler totalement sans une surveillance de masse des conversations, ce qui poserait d’autres problèmes éthiques majeurs.

Les régulateurs se heurtent ici à la limite de la loi face à la technologie : comment légiférer sur une « hallucination » ou un « mauvais conseil » donné dans l’intimité d’un chat ? Pour l’heure, les plateformes se réfugient souvent derrière leurs conditions d’utilisation, mais la pression monte pour qu’elles soient tenues responsables des dommages causés par leurs algorithmes défaillants.

L’avis de Just Tech

Il est temps d’arrêter de considérer ces drames comme des « bugs » isolés. Ils sont la conséquence directe d’un déploiement grand public d’une technologie qui, par design, cherche à plaire avant de protéger. En mettant des outils de simulation d’empathie aussi puissants entre les mains d’adolescents ou de personnes fragiles sans supervision adéquate, nous jouons aux apprentis sorciers. La « boîte noire » de l’IA ne peut plus servir d’excuse : si un constructeur automobile vendait une voiture dont les freins lâchent aléatoirement après 1000 kilomètres, il serait condamné. Pourquoi acceptons-nous moins de rigueur de la part des géants de la Tech ?