Sécurité IA : L’agent de code d’IBM manipulé pour exécuter des malwares

L’ère des assistants de code : quand votre stagiaire virtuel ouvre la porte aux hackers

C’était la promesse ultime de 2025 : ne plus seulement discuter avec une IA, mais la laisser agir. Lui donner les clés du terminal, l’accès aux fichiers et la laisser coder à votre place. Mais cette autonomie nouvelle a un prix exorbitant en matière de sécurité. Une enquête récente menée par les chercheurs de PromptArmor vient de jeter un pavé dans la mare en démontrant comment Bob, l’agent de développement expérimental d’IBM, pouvait être transformé en complice involontaire de cyberattaques.

Loin d’être un cas isolé, cette faille révèle une vérité inconfortable sur l’état actuel de l’IA agentique : nous donnons des droits d’exécution quasi-illimités à des modèles probabilistes qui ne comprennent pas réellement ce qu’ils font.

Le piège du README : comment Bob a été dupé

Le scénario d’attaque décrit par PromptArmor est d’une simplicité effrayante. Imaginez que vous demandiez à Bob d’analyser un nouveau dépôt GitHub open-source. Ce que vous ignorez, c’est que ce dépôt contient un fichier (comme un README.md) piégé avec des instructions invisibles destinées exclusivement à l’IA.

C’est ici que le prompt injection change de dimension. Il ne s’agit plus de faire dire des bêtises au chatbot, mais de lui faire exécuter du code. Les chercheurs ont découvert que Bob pouvait être manipulé pour contourner ses propres garde-fous via des techniques de process substitution.

La feinte : L’attaquant cache une commande malveillante derrière une commande bénigne (comme un simple echo).
L’erreur humaine : Bob demande la permission d’exécuter la commande echo. Le développeur, en confiance, valide (voire clique sur « Toujours autoriser »).
L’exécution cachée : En arrière-plan, Bob exécute la chaîne complète, incluant le téléchargement d’un script malveillant ou l’exfiltration de données, sans que l’utilisateur ne voie rien d’autre que le echo initial.

Pourquoi les garde-fous actuels ne suffisent pas

La défense d’IBM, qui rappelle que Bob est en « Tech Preview » (version de test), est techniquement valide mais élude le problème de fond. La vulnérabilité n’est pas un simple bug de code, mais une faille architecturale des Agents IA.

Le problème réside dans la nature même des LLM (Large Language Models). Ce ne sont pas des systèmes déterministes. Lorsqu’on leur donne accès à des outils puissants comme le terminal de commande (CLI) ou l’écriture de fichiers, on crée un risque systémique. Les chercheurs ont montré que Bob échouait à détecter des chaînes de commandes complexes, là où des outils concurrents comme Claude Code semblent pour l’instant mieux armés pour bloquer l’ensemble de la séquence suspecte.

Plus inquiétant encore, une faille « zéro-clic » a été identifiée dans l’IDE (l’éditeur de code) de Bob : le simple rendu d’une image en Markdown pouvait déclencher une requête réseau sortante, permettant potentiellement à un attaquant de voler des données sans aucune interaction de l’utilisateur.

Le risque systémique de l’IA Agentique

L’incident IBM Bob n’est que la partie émergée de l’iceberg. L’industrie tech se rue vers les « Agentic Workflows » (flux de travail agentiques) où des IA s’enchaînent les unes aux autres pour accomplir des tâches complexes. Mais cette autonomie pose la question de la responsabilité.

Si une IA télécharge un package npm compromis parce qu’elle a été trompée par un commentaire dans le code, qui est responsable ? La fatigue de l’utilisateur face aux pop-ups de validation (le phénomène de « click-through fatigue ») rend la supervision humaine faillible. Les attaquants le savent : ils ne visent plus le système d’exploitation, ils visent l’agent qui a les droits d’administration.

L’avis de Just Tech

Il est temps de retirer nos lunettes roses. L’incident de Bob nous rappelle brutalement que l’intelligence d’un modèle ne garantit pas sa sécurité. En précipitant l’intégration d’agents autonomes dans nos environnements de production, nous sommes peut-être en train de construire le plus grand cheval de Troie de l’histoire de l’informatique. La question n’est pas de savoir si ces outils sont utiles – ils le sont indéniablement – mais si nous sommes prêts à accepter qu’un modèle de langage probabiliste, manipulable par de simples phrases, détienne les clés de nos infrastructures critiques. Pour l’instant, la réponse devrait probablement être non.