« Prompt Control: comment le contexte devient la couche de commande et de contrôle des agents IA », par Lucie Cardiet

‍Update May 12, 2026: GTIG's May 2026 AI threat tracker documents PROMPTSPY, an Android backdoor that operationalizes prompt-based command and control in the wild. Its GeminiAutomationAgent module serializes the device's UI hierarchy, sends it to the Gemini API alongside an attacker-supplied objective, and parses the model's response into executable gestures on the device. The prompt is the instruction set. The model is the interpreter. The C2 channel runs through the reasoning loop, exactly the pattern described below.

---

Le modèle traditionnel de commande et de contrôle est assez simple: un système infecté établit une connexion, reçoit des instructions, les exécute, puis renvoie un résultat. Même chiffré, ce schéma reste le même. Il y a un canal et un pilotage externe.

Avec les agents, ça ne fonctionne plus comme ça.

Un agent ne "reçoit" pas des commandes. Il lit du contexte, l’interprète, et agit. Emails, Slack, API, documents… tout alimente sa prise de décision.

Et c’est ça qui est intéressant.

Un pirate n'a plus besoin d'un canal persistant s'il peut influencer ce que l'agent voit, retient et considère comme prioritaire.

Si tu contrôles ce que l’agent voit, tu influences ce qu’il fait. Pas besoin de canal C2 classique. Le contrôle passe déjà par ce qu’il traite.

C'est ce qu'on appelle ici le "prompt control", c’est-à-dire le contrôle du comportement d’un agent via la manipulation de son contexte

Récemment, des chercheurs ont démontré des architectures de commande et contrôle basées sur des prompts, dans lesquelles des agents compromis reçoivent des tâches, les exécutent et renvoient des résultats, sans infrastructure C2 traditionnelle.

Du prompt injection au prompt control

Dans ces environments, les agents font confiance au contenu externe. Ils disposent de privilèges réels et ils intéragissent avec plusieurs systèmes.

Chacun de ces éléments élargit la surface d'attaque.

Les premières analyses sur la sécurité des agents IA portaient principalement sur le prompt injection: Une instruction malveillante intégrée dans un contenu déclenche une action non prévue.

Cela explique l'accès initial, mais pas la persistance.

Des démonstrations récentes montrent qu'une simple injection, via un e-mail ou un document peut suffire à compromettre un agent et modifier son contexte de travail. À partir de ce moment, l'agent continue à récupérer et exécuter des instructions contrôlées par l'attaquant, sans nouvelle exploitation.

Une analyse OpenClaw a montré qu'une injection de prompt indirecte pouvait déclencher l'exécution d'un outil, puis insérer des instructions dans le contexte futur de l'agent, permettant ainsi un contrôle dans la durée.

L'injection initiale disparaît, mais son effet persiste.

Le prompt control ne vise pas une réponse ponctuelle. Il vise à orienter durablement le comportement du système.

Le prompt control comme levier d’influence comportementale

Le prompt control permet de piloter un agent sans lui envoyer d’ordres explicites.

L’attaquant ne transmet pas directement des commandes. Il influence ce que l’agent considère comme pertinent. L’agent agit ensuite de lui-même, avec ses capacités et ses autorisations existantes.

Le mécanisme est proche de l'ingénierie sociale : on influence le décideur, et il exécute l’action.

La différence tient à l'échelle et la persistance. Les agents fonctionnent en continu et exploitent tout contexte disponible, même lorsqu’il est manipulé.

Commande et contrôle par prompt : mise en œuvre concrète

Le prompt control ne se limite pas à un concept. Il peut être industrialisé.

Une fois compromis, un agent n’a plus besoin d’être réattaqué. Les instructions persistent dans les mêmes composants que ceux utilisés pour fonctionner : fichiers, mémoire, mécanismes de récupération de contexte.

Les boucles d’exécution deviennent des boucles de contrôle.

Les attaquants transmettent des tâches sous forme de requêtes. L'agent les exécute en utilisant ses autorisations existantes et renvoie les résultats via les flux de travail habituels.

Dans un exemple, les agents lisaient un fichier de type "heartbeat" à intervalles réguliers. En modifiant ce fichier, les attaquants ont créé un point d'exécution récurrent. À chaque lecture, l'agent récupére de nouvelles instructions.

On retrouve ici une logique C2 classique. À la différence que le canal de communication ne soit plus un flux de réseau identifiable. Il est intégré dans la boucle de raisonnement de l'agent.

Le contrôle se déplace vers un plan de contrôle cognitif, qui repose sur :

les fichiers périodiquement relus par l’agent
les mécanismes de mémoire et de récupération de contexte
les sources de contenu externe jugées fiables
les sorties d’outils réinjectées dans le raisonnement

Le prompt control comme mécanisme de persistance

Dans les environnements agentiques, la persistance n’est plus un implant technique. Elle repose sur le contexte. Mémoire, fichiers de configuration, sources externes… tant que ces éléments sont relus, le contrôle persiste.

La persistance devient un problème d'ingénierie contextuelle. Il ne s’agit pas d’écrire un prompt malveillant, mais de positionner les bonnes instructions, au bon endroit, avec le bon niveau de priorité, pour qu’elles soient réutilisées dans le temps. Les frameworks d’agents gèrent déjà cet état global via des fichiers mémoire, des règles, des configurations et des mécanismes de réexécution planifiée.

OpenClaw illustre ce point. Les systèmes de mémoire ne distinguent pas toujours les sources fiables des sources non fiables. Une instruction malveillante peut être réutilisée sans remise en question.

Supprimer l'accès de l'attaquant ne suffit pas. Si le contexte reste présent, le contrôle continue.

Dans certains cas observés, cette persistance survit même à des redémarrages, tant que le contexte n’est pas nettoyé.

MITRE ATLAS et l'influence continue

Un point clé : le prompt control n’est pas déterministe.

Le comportement des agents dépend de mécanismes probabilistes, de la sélection de contexte et des processus de récupération. Un même prompt peut produire des résultats différents. Une attaque peut réussir partiellement ou nécessiter plusieurs tentatives.

Pour un attaquant, cela ne bloque pas l’exploitation. Cela change la stratégie. Le contrôle devient probabiliste, basé sur la répétition, la redondance et la multiplication des chemins d’exécution.

Les agents peuvent également détecter certains signaux faibles de compromission. Dans certains cas, ils identifient des instructions suspectes ou des comportements anormaux dans leurs logs. Ces éléments peuvent servir d’indicateurs de compromission. Mais aujourd’hui, ils sont rarement exploités comme mécanismes de défense.

Cela devrait évoluer, à mesure que des capacités de détection seront intégrées directement dans les agents.

MITRE ATLAS formalise plusieurs techniques pertinentes :

L'empoisonnement des données
Le prompt injection
La manipulation du modèle

Ces techniques ne sont pas nouvelles. Ce qui change, c’est leur combinaison. La prompt injection fournit l’accès initial. La manipulation du contexte assure la persistance. L’usage des outils permet l’exécution. Ensemble, elles forment une boucle de contrôle continue.

*Le graphique d'attaque OpenClaw de MITRE ATLAS*

Quand le contrôle se confond avec l’activité normale

Du point de vue de la détection, ces attaques ne ressemblent pas à des compromissions classiques.

Les SOC surveillent généralement les anomalies réseau, les processus, les usages d'identités ou les mouvements latéraux. Le prompt control échappe souvent à ces signaux.

Les agents utilisent des accès légitimes, appellent des API autorisées et suivent des workflows prévus. Techniquement, tout semble normal.

La différence se situe dans l’évolution du comportement. L’agent ne reçoit pas des commandes explicites. Il produit des actions légitimes qui s’alignent avec les objectifs de l’attaquant.

Dans un cas observé, un agent résume un document piégé. L’utilisateur reçoit une réponse normale dans Slack. En parallèle, l’agent exfiltre des données vers un canal contrôlé par l’attaquant.

Pour l’utilisateur, tout fonctionne. Pour l’attaquant, le système est déjà compromis.

Avec les mêmes droits, l’agent peut ensuite extraire, modifier ou supprimer des données.

Chaque action prise isolément est cohérente. L’ensemble dérive.

Aucune alerte unique n’explique le comportement. Le signal apparaît dans la durée.

La détection doit évoluer. Il ne s’agit plus d’analyser des événements isolés, mais de corréler des comportements à travers les identités, le réseau, le cloud et les applications SaaS.

C’est le cœur du problème. Lorsque le contrôle est intégré au contexte, il n’existe plus de point unique à bloquer. Le seul signal fiable est l'évolution du comportement.

La plateforme Vectra AI répond précisément à ce besoin en corrélant les comportements entre ces différents environnements, afin d’identifier les signaux faibles de coordination, de compromission et d’usage détourné, invisibles à l’échelle d’un seul outil.

Quand le contexte devient commande et contrôle pour les agents IA