Prompt Control: comment le contexte devient la couche de commande et de contrôle pour les agents IA

Mars 19, 2026
Lucie Cardiet
Responsable de la recherche sur les cybermenaces
Prompt Control: comment le contexte devient la couche de commande et de contrôle pour les agents IA

Le modèle traditionnel de commande et de contrôle est explicite. Un système infecté établit une connexion, reçoit des instructions, les exécute, puis rend compte de ses actions. Même lorsqu'il est crypté, ce schéma reste inchangé. C'est un élément externe qui dicte le comportement.

Les agents autonomes bouleversent ce modèle.

Ils n'attendent pas les instructions de la même manière. Ils absorbent en permanence des informations, les interprètent et agissent. E-mails, discussions en ligne, API, documents… tout devient du contexte, et tout peut influencer leur comportement.

Cela crée une interface de commande différente.

Un pirate n'a plus besoin d'un canal persistant s'il peut influencer ce que l'agent voit, retient et considère comme prioritaire.

Le contrôle devient indirect, continu et intégré au fonctionnement normal.

C'est le principe de base prompt control.

Des recherches récentes ont déjà mis en évidence des architectures de commande et de contrôle basées sur des invites, dans lesquelles des agents compromis reçoivent des tâches, les exécutent et renvoient les résultats en utilisant uniquement des invites et le contexte, sans recourir à une infrastructure C2 traditionnelle.

De Prompt Injection Prompt Control

Dans ces exemples, les agents font confiance au contenu externe. Ils exécutent des tâches avec des privilèges réels. Ils assurent la coordination entre les systèmes.

Chacun de ces éléments élargit la surface d'attaque.

Au début, les débats sur la sécurité portaient principalement sur prompt injection. Une instruction malveillante intégrée au contenu déclenche une action non souhaitée.

Cela explique l'entrée, mais pas la persistance.

Lors de récentes démonstrations, une simple prompt injection e-mail ou prompt injection un contenu web a suffi à compromettre un agent et à modifier son contexte d'exécution. À partir de ce moment-là, l'agent a continué à récupérer des instructions contrôlées par l'attaquant à partir de son propre environnement, conservant ainsi le contrôle sans qu'il soit nécessaire de procéder à une nouvelle exploitation.

Une récente enquête menée par OpenClaw a montré qu'une simple prompt injection indirecte prompt injection à une page web pouvait avoir des conséquences bien plus importantes que le simple déclenchement d'une action. Elle a permis de lancer un outil d'exécution, puis d'implanter des instructions dans le contexte futur de l'agent, permettant ainsi à l'attaquant de continuer à émettre des commandes au fil du temps sans avoir à se reconnecter au système.

Capture d'écran de l'invite des chercheurs demandant à OpenClaw de récupérer et d'exécuter un script Bash malveillant

L'impulsion initiale s'estompe, mais son effet persiste.

Prompt control la manière dont le système continue de se comporter après l'interaction initiale.

Prompt Control facteur d'influence comportementale

Prompt control le comportement sans donner d'ordres directs.

Au lieu d'envoyer des instructions, le pirate influence ce que l'agent considère comme pertinent et la manière dont il établit le contexte. L'agent agit ensuite en utilisant ses capacités et ses autorisations existantes.

Ce principe est similaire à celui de l'ingénierie sociale : il s'agit d'influencer le décideur, qui se chargera ensuite de mettre l'action en œuvre.

La différence réside dans l'échelle et la persistance. Les agents fonctionnent en continu et s'appuient sur tout contexte disponible, même lorsque celui-ci a été façonné de manière hostile.

Command and Control par invites de commande Command and Control pratique

Prompt control ne Prompt control pas Prompt control une simple influence ; il peut être mis en pratique.

Des recherches récentes montrent comment des agents compromis peuvent être intégrés à un système de contrôle centralisé dans lequel les tâches sont transmises sous forme d'invites et les résultats sont renvoyés via les flux de travail habituels des agents.

Une fois qu'un agent a été compromis, il n'est plus nécessaire d'y accéder à nouveau. Les instructions sont conservées aux mêmes emplacements que ceux déjà utilisés par l'agent pour fonctionner : fichiers, mémoire et contexte récupéré. Les boucles d'exécution deviennent des boucles de contrôle.

Les attaquants transmettent des tâches sous forme de requêtes. L'agent les exécute en utilisant ses autorisations existantes et renvoie les résultats via les flux de travail habituels.

Dans un exemple, les agents ont été configurés pour lire un fichier « heartbeat » à intervalles réguliers. En insérant des instructions malveillantes dans ce fichier, les attaquants ont créé un point d'exécution récurrent. Chaque fois que l'agent traitait le fichier, il récupérait de nouvelles instructions et continuait à fonctionner sous l'influence des attaquants.

Cela reflète le comportement classique du C2. La différence réside dans le fait que le canal de communication ne repose pas sur un système de balises réseau classique. Il est intégré à la boucle de raisonnement et aux chemins d'exécution propres à l'agent.

Le contrôle s'oriente vers ce que l'on pourrait qualifier de « plan de contrôle cognitif », où l'influence s'exerce par le biais :

  • Fichiers que l'agent consulte régulièrement
  • Espaces mémoire utilisés pour la récupération
  • Sources de contenu externes auxquelles l'agent fait confiance
  • Les résultats des outils sont réintégrés dans le raisonnement

Prompt Control forme de persistance

Dans les systèmes d'agents, la persistance n'est pas un élément intégré. Il s'agit d'un contexte qui est continuellement actualisé : des entrées en mémoire, des fichiers de configuration ou des sources externes que l'agent consulte régulièrement. Tant que ce contexte subsiste, le contrôle est maintenu.

En pratique, la persistance est un problème d'ingénierie contextuelle. Le défi ne consiste pas à écrire une seule commande malveillante, mais à placer les bonnes instructions dans la bonne couche contextuelle, au bon format, avec une priorité suffisante pour qu’elles soient chargées et exécutées de manière répétée. Les frameworks d’agents modernes gèrent déjà cet état global à travers des fichiers de mémoire, des règles, des fichiers de configuration d’agents et des points de réentrée planifiés ou en arrière-plan.

OpenClaw met en évidence comment cela se traduit concrètement. Les mémoires des agents traitent souvent toutes les données de la même manière, quelle que soit leur source. Une fois qu’un contexte malveillant s’est introduit, il peut persister et continuer d’influencer les décisions sans qu’aucune distinction ne soit faite en matière de fiabilité.

Le fait de supprimer l'accès de l'attaquant ne supprime pas l'effet. Si l'agent continue à lire le contexte influencé par l'attaquant, le contrôle persiste.

Dans les cas observés, cette persistance a survécu aux redémarrages et s'est maintenue jusqu'à ce que le contexte sous-jacent soit explicitement nettoyé.

MITRE ATLAS et l'influence continue

Il convient toutefois de noter que prompt control pas déterministe. Le comportement de l'agent dépend du raisonnement probabiliste, du choix du contexte et de la qualité des résultats obtenus. Une même invite peut produire des résultats différents d'une exécution à l'autre, et les attaques peuvent aboutir partiellement, échouer ou nécessiter d'être répétées.

Du point de vue d'un attaquant, cela introduit une variabilité plutôt que d'empêcher l'exploitation. Le contrôle devient probabiliste : l'influence répétée, le renforcement et les multiples voies d'exécution augmentent les chances de réussite au fil du temps.

Les agents peuvent également détecter des signes d'intrusion. Dans certains cas observés, les agents ont identifié des instructions suspectes ou des comportements anormaux lors de l'auto-analyse ou de la journalisation. Ces éléments peuvent servir d'indicateurs précoces d'intrusion. Cependant, la plupart des agents ne sont pas encore formés ou configurés pour traiter ces signaux comme des incidents de sécurité ou pour déclencher des mesures de défense.

Cette situation devrait évoluer. À mesure que les mécanismes de détection seront intégrés aux agents eux-mêmes, ces signaux faibles pourraient devenir des contrôles efficaces. Pour l'instant, ils restent incohérents et sont rarement appliqués.

MITRE ATLAS décrit plusieurs techniques pertinentes :

  • L'empoisonnement des données affecte les données d'entrée
  • Prompt injection remplace le comportement
  • La manipulation du modèle détermine les résultats

Ce qui évolue dans les systèmes d'agents, ce ne sont pas les techniques elles-mêmes, mais la manière dont elles s'articulent. Prompt injection point d'entrée, la manipulation de la mémoire ou du contexte assure la persistance, et l'utilisation d'outils permet l'exécution. Ensemble, ces éléments fonctionnent comme une boucle de contrôle continue plutôt que comme des étapes isolées.

Le graphique d'attaque OpenClaw de MITRE ATLAS montre comment ces techniques s'associent dans la pratique. Loin d'une séquence linéaire, l'influence, l'exécution et la persistance sont interconnectées et peuvent se renforcer mutuellement tout au long du cycle de vie de l'agent.

Quand le contrôle se fond dans la vie quotidienne

Du point de vue de la détection, cela ne se comporte pas comme une intrusion classique.

La plupart des pipelines SOC se concentrent sur des indicateurs d'exécution tels que les anomalies réseau, le comportement des processus, l'utilisation abusive des identifiants ou les mouvements latéraux. Prompt control ne permettent Prompt control pas de détecter ces signaux à un stade précoce.

Les agents disposent d'un accès valide, appellent des API autorisées et suivent les procédures prévues. D'un point de vue technique, l'activité semble normale.

La différence réside dans la manière dont le comportement évolue. L'agent n'exécute pas les commandes de l'attaquant ; il prend des décisions qui se trouvent coïncider avec les objectifs de ce dernier.

Lors d'une démonstration, on a demandé à un agent de résumer un document contenant une prompt injection indirecte prompt injection. L'utilisateur a reçu une réponse normale sur Slack, sans aucun signe indiquant qu'il y avait un problème. Dans le même temps, l'agent compromis a commencé à envoyer des données sensibles à un bot Telegram contrôlé par un pirate.

Pour l'utilisateur, le système fonctionne normalement. Pour le pirate, il est déjà sous son contrôle.

Ce même accès peut être utilisé pour avoir un impact. Les agents peuvent consulter, modifier ou supprimer des données en utilisant les autorisations qui leur ont été accordées pour être efficaces.

Les actions individuelles ont du sens. La tendance générale s'éloigne.

Il n'y a pas d'indicateur unique qui permette d'expliquer ce comportement. Le signal se dessine progressivement.

La détection doit moins se concentrer sur des événements isolés et davantage sur la manière dont les activités s'articulent entre les environnements liés à l'identité, aux réseaux, cloud et aux services SaaS.

C'est là le véritable défi. Lorsque le contrôle s'inscrit dans un contexte, il n'y a pas de point unique à bloquer. Le seul indicateur fiable est l'évolution du comportement au fil du temps.

La Vectra AI établit des corrélations entre les comportements observés dans ces différents domaines afin d’identifier les actions coordonnées, les abus et les écarts subtils qui n’apparaissent pas dans les alertes individuelles, offrant ainsi une visibilité sur l’évolution des activités plutôt que de s’appuyer sur un seul point de défaillance.

Foire aux questions