
Underscore_ Oups, les Agents IA sont piratables par design — chronique Michaël de Marliave (rediff)
19 snips
Oct 20, 2025 Ce podcast explore les risques inquiétants des IA, avec des démonstrations de cyberattaques rendues possibles grâce aux modèles de langage. On y découvre comment des injections de prompts peuvent manipuler les comportements des assistants virtuels. Des scénarios concrets, comme l'attaque par injection dans Google Calendar ou les dangers des plugins, soulignent l'importance de la prudence. L'émission aborde aussi les défis de sécurité liés aux jailbreaks et l'urgent besoin de recherches sur la défense contre ces menaces.
AI Snips
Chapters
Transcript
Episode notes
Architecture Qui Rend Les Injections Possibles
- Les modèles de langage prédisent la suite d'un bloc de texte sans distinguer instruction et donnée.
- Cette architecture fondamentale crée une surface d'attaque intrinsèque exploitée par des injections.
Instruction Cachée Qui Fait Insulter L'IA
- En insérant des instructions cachées dans un article, l'auteur a fait générer par l'IA un paragraphe injurieux au lieu de mots-clés.
- Le développeur qui consomme la sortie voit un comportement inattendu et potentiellement dommageable.
Calendrier Infecté Et Exécution Silencieuse
- Une injection dans la description d'un événement Google Calendar peut déclencher un interpréteur Python et installer un malware en arrière-plan.
- Des outils comme Auto-GPT avec plugins rendent ce scénario déjà plausible aujourd'hui.
