Il piège les LLMs avec des bombes à retardement — Wassim Bouaziz

Jul 14, 2025

28:30

forum

Ask episode

view_agenda

Chapters

auto_awesome

Transcript

info_circle

Episode notes

On explore comment des modèles de langage peuvent être sabotés de l’intérieur via leurs données d’entraînement, jusqu’à déclencher des comportements malveillants à une date ou dans un contexte précis. Avec Wassim Bouaziz, doctorant entre Polytechnique et Meta, nous expliquons les principes des portes dérobées et des déclencheurs cachés, et ce que cela implique pour la sécurité et l’alignement des assistants IA. Vous découvrirez des pistes de détection et de mitigation, et pourquoi la conception des jeux de données peut se retourner contre vos propres systèmes.

En plateau

Michaël de Marliave — animateur
Matthieu Lambda — chroniqueur
Wassim Bouaziz — invité

Pour consulter les détails de l'offre Trade Republic : https://trade.re/Underscore_Pod

L'investissement comporte un risque de perte en capital. Les intérêts et les gains financiers sont soumis aux prélèvements fiscaux et sociaux. Les performances passé es ne garantissent pas les résultats futurs. Les fonds non-cotés sont des investissements à long terme et ne devraient représenter qu’une partie du portefeuille total.

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Home Top podcasts Popular guests Top books