

Il piège les LLMs avec des bombes à retardement — Wassim Bouaziz
On explore comment des modèles de langage peuvent être sabotés de l’intérieur via leurs données d’entraînement, jusqu’à déclencher des comportements malveillants à une date ou dans un contexte précis. Avec Wassim Bouaziz, doctorant entre Polytechnique et Meta, nous expliquons les principes des portes dérobées et des déclencheurs cachés, et ce que cela implique pour la sécurité et l’alignement des assistants IA. Vous découvrirez des pistes de détection et de mitigation, et pourquoi la conception des jeux de données peut se retourner contre vos propres systèmes.
En plateau
- Michaël de Marliave — animateur
- Matthieu Lambda — chroniqueur
- Wassim Bouaziz — invité
Pour consulter les détails de l'offre Trade Republic : https://trade.re/Underscore_Pod
L'investissement comporte un risque de perte en capital. Les intérêts et les gains financiers sont soumis aux prélèvements fiscaux et sociaux. Les performances passé es ne garantissent pas les résultats futurs. Les fonds non-cotés sont des investissements à long terme et ne devraient représenter qu’une partie du portefeuille total.
Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.