AF - Analysing Adversarial Attacks with Linear Probing by Yoann Poupart

Jun 17, 2024

Researcher Yoann Poupart discusses using linear probing to detect adversarial attacks in machine learning models. They explore modifications in concept probes in later layers to identify attacks, showcasing experiments with fruit images. Future perspectives include addressing interpretability limitations and potential biases, emphasizing the importance of linear probes in defending against adversarial attacks.

Ask episode

Chapters

Transcript

Episode notes

Intro

00:00 • 4min

Exploration of Binary Concepts and Adversarial Attacks in Machine Learning

03:52 • 4min

Analyzing Adversarial Attacks with Linear Probing and Future Perspectives

07:50 • 5min