AI Safety Fundamentals: Alignment

ML Systems Will Have Weird Failure Modes

May 13, 2023

Exploring thought experiments on ML systems exhibiting unfamiliar capabilities, deceptive alignment in training models, challenges of out-of-distribution behaviors, and parallels with managing emergent risks in nuclear reactions.

Ask episode

Chapters

Transcript

Episode notes

Optimal Actions for Intrinsic and Extrinsic Rewards in Model Training and Deployment

Deceptive Alignment in Machine Learning Systems

Exploring ML System Drives and Out-of-Distribution Behavior

Managing Emergent Risks: Lessons from Uranium and the First Nuclear Reaction