Was jetzt? cover image

Spezial: Wenn Maschinen uns anlügen

Was jetzt?

00:00

Wie leicht lässt sich Alignment umgehen?

Thilos Studie zeigt, dass Modelle durch gezielte Dialogstrategien in 97 Prozent der Fälle von Safeguards überlistet werden können.

Transcript
Play full episode

The AI-powered Podcast Player

Save insights by tapping your headphones, chat with episodes, discover the best highlights - and more!
App store bannerPlay store banner
Get the app