Wie leicht lässt sich Alignment umgehen?

Thilos Studie zeigt, dass Modelle durch gezielte Dialogstrategien in 97 Prozent der Fälle von Safeguards überlistet werden können.

Play episode from 23:11

chevron_right

Transcript

chevron_right

Transcript

Episode notes

Künstliche Intelligenz kann täuschen. Nicht, weil sie ein Bewusstsein hat und nicht aus eigenem Willen. In Experimenten hat der KI-Forscher Thilo Hagendorff von der Uni Stuttgart gezeigt, dass Sprachmodelle verstehen, wie man andere in die Irre führt. Sie platzieren Hinweise bewusst falsch, erkennen, ob jemand ihre Täuschung durchschaut, und passen ihre Strategie entsprechend an. Diese Fähigkeit ist nicht programmiert worden, sondern entsteht als Nebenprodukt der enormen Sprach- und Mustermengen, auf denen KI trainiert ist. Täuschung ist also ein ungewolltes "Talent" von Maschinen.

Was bedeutet das für uns als User und für unseren künftigen Umgang mit KI? Eva Wolfangel ist Digital-Redakteurin der ZEIT, sie schreibt seit vielen Jahren über künstliche Intelligenz und Technikethik. Im Podcast spricht sie mit Pia Rauschenberger über die Frage, ob KI tatsächlich mit List die Welt übernehmen könnte.

Redaktion: Hannah Grünewald, Constanze Kainz

Produktion und Sounddesign: Joscha Grunewald

Fragen, Kritik, Anregung? Sie erreichen uns unter wasjetzt@zeit.de.

Sie wollen mehr exklusive Audioinhalte der ZEIT hören? Für nur 4,99 Euro im Monat können Sie hier unser neues Podcastabo abschließen.

[ANZEIGE] Mehr über die Angebote unserer Werbepartnerinnen und -partner finden Sie HIER.

Mehr hören? Dann testen Sie unser Podcastabo mit Zugriff auf alle Dokupodcasts und unser Podcastarchiv. Jetzt 4 Wochen kostenlos testen. Und falls Sie uns nicht nur hören, sondern auch lesen möchten, testen Sie jetzt 4 Wochen kostenlos DIE ZEIT. Hier geht's zum Angebot.

Und hier gibt es unser Angebot für alle unter 30 Jahren.

The AI-powered Podcast Player

Save insights by tapping your headphones, chat with episodes, discover the best highlights - and more!

Get the app

Home Top podcasts Popular guests Top books