Künstliche Intelligenz braucht massenhaft Daten fürs Training. Weil die verfügbaren Texte, Bilder und Videos begrenzt sind, nutzen Entwickler von Sprachmodellen zunehmend Datenfutter, das von KI erzeugt wurden. Doch das ist riskant. Moritz Metz und Maximilian Brose schauen sich an, was passiert, wenn KI-Modelle aufgrund synthetischer Daten kollabieren und ob es Lösungen für das Problem gibt.
Das erwartet euch in dieser Folge:(00:40) Der wortgewandte Sam Altman von OpenAI kommt ins Stocken
(02:46) Wozu synthetische Daten beim Training von KI-Systemen gut sind
(09:40) Zwei Brüder, ein Lunch und die neue Gefahr für große Sprachmodelle
(14:20) Warum synthetische Daten Modelle vergessen lassen, dass es braune Schafe gibt
(22:02) Was helfen könnte gegen die Schlange, die sich selber frisst
(27:41) Frage an die Hörer: Wie viele Anspielungen auf Max und Moritz waren in der Folge?
Unsere Gesprächspartner in dieser Folge:- Ilia Shumailov, Computerwissenschaftler, Christ Church College, University of Oxford
- Phillip Hennig, Professor für die Methoden des Maschinellen Lernens, Universität Tübingen
- Julia Kempe, Professorin für Informatik, Mathematik und Datenwissenschaften, New York University
Weiterführende Links: Mehr zum Thema in der Deutschlandfunk App:Wenn Euch diese Episode gefallen hat, abonniert uns und empfehlt uns gerne weiter. Für Kritik, Fragen und Anregungen aller Art schickt uns eine E-Mail an
kiverstehen@deutschlandfunk.de oder eine Sprachnachricht per Signal oder Whatsapp an 0152-59529753.
Noch mehr spannende Podcasts gibt’s in der Deutschlandfunk App. Zu finden in den App-Stores von
Apple und
Google.
Folgt dem Deutschlandfunk auch auf
Instagram oder
Facebook.