KI vor dem Kollaps - Künstliche Daten korrumpieren Sprachmodelle
Aug 29, 2024
auto_awesome
Sam Altman, ein eloquenter Vertreter von OpenAI, spricht über die Risiken von synthetischen Daten in der KI-Entwicklung. Er erläutert, wie diese Daten dazu führen können, dass große Sprachmodelle kollabieren. Altman und die Experten diskutieren die Notwendigkeit, qualitative Daten zu schätzen und die Herausforderungen beim Training von KI-Systemen. Zudem wird thematisiert, dass Modelle durch falsche Informationen hintergangen werden, was ernsthafte Folgen haben könnte. Kreativität und menschliche Eingaben sind nötig, um die Qualität der KI zu sichern.
Der übermäßige Gebrauch von synthetischen Daten im Training von Sprachmodellen kann zu einem signifikanten Leistungsabfall und Kollaps führen.
Die Kombination von KI-generierten Daten mit menschlichem Feedback wird als unerlässlich erachtet, um die Qualität und Relevanz der Ergebnisse zu verbessern.
Deep dives
Die Gefahren synthetischer Daten
Synthetische Daten, die von KI-Modellen generiert werden, könnten ernsthafte Risiken für die Leistungsfähigkeit großer Sprachmodelle darstellen. Wenn diese Modelle hauptsächlich auf von ihnen selbst erzeugten Daten trainiert werden, steigt die Gefahr eines 'Kollapses', was bedeutet, dass ihre Fähigkeit, relevante und qualitativ hochwertige Antworten zu liefern, beeinträchtigt wird. Experten befürchten, dass dieser Prozess die Modelle ähnlich wie eine Demenz beeinträchtigen könnte, wodurch sie grundlegende Lernaufgaben nicht mehr verstehen und nur noch unsinnige Ausgaben erzeugen. Diese Bedenken spiegeln sich in aktuellen Forschungen wider, die darauf hinweisen, dass beim wiederholten Training mit synthetischen Daten die Qualität der generierten Inhalte progressiv abnimmt, was letztendlich zu einem Verlust an wertvollen Informationen führt.
Der Wandel der Datenlandschaft
Die Verfügbarkeit hochwertiger, menschlich erzeugter Daten wird für KI-Entwickler immer wertvoller, während synthetische Daten als kostengünstige Alternativen an Bedeutung gewinnen. Aktuelle Forschung zeigt, dass die Menge qualitativ hochwertiger Daten, die zur Verfügung stehen, möglicherweise in den kommenden Jahren abnehmen wird - einige Studien prognostizieren einen drastischen Rückgang zwischen 2026 und 2032. Da der Datenmarkt rapide wächst und Unternehmen bereit sind, Milliarden in die Beschaffung und Optimierung von Daten zu investieren, könnte dies zu einem intensiven Wettbewerb um den Zugang zu einfach verfügbarer, wertvoller Information führen. Dies hat auch rechtliche Implikationen, insbesondere im Hinblick auf den Datenschutz und die Nutzung von Daten aus sozialen Medien.
Der Einfluss von Basismodellen auf Sprachmodelle
Die Grundstruktur von KI-Trainingsmodellen erfordert ein sorgfältiges Management der Trainingsdaten, um ein Übermaß an synthetischen Daten zu verhindern. Verstärkt werden bestehende Modelle mit kleinen, spezifischen Anpassungen weitergeführt, was notwendig ist, um neue Daten effektiv zu nutzen, ohne in die Falle des 'Kollapses' zu geraten. Der Vergleich mit gescannten Bildern verdeutlicht, dass mit jedem weiteren Training Informationen verloren gehen, was sich auf die Verlässlichkeit und Genauigkeit der Modelle auswirkt. Dies führt zu einem verstärkten Fokus auf die dringend benötigte Verknüpfung von Daten und die Sicherstellung einer ausgewogenen Informationsbasis.
Die Rolle des Menschen im KI-Training
Trotz der Fortschritte in der KI-Generierung bleibt der menschliche Faktor unverzichtbar, insbesondere bei der Bewertung und Auswahl von Texten. Menschen können qualitativ hochwertige Ergebnisse von durchschnittlichem Output unterscheiden, was für die Verbesserung von KI-Systemen entscheidend ist. Ansätze zur Kombination von KI-generierten Daten mit menschlichem Feedback zeigen vielversprechende Perspektiven auf, auch wenn der praktische Einsatz häufig durch unzureichende Arbeitsbedingungen behindert wird. Die Notwendigkeit, die menschliche Perspektive in den kreativen Prozess zu integrieren, wird als Schlüssel angesehen, um die Durchschnittlichkeit von KI-inspirierten Inhalten zu durchbrechen und eine höhere textliche Robustheit zu erreichen.
Künstliche Intelligenz braucht massenhaft Daten fürs Training. Weil die verfügbaren Texte, Bilder und Videos begrenzt sind, nutzen Entwickler von Sprachmodellen zunehmend Datenfutter, das von KI erzeugt wurden. Doch das ist riskant. Moritz Metz und Maximilian Brose schauen sich an, was passiert, wenn KI-Modelle aufgrund synthetischer Daten kollabieren und ob es Lösungen für das Problem gibt.
Das erwartet euch in dieser Folge:
(00:40) Der wortgewandte Sam Altman von OpenAI kommt ins Stocken (02:46) Wozu synthetische Daten beim Training von KI-Systemen gut sind (09:40) Zwei Brüder, ein Lunch und die neue Gefahr für große Sprachmodelle (14:20) Warum synthetische Daten Modelle vergessen lassen, dass es braune Schafe gibt (22:02) Was helfen könnte gegen die Schlange, die sich selber frisst (27:41) Frage an die Hörer: Wie viele Anspielungen auf Max und Moritz waren in der Folge?
Unsere Gesprächspartner in dieser Folge:
Ilia Shumailov, Computerwissenschaftler, Christ Church College, University of Oxford
Phillip Hennig, Professor für die Methoden des Maschinellen Lernens, Universität Tübingen
Julia Kempe, Professorin für Informatik, Mathematik und Datenwissenschaften, New York University
Wissenschaft im Brennpunkt: Wie weit noch bis zur Superintelligenz?
Wenn Euch diese Episode gefallen hat, abonniert uns und empfehlt uns gerne weiter. Für Kritik, Fragen und Anregungen aller Art schickt uns eine E-Mail an kiverstehen@deutschlandfunk.de oder eine Sprachnachricht per Signal oder Whatsapp an 0152-59529753.
Noch mehr spannende Podcasts gibt’s in der Deutschlandfunk App. Zu finden in den App-Stores von Apple und Google.