Intro

In diesem Kapitel wird der innovative Benchmark 'Humanity's Last Exam' präsentiert, der die Grenzen der leistungsstärksten KI-Modelle herausfordert. Entwickelt von Scale AI und dem Center for AI Safety, ist das Ziel des Tests, sicherzustellen, dass selbst die besten KI-Modelle nur 10% der Fragen korrekt beantworten können.

Transcript

Play full episode

The AI-powered Podcast Player

Save insights by tapping your headphones, chat with episodes, discover the best highlights - and more!

Get the app