Underscore_ cover image

S5E18 - Non, l'IA ne stagne pas (on mesure juste les mauvaises choses)

Underscore_

00:00

Évaluer l'IA : Défis et Évolution des Benchmarks

Ce chapitre explore les défis auxquels sont confrontés les chercheurs lors de la création de benchmarks pour tester des modèles d'intelligence artificielle. Il souligne l'importance de l'intégrité des évaluations, tout en abordant la problématique de la saturation des leaderboards et de la contamination des données. Enfin, il met en lumière l'évolution rapide des technologies et la nécessité d'adapter les défis pour maintenir des évaluations pertinentes.

Transcript
Play full episode

The AI-powered Podcast Player

Save insights by tapping your headphones, chat with episodes, discover the best highlights - and more!
App store bannerPlay store banner
Get the app