
S5E18 - Non, l'IA ne stagne pas (on mesure juste les mauvaises choses)
Underscore_
00:00
Évaluer l'IA : Défis et Évolution des Benchmarks
Ce chapitre explore les défis auxquels sont confrontés les chercheurs lors de la création de benchmarks pour tester des modèles d'intelligence artificielle. Il souligne l'importance de l'intégrité des évaluations, tout en abordant la problématique de la saturation des leaderboards et de la contamination des données. Enfin, il met en lumière l'évolution rapide des technologies et la nécessité d'adapter les défis pour maintenir des évaluations pertinentes.
Transcript
Play full episode