
S5E18 - Non, l'IA ne stagne pas (on mesure juste les mauvaises choses)
Underscore_
00:00
Évolution des Benchmarks en IA
Ce chapitre explore l'évolution des méthodes d'évaluation des modèles d'intelligence artificielle, en se concentrant sur des benchmarks adaptés à des contextes spécifiques tels que DAPSTEP et Gaia. Les intervenants soulignent l'urgence de mesurer la productivité des modèles dans des scénarios réels et discutent des défis liés aux questions complexes posées lors des évaluations. Ils mettent également en avant l'importance de créer des benchmarks personnalisés pour répondre aux besoins spécifiques des entreprises et des domaines d'analyse.
Transcript
Play full episode