Desafios na Avaliação de Modelos de Linguagem e Questões Éticas nos Benchmarks

Os participantes discutem a complexidade da avaliação de Large Language Models, destacando a imaturidade dos modelos e a validade dos benchmarks existentes. O capítulo também aborda a controvérsia em torno do desempenho de um novo modelo no teste ARC e as implicações éticas do uso de dados de treinamento.

Play episode from 14:36

Transcript

The AI-powered Podcast Player

Save insights by tapping your headphones, chat with episodes, discover the best highlights - and more!

Get the app