IA Sob Controle - Inteligência Artificial

194: Desenvolvendo o Gigaverbo, o maior banco de dados em português para IA, com Nicholas Kluge

11 snips
Oct 29, 2025
Nicholas Kluge, pesquisador em IA na Universidade de Bonn, fala sobre o interessante desenvolvimento do Gigaverbo, um robusto banco de dados em português. Ele discute a importância de criar datasets específicos para o idioma e as limitações dos modelos multilíngues. Kluge explica os métodos de filtragem de conteúdo e a necessidade de abrir esses dados para a comunidade acadêmica. Ele também oferece insights sobre o treinamento de modelos de linguagem e o futuro das versões do Gigaverbo, incluindo dados sintéticos focados em matemática e programação.
Ask episode
AI Snips
Chapters
Transcript
Episode notes
INSIGHT

Treinamento Vai Além do Idioma

  • Grande parte do desenvolvimento de modelos não depende de entender a língua; envolve treinamento, avaliação e métricas técnicas.
  • Nicholas trabalhou com colegas que não falavam português e ainda contribuem porque focam em resultados numéricos.
ADVICE

Filtre Dados Com Heurísticas e DataTrove

  • Use dumps do Common Crawl e aplique heurísticas (pontuação, números, bytes) para filtrar língua e qualidade.
  • Consulte bibliotecas como DataTrove para reproduzir filtros e acessar dumps automaticamente.
ANECDOTE

Reconhecimento De Projetos Brasileiros

  • Nicholas reconhece trabalhos brasileiros anteriores, como o CrawlPT do Eduardo Garcia, e elogia o esforço local.
  • Ele atribui parte do destaque do Gigaverbo a divulgação e circunstâncias, não só à novidade.
Get the Snipd Podcast app to discover more snips from this episode
Get the app