IA Sob Controle - Inteligência Artificial

194: Desenvolvendo o Gigaverbo, o maior banco de dados em português para IA, com Nicholas Kluge

22 snips

Oct 29, 2025

Nicholas Kluge, pesquisador em IA na Universidade de Bonn, fala sobre o interessante desenvolvimento do Gigaverbo, um robusto banco de dados em português. Ele discute a importância de criar datasets específicos para o idioma e as limitações dos modelos multilíngues. Kluge explica os métodos de filtragem de conteúdo e a necessidade de abrir esses dados para a comunidade acadêmica. Ele também oferece insights sobre o treinamento de modelos de linguagem e o futuro das versões do Gigaverbo, incluindo dados sintéticos focados em matemática e programação.

Ask episode

AI Snips

Chapters

Transcript

Episode notes

INSIGHT

Treinamento Vai Além do Idioma

Grande parte do desenvolvimento de modelos não depende de entender a língua; envolve treinamento, avaliação e métricas técnicas.
Nicholas trabalhou com colegas que não falavam português e ainda contribuem porque focam em resultados numéricos.

ADVICE

Filtre Dados Com Heurísticas e DataTrove

Use dumps do Common Crawl e aplique heurísticas (pontuação, números, bytes) para filtrar língua e qualidade.
Consulte bibliotecas como DataTrove para reproduzir filtros e acessar dumps automaticamente.

ANECDOTE

Reconhecimento De Projetos Brasileiros

Nicholas reconhece trabalhos brasileiros anteriores, como o CrawlPT do Eduardo Garcia, e elogia o esforço local.
Ele atribui parte do destaque do Gigaverbo a divulgação e circunstâncias, não só à novidade.

Get the Snipd Podcast app to discover more snips from this episode

Get the app