
IA Sob Controle - Inteligência Artificial 194: Desenvolvendo o Gigaverbo, o maior banco de dados em português para IA, com Nicholas Kluge
11 snips
Oct 29, 2025 Nicholas Kluge, pesquisador em IA na Universidade de Bonn, fala sobre o interessante desenvolvimento do Gigaverbo, um robusto banco de dados em português. Ele discute a importância de criar datasets específicos para o idioma e as limitações dos modelos multilíngues. Kluge explica os métodos de filtragem de conteúdo e a necessidade de abrir esses dados para a comunidade acadêmica. Ele também oferece insights sobre o treinamento de modelos de linguagem e o futuro das versões do Gigaverbo, incluindo dados sintéticos focados em matemática e programação.
AI Snips
Chapters
Transcript
Episode notes
Treinamento Vai Além do Idioma
- Grande parte do desenvolvimento de modelos não depende de entender a língua; envolve treinamento, avaliação e métricas técnicas.
- Nicholas trabalhou com colegas que não falavam português e ainda contribuem porque focam em resultados numéricos.
Filtre Dados Com Heurísticas e DataTrove
- Use dumps do Common Crawl e aplique heurísticas (pontuação, números, bytes) para filtrar língua e qualidade.
- Consulte bibliotecas como DataTrove para reproduzir filtros e acessar dumps automaticamente.
Reconhecimento De Projetos Brasileiros
- Nicholas reconhece trabalhos brasileiros anteriores, como o CrawlPT do Eduardo Garcia, e elogia o esforço local.
- Ele atribui parte do destaque do Gigaverbo a divulgação e circunstâncias, não só à novidade.
