

#129- Solução vencedora do Kaggle com Carlos Eduardo.
Sep 18, 2025
Neste episódio, Carlos Eduardo Gabriel Santos, VP Senior Architect no Citi e vencedor do desafio do Kaggle, compartilha insights valiosos sobre sua solução de machine learning. Ele desvenda a complexidade da arquitetura BERT em português e sua experiência com bigrams e embeddings. Além disso, Carlos discute como implementou um modelo em ensemble utilizando K-fold e a importância do EDA nos seus experimentos. Ele também aborda os desafios que enfrenta no Citi e as lições aprendidas em prototipagem e iterações.
AI Snips
Chapters
Transcript
Episode notes
Descrição Do Desafio Kaggle
- Carlos Eduardo explica o desafio do Kaggle: prever sentimento (positivo/negativo) em feedbacks de e-commerce usando texto e variáveis adicionais.
- Ele descreve o dataset, transformou estrelas em binário e selecionou variáveis específicas para a competição.
BERT + Features Manuais
- A solução final combinou embeddings BERT com features manuais e uma rede neural com saída sigmoid.
- Carlos usou ensemble de modelos e redução progressiva de neurônios para evitar redes excessivamente densas.
Crie Features Simples e Diretas
- Crie features baseadas em bigramas de sentimento e conte sinais como exclamações e tamanho do texto.
- Essas features simples, junto ao embedding semântico, geraram ganho significativo no resultado.