

116: Entendendo o DeepSeek: o modelo chinês que virou o mundo da IA de ponta-cabeça
Jan 29, 2025
Hugo Abonizio, engenheiro de Machine Learning na Maritaca AI, Filipe Lauar, do podcast Vida com IA, e Mário Filho, especialista em Machine Learning, discutem a revolução causada pelo modelo DeepSeek. Eles exploram sua evolução, a importância do código aberto e as inovações nas técnicas de treinamento. Também falam sobre o conceito de 'mixture of experts' e seu impacto na eficiência. Reflexões filosóficas sobre a consciência na IA e a relevância das GPUs no processo de treinamento adicionam uma camada intrigante à conversa.
AI Snips
Chapters
Books
Transcript
Episode notes
Treinamento de LLMs
- LLMs são treinados para prever a próxima palavra em grandes conjuntos de texto.
- Aprendem informações e habilidades emergentes, como resumir e avaliar sentimentos.
Hardware e Treinamento
- O treinamento de LLMs requer GPUs para cálculos paralelizáveis e comunicação inter-placas.
- A H800, usada no DeepSeek, tem limitações de comunicação, superadas pela engenharia da equipe.
Origens Semelhantes
- A DeepSeek e os experimentos de Mário Filho com análise de gráficos de velas têm origens semelhantes.
- Ambas buscavam prever movimentos do mercado financeiro usando dados e computação.