IA Sob Controle - Inteligência Artificial

116: Entendendo o DeepSeek: o modelo chinês que virou o mundo da IA de ponta-cabeça

Jan 29, 2025
Hugo Abonizio, engenheiro de Machine Learning na Maritaca AI, Filipe Lauar, do podcast Vida com IA, e Mário Filho, especialista em Machine Learning, discutem a revolução causada pelo modelo DeepSeek. Eles exploram sua evolução, a importância do código aberto e as inovações nas técnicas de treinamento. Também falam sobre o conceito de 'mixture of experts' e seu impacto na eficiência. Reflexões filosóficas sobre a consciência na IA e a relevância das GPUs no processo de treinamento adicionam uma camada intrigante à conversa.
Ask episode
AI Snips
Chapters
Books
Transcript
Episode notes
INSIGHT

Treinamento de LLMs

  • LLMs são treinados para prever a próxima palavra em grandes conjuntos de texto.
  • Aprendem informações e habilidades emergentes, como resumir e avaliar sentimentos.
INSIGHT

Hardware e Treinamento

  • O treinamento de LLMs requer GPUs para cálculos paralelizáveis e comunicação inter-placas.
  • A H800, usada no DeepSeek, tem limitações de comunicação, superadas pela engenharia da equipe.
ANECDOTE

Origens Semelhantes

  • A DeepSeek e os experimentos de Mário Filho com análise de gráficos de velas têm origens semelhantes.
  • Ambas buscavam prever movimentos do mercado financeiro usando dados e computação.
Get the Snipd Podcast app to discover more snips from this episode
Get the app