IA Sob Controle - Inteligência Artificial

116: Entendendo o DeepSeek: o modelo chinês que virou o mundo da IA de ponta-cabeça

Jan 29, 2025

Guest

Hugo Abonizio

Hugo Abonizio, engenheiro de Machine Learning na Maritaca AI, Filipe Lauar, do podcast Vida com IA, e Mário Filho, especialista em Machine Learning, discutem a revolução causada pelo modelo DeepSeek. Eles exploram sua evolução, a importância do código aberto e as inovações nas técnicas de treinamento. Também falam sobre o conceito de 'mixture of experts' e seu impacto na eficiência. Reflexões filosóficas sobre a consciência na IA e a relevância das GPUs no processo de treinamento adicionam uma camada intrigante à conversa.

Ask episode

AI Snips

Chapters

Books

Transcript

Episode notes

INSIGHT

Treinamento de LLMs

LLMs são treinados para prever a próxima palavra em grandes conjuntos de texto.
Aprendem informações e habilidades emergentes, como resumir e avaliar sentimentos.

INSIGHT

Hardware e Treinamento

O treinamento de LLMs requer GPUs para cálculos paralelizáveis e comunicação inter-placas.
A H800, usada no DeepSeek, tem limitações de comunicação, superadas pela engenharia da equipe.

ANECDOTE

Origens Semelhantes

A DeepSeek e os experimentos de Mário Filho com análise de gráficos de velas têm origens semelhantes.
Ambas buscavam prever movimentos do mercado financeiro usando dados e computação.

Get the Snipd Podcast app to discover more snips from this episode

Get the app