

160: Dados sintéticos no treinamento do Microsoft Phi-4, com Marah Abdin
Jul 2, 2025
Marah Abdin, Pesquisadora Líder de Dados Sintéticos da Microsoft, embarca em uma conversa fascinante sobre o treinamento do modelo Phi-4. Ela discute a importância dos dados sintéticos e como eles impactam a eficiência das interações em IA. A análise da necessidade de filtrar dados prejudiciais e a comparação com o GPT-4 trazem à tona questões éticas cruciais. Além disso, Marah oferece insights sobre carreiras em IA, ressaltando a importância de habilidades contínuas em tecnologia.
AI Snips
Chapters
Transcript
Episode notes
Open Source x Código Fechado
- Modelos open source e fechados têm prós e contras relevantes. - Código aberto é útil para pesquisa e avanço, desde que o desempenho seja adequado.
Modelos Open Source como ponto de partida
- Modelos open source são ponto de partida para empresas criarem seus próprios modelos. - A popularização técnico-científica dos LLMs vai melhorar com acesso aberto.
Fase Fine-tuning e Aprendizado por Reforço
- O Fine-tuning supervisionado prepara o modelo base para aprendizado por reforço. - Reforço ativa o raciocínio já existente, não ensina o modelo do zero.