
Vida com IA #136- Reinforcement Learning.
Nov 13, 2025
Neste programa, Filipe mergulha no aprendizado por reforço, uma área essencial da IA. Ele explica conceitos fundamentais como agente, ambiente e as ações usando um divertido exemplo de um ratinho em um labirinto. O apresentador discute as recompensas positivas e negativas, traçando um paralelo com o aprendizado em bebês e animais. A diferença entre exploração e explotação também ganha destaque, ilustrando as escolhas que fazemos no dia a dia. As semelhanças entre o aprendizado humano e o aprendizado por reforço são abordadas de maneira cativante.
AI Snips
Chapters
Transcript
Episode notes
Reforço Como Base Dos LLMs
- Reinforcement Learning é a subárea que treina agentes por interações com ambiente e recompensas.
- Essa base é crucial para o pós-treinamento de LLMs, como no RLHF e PPO.
Rato No Labirinto
- Filipe usa o exemplo de um rato num labirinto para explicar estado, ação e transição de estados.
- Cada ação gera uma recompensa que orienta o aprendizado do agente ao longo do tempo.
Agente É A Política
- Agente também é chamado de política (policy) que decide ações a partir das observações.
- Ambiente fornece feedback que guia a otimização dessa política.
