

Extra- Attention is all you need com vídeo e lançamento do curso.
Mar 6, 2025
Neste podcast, a aula inaugural de um curso de Deep Learning é apresentada, destacando o papel inovador do modelo Transformer. O conceito do mecanismo de atenção é explorado, mostrando como isso transforma a abordagem em relação a RNNs e LSTMs. O anfitrião também compartilha detalhes sobre a estrutura do curso, que contará com aulas mensais a partir de março de 2025. É uma oportunidade única para entender a evolução dos modelos de linguagem e suas aplicações práticas.
AI Snips
Chapters
Transcript
Episode notes
Mecanismo de Atenção evita esquecimento
- O mecanismo de atenção permite prestar atenção a todas as partes do texto igualmente.\n- Isso resolve parcialmente o problema de "esquecimento" das redes LSTM.
Transformer permite paralelização e escala
- O Transformer eliminou a necessidade da LSTM usando atenção pura.\n- Essa abordagem permite paralelizar o treinamento e escalar para grandes quantidades de dados.
Encoding posicional via seno e cosseno
- Apos tokenizar o texto, é essencial incorporar a posição dos tokens.\n- O paper original propôs encoding posicional via funções seno e cosseno para isso.