

#109- Gemma 3.
Mar 20, 2025
Neste podcast, exploram-se as inovações marcantes do modelo Gemma 3 da Google. A conversa enfoca sua arquitetura avançada e a multimodalidade que o torna único. Também são discutidos os resultados em benchmarks, destacando sua eficácia e como se torna acessível como modelo open source. Uma verdadeira imersão no futuro da inteligência artificial!
AI Snips
Chapters
Transcript
Episode notes
Gemma 3: modelo multimodal Google
- O Gemma 3 é um modelo open source multimodal da Google com versões de 1 a 27 bilhões de parâmetros.
- Ele suporta texto e imagem na entrada, e mais de 140 línguas na versão multimodal maior.
Inovações de arquitetura Gemma 3
- O Gemma 3 usa Grouped Query Attention para otimizar a atenção compartilhando key e value entre grupos de cabeças.
- Usa também técnicas como RMS norm, Rotary Positional Encoding e Global Local Attention para escalar janela de contexto.
Processamento de imagens Gemma 3
- Na entrada visual, o Gemma 3 usa modelo SigLip, modificado do Clip, para criar embeddings compartilhados texto-imagem.
- Implementaram algoritmo Pen and Scan para pré-processar imagens e reduzir artefatos ao redimensionar para 896x896.