Vida com IA

#109- Gemma 3.

Mar 20, 2025
Neste podcast, exploram-se as inovações marcantes do modelo Gemma 3 da Google. A conversa enfoca sua arquitetura avançada e a multimodalidade que o torna único. Também são discutidos os resultados em benchmarks, destacando sua eficácia e como se torna acessível como modelo open source. Uma verdadeira imersão no futuro da inteligência artificial!
Ask episode
AI Snips
Chapters
Transcript
Episode notes
INSIGHT

Gemma 3: modelo multimodal Google

  • O Gemma 3 é um modelo open source multimodal da Google com versões de 1 a 27 bilhões de parâmetros.
  • Ele suporta texto e imagem na entrada, e mais de 140 línguas na versão multimodal maior.
INSIGHT

Inovações de arquitetura Gemma 3

  • O Gemma 3 usa Grouped Query Attention para otimizar a atenção compartilhando key e value entre grupos de cabeças.
  • Usa também técnicas como RMS norm, Rotary Positional Encoding e Global Local Attention para escalar janela de contexto.
INSIGHT

Processamento de imagens Gemma 3

  • Na entrada visual, o Gemma 3 usa modelo SigLip, modificado do Clip, para criar embeddings compartilhados texto-imagem.
  • Implementaram algoritmo Pen and Scan para pré-processar imagens e reduzir artefatos ao redimensionar para 896x896.
Get the Snipd Podcast app to discover more snips from this episode
Get the app