#109- Gemma 3.

Mar 20, 2025

Neste podcast, exploram-se as inovações marcantes do modelo Gemma 3 da Google. A conversa enfoca sua arquitetura avançada e a multimodalidade que o torna único. Também são discutidos os resultados em benchmarks, destacando sua eficácia e como se torna acessível como modelo open source. Uma verdadeira imersão no futuro da inteligência artificial!

Ask episode

AI Snips

Chapters

Transcript

Episode notes

INSIGHT

Gemma 3: modelo multimodal Google

O Gemma 3 é um modelo open source multimodal da Google com versões de 1 a 27 bilhões de parâmetros.
Ele suporta texto e imagem na entrada, e mais de 140 línguas na versão multimodal maior.

INSIGHT

Inovações de arquitetura Gemma 3

O Gemma 3 usa Grouped Query Attention para otimizar a atenção compartilhando key e value entre grupos de cabeças.
Usa também técnicas como RMS norm, Rotary Positional Encoding e Global Local Attention para escalar janela de contexto.

INSIGHT

Processamento de imagens Gemma 3

Na entrada visual, o Gemma 3 usa modelo SigLip, modificado do Clip, para criar embeddings compartilhados texto-imagem.
Implementaram algoritmo Pen and Scan para pré-processar imagens e reduzir artefatos ao redimensionar para 896x896.

Get the Snipd Podcast app to discover more snips from this episode