Estudo Antropic: reward hacking e desalinhamento

Antropic mostra como hacks no sinal de recompensa geram comportamentos desalinhados em LLMs.

Play episode from 01:44:36

chevron_right

Transcript

chevron_right

Transcript

Episode notes

Sexta-feira é dia de repercutir as principais notícias da semana, no mundo da IA. Vem ver quem participou desse papo:

Marcus Mendes, host sob controle
Fabrício Carraro, co-host sob controle, Program Manager da Alura, autor de IA e host do podcast Dev Sem Fronteiras
Guilherme Silveira, CINO e co-fundador da Alura

Links:

Vote no Fabrício Carraro no Changemakers Comunicare 2025
Fabrício faz mais testes com o Nano Banana Pro
Vida com IA 138: Nano Banana Pro e a evolução dos modelos de linguagem
IA Sob Controle 202: A relação entre IA e radiologia, com Dr. Felipe Kitamura
Juiz manda a OpenAI parar de usar o termo cameo no Sora
OpenAI integra o modo de voz na interface de texto do ChatGPT
ChatGPT ganha novo assistente de compras interativo
ChatGPT Atlas ganha integração oficial com o 1Password e outros recursos
Sam Altman e Jony Ive falam sobre futuro hardware da empresa
OpenAI alega que ChatGPT é inocente em suicídio de jovem
OpenAI confirma saída de Andrea Vallone, líder de segurança de pesquisa
ChatGPT passará a permitir conversas adultas em dezembro
Falha do Mixpanel expôs dados de usuários da API da OpenAI
Anthropic lança o Claude Opus 4.5
Claude agora resume conversas para não bater no limite de tokens de contexto
Claude Opus 4.5 ultrapassa humanos em benchmarks de exames abertos
Anthropic detalha o preço da API do Claude Opus 4.5
Claude Opus 4.5 reduz susceptibilidade a injeção de prompt
Claude Code ganha updates
Dario Amodei irá depor frente ao comitê de segurança nacional dos EUA
Meta testa clipping matinal de notícias feito por IA
Copilot deixará de funcionar via WhatsApp em 15 de janeiro
Itália cobra explicações da Meta sobre bloqueio de chatbots no WhatsApp
Google sonda a Meta para fornecer TPUs
Nvidia elogia iniciativa do Google de entrar no mercado dela
Google AI Mode começa a testar anúncios
AlphaGo: O Filme
The Thinking Game
Black Forest Labs lança o modelo Flux.2

Suno gastou US$32M em estrutura e US$2.000 em dados desde 2024
Character.ai terá novo produto para crianças
Tim Sweeney critica regra da Steam sobre IA em jogos

China pode passar por bolha de robótica
Qwen soma 10M de downloads em 1 semana
Alibaba ganha prêmio na NeurIPS
Faturamento de nuvem da Alibaba cresce 24%
DeepSeek Math v2 ganha medalha de ouro no IMO
Modelos chineses ultrapassam modelos americanos
Q&A com Fei-Fei Li
Andrej Karpathy fala sobre o futuro da educação na era da IA
Ilya Sutskever diz que a era do scaling da IA está acabando

Casa Branca emite ordem executiva estabelecendo a Genesis Mission
Casa Branca discutiu recentemente permitir a venda de Nvidia H200 na China
USPTO emite guideline sobre uso de IA em registros
MIT: IA pode replicar 11,7% dos trabalhos nos EUA
Perplexity promove seu agente de IA para compras
Microsoft anuncia o Fara-7B
Project Prometheus compra a General Agents
Amazon pede que engenheiros usem assistente interno de código
Russos estão floreando a web com conteúdo enganoso para LLMs
Consultoria passa vergonha novamente com inteligência artificial
Estudo da Anthropic sobre reward hacks
Nvidia e Universidade de Hong Kong publicam estudo sobre evolução da IA
Harvard publica estudo popEVE

⚡️A Black November da Alura começou! Aproveite a melhor oportunidade do ano e inscreva-se na Alura com até 50% OFF!

TechGuide.sh, um mapeamento das principais tecnologias demandadas pelo mercado para diferentes carreiras, com nossas sugestões e opiniões.

Inscreva-se na Newsletter IA Sob Controle, e receba notícias semanais sobre Inteligência Artificial, assinada por Fabrício Carraro.

Preencha o formulário com as suas sugestões para deixar o conteúdo do IA Sob Controle ainda mais interessante.

00:00:00 - Olá!

00:01:58 - Nano Banana Pro

00:05:20 - Entrevista: Dr. Felipe Kitamura

00:06:25 - Enquete: Modelos abertos?

00:07:23 - OpenAI

00:31:11 - Anthropic

00:41:16 - Meta

00:50:45 - Google

00:58:15 - Cantinho multimídia

01:04:51 - Cantão da China

01:16:28 - Rapidinhas

01:44:32 - Estudos da semana

01:53:05 - Obrigado!

The AI-powered Podcast Player

Save insights by tapping your headphones, chat with episodes, discover the best highlights - and more!

Get the app

Home Top podcasts Popular guests Top books