Vida com IA

#133- A diferença dos benchmarks da literatura para os problemas da indústria.

4 snips
Oct 23, 2025
Neste podcast, é debatida a discrepância entre benchmarks acadêmicos e os desafios práticos enfrentados na indústria. Filipe critica a eficácia dos datasets como o RVL CDIP, destacando sua inadequação à realidade. Ele explora problemas com documentos longos e a escassez de dados reais para treinamento, sugerindo que muitas técnicas práticas podem superar os modelos de última geração. Há também uma reflexão sobre a limitação dos dados sintéticos e a importância de OCRs comerciais robustos, além da necessidade de focar no problema real em vez de seguir modismos.
Ask episode
AI Snips
Chapters
Transcript
Episode notes
INSIGHT

Benchmarks Acadêmicos Não Refletem Indústria

  • Benchmarks acadêmicos estão muito distantes dos problemas reais da indústria.
  • Datasets balanceados e com muitas amostras por classe não refletem dados industriais variados.
ANECDOTE

Experiência Com Documentos Reais em Seguradora

  • Filipe relata trabalho na Canteve com seguradora de saúde onde documentos tinham entre 2 e 7 páginas.
  • Ele descreve classes com poucas amostras e distribuição muito diferente dos datasets públicos.
ADVICE

Valide Modelos Antes De Produção

  • Evite aplicar modelos do estado da arte sem validar se o formato e a quantidade de dados batem com seu problema.
  • Use modelos e features tradicionais (ex.: TF-IDF/TFDF) quando documentos longos e poucos exemplos exigirem soluções práticas.
Get the Snipd Podcast app to discover more snips from this episode
Get the app