
Vida com IA #133- A diferença dos benchmarks da literatura para os problemas da indústria.
4 snips
Oct 23, 2025 Neste podcast, é debatida a discrepância entre benchmarks acadêmicos e os desafios práticos enfrentados na indústria. Filipe critica a eficácia dos datasets como o RVL CDIP, destacando sua inadequação à realidade. Ele explora problemas com documentos longos e a escassez de dados reais para treinamento, sugerindo que muitas técnicas práticas podem superar os modelos de última geração. Há também uma reflexão sobre a limitação dos dados sintéticos e a importância de OCRs comerciais robustos, além da necessidade de focar no problema real em vez de seguir modismos.
AI Snips
Chapters
Transcript
Episode notes
Benchmarks Acadêmicos Não Refletem Indústria
- Benchmarks acadêmicos estão muito distantes dos problemas reais da indústria.
- Datasets balanceados e com muitas amostras por classe não refletem dados industriais variados.
Experiência Com Documentos Reais em Seguradora
- Filipe relata trabalho na Canteve com seguradora de saúde onde documentos tinham entre 2 e 7 páginas.
- Ele descreve classes com poucas amostras e distribuição muito diferente dos datasets públicos.
Valide Modelos Antes De Produção
- Evite aplicar modelos do estado da arte sem validar se o formato e a quantidade de dados batem com seu problema.
- Use modelos e features tradicionais (ex.: TF-IDF/TFDF) quando documentos longos e poucos exemplos exigirem soluções práticas.
