

Ep 16 - Juan Manuel Pérez (Universidad de Buenos Aires) - NLP para Twitter
*Juan habla no representando a ninguna institución en particular.
*Toda la información aquí descrita es mi interpretación y no necesariamente lo que Juan quiso decir.
Juan Manuel es candidato a doctorado en el laboratorio de Inteligencia Artificial aplicada en el Instituto de Ciencias de Computación en la Universidad de Buenos Aires (UBA). Fue docente en la UBA en el área de ciencias exactas. Es especialista en procesamiento de lenguaje natural (NLP). Entre sus creaciones más interesantes está en modelo Robertuito que ha sido un éxito en @huggingface.
Twitter: @perezjotaeme Link a Robertuito
¿Qué se necesita para hacer un post doctorado y por qué es bueno hacerlo?
- Primero se necesita haber hecho un doctorado.
- La idea de un post doctorado es proponer un proyecto de investigación que aporte significativamente a un área en específico. En este caso al procesamiento de lenguaje natural.
¿De qué trata el modelo Robertuito?
- Robertuito comenzó como una tesis de licenciatura sobre discurso de odio en las redes sociales.
- La idea fue desarrollar una librería en español centrada en tareas de análisis de opinión, sentimientos emociones y discursos de odio que fuera una herramienta para la comunidad. La librería se llamó PySentimiento.
- A finales de 2018 salió a la luz BERT, un gran logro en el área NLP. Este modelo fue entrenado en muchas áreas en idioma inglés. En español no se tiene la misma cantidad de recursos. Es por ello que decidió entrenar un modelo desde 0 y en español sobre textos de twitter.
- Fue hecho para generar herramientas que posibiliten a científicos sociales que no manejen Python realizar preguntas a Twitter en español.
- Robertuito puede emplearse para clasificar el sentimiento o lenguaje de odio de los tweets.
Recomendaciones para hispanohablantes que quieren aprender NLP:
- Estudiar constantemente.
- Tener tolerancia a la frustración porque el campo del NLP es un área muy compleja.
- Aprender frameworks como Pytorch.
- En Coursera y Hugging Face pueden encontrar material muy bueno y accesible.
- Aprender mucha matemática y estadística. Son herramientas complejas pero importantes dentro del NLP.