

L'IA est en train de s'empoisonner elle-même (et personne n'en parle)
Jan 28, 2025
Une conversation captivante avec un expert en IA explore les défis d'entraînement des modèles et l'importance cruciale des données. Le filtrage et la qualité des données sont mis en avant, ainsi que la diversité linguistique nécessaire pour de bons résultats. Les méthodes comme la génération de données synthétiques sont discutées, tout en abordant les risques de dégrader la qualité via un entraînement autonome. Les enjeux d'évaluation des contenus générés et leur impact sur la qualité des interactions en ligne ajoutent une touche fascinante à la discussion.
AI Snips
Chapters
Transcript
Episode notes
Au-delà de Common Crawl
- L'accès aux données brutes de Common Crawl ne garantit pas un bon modèle d'IA.
- Le traitement et la filtration des données sont essentiels pour obtenir un jeu de données de qualité.
L'échec du filtre GitHub
- Hugging Face a expérimenté l'entraînement sur des dépôts GitHub populaires (beaucoup d'étoiles).
- Contre-intuitivement, cela a produit le pire modèle, démontrant que la popularité ne reflète pas la qualité du code.
Microwave Gang
- Un modèle entraîné sur Reddit a généré beaucoup de "M" à cause d'un subreddit simulant un micro-ondes.
- Ceci illustre comment des données inattendues peuvent influencer le comportement d'une IA.