L'IA est en train de s'empoisonner elle-même (et personne n'en parle)

Jan 28, 2025

Une conversation captivante avec un expert en IA explore les défis d'entraînement des modèles et l'importance cruciale des données. Le filtrage et la qualité des données sont mis en avant, ainsi que la diversité linguistique nécessaire pour de bons résultats. Les méthodes comme la génération de données synthétiques sont discutées, tout en abordant les risques de dégrader la qualité via un entraînement autonome. Les enjeux d'évaluation des contenus générés et leur impact sur la qualité des interactions en ligne ajoutent une touche fascinante à la discussion.

Ask episode

AI Snips

Chapters

Transcript

Episode notes

INSIGHT

Au-delà de Common Crawl

L'accès aux données brutes de Common Crawl ne garantit pas un bon modèle d'IA.
Le traitement et la filtration des données sont essentiels pour obtenir un jeu de données de qualité.

ANECDOTE

L'échec du filtre GitHub

Hugging Face a expérimenté l'entraînement sur des dépôts GitHub populaires (beaucoup d'étoiles).
Contre-intuitivement, cela a produit le pire modèle, démontrant que la popularité ne reflète pas la qualité du code.

ANECDOTE

Microwave Gang

Un modèle entraîné sur Reddit a généré beaucoup de "M" à cause d'un subreddit simulant un micro-ondes.
Ceci illustre comment des données inattendues peuvent influencer le comportement d'une IA.

Get the Snipd Podcast app to discover more snips from this episode

Get the app