
L'IA aujourd'hui épisode du 2026-01-10
L'IA aujourd'hui !
00:00
Lancement de ChatGPT Santé et risques d'hallucinations
Michel aborde ChatGPT Santé, la connexion aux dossiers médicaux et les enjeux d'hallucinations et de confidentialité.
Play episode from 04:17
Transcript
Transcript
Episode notes
Bonjour et bienvenue dans le podcast de l'IA par l’IA qui vous permet de rester à la page !Aujourd’hui : Microsoft veut en finir avec “IA slop”, Gmail teste “AI Inbox”, fiabilité du raisonnement médical, domination des modèles ouverts chinois, lancement de ChatGPT Santé, virage stratégique des LLM vers les agents et les modèles d’action, et montée des risques cyber avec des agents IA.Microsoft ouvre le bal. Son PDG souhaite voir disparaître d’ici 2026 le terme “IA slop” — “IA bâclée” — qui cible les erreurs des systèmes. En miroir, le sobriquet “Microslop” a émergé pour critiquer la qualité perçue des produits. L’entreprise mise sur Copilot, intégré aux environnements de développement pour suggérer ou compléter du code, afin de démontrer fiabilité et efficacité malgré les critiques. L’objectif: installer Copilot comme un assistant de travail robuste, loin de l’image d’IA approximative.Chez Google, Gmail teste “AI Inbox” en bêta. L’outil lit chaque message et propose des tâches à faire et des sujets clés: reprogrammer un rendez-vous chez le dentiste, répondre à l’entraîneur de l’enfant, payer une facture à l’échéance. Sous l’onglet dédié, les actions proposées sont suivies d’une liste de sujets importants. Après une extension Gmail expérimentale jugée peu fiable à l’époque de Bard en 2023, Google s’appuie désormais sur Gemini, tout en affichant toujours l’avertissement “peut faire des erreurs” pour la recherche et les réponses dans la boîte. Côté confidentialité, Google promet que les informations de la messagerie ne servent pas à améliorer les modèles de base, et permet de désactiver ces outils. Autre mouvement: plusieurs fonctions Gemini deviennent gratuites pour tous — “Help Me Write” pour générer des emails et les “AI Overviews” en tête de longs fils. Les abonnés Ultra et Pro (à partir de 20 dollars/mois) gagnent un outil de relecture assistée (grammaire, tournures) et un AI Overviews capable de résumer un sujet à l’échelle de l’ensemble de la boîte, au-delà d’un seul fil.En santé, une étude sur la technologie de reproduction assistée évalue la fiabilité des chaînes de pensée générées par des modèles de langage. Trois stratégies sont comparées: zéro‑shot, few‑shot aléatoire et few‑shot sélectif. Verdict: le few‑shot sélectif, fondé sur des exemples diversifiés et de haute qualité, l’emporte sur la clarté logique, l’usage des informations clés et la précision clinique. Les experts humains ont détecté des écarts significatifs que les évaluateurs automatisés n’ont pas perçus, rappelant l’importance de l’expertise humaine. Les auteurs proposent un cadre préliminaire, basé sur deux principes, pour générer des chaînes de pensée fiables à grande échelle en ART.Sur les modèles ouverts, 2026 confirme la poussée chinoise. Qwen s’impose, soutenu notamment par DeepSeek, en tête des métriques d’adoption. En 2025, Z.ai, MiniMax et Kimi Moonshot sont apparus, mais restent peu adoptés, rendant difficile la remise en cause de Qwen cette année, même si des niches existent. Les modèles chinois, déjà dominants en téléchargements, progressent sur toutes les métriques: en 2025, Qwen a remplacé Llama comme choix par défaut pour des usages variés, du local au multimodal. Les grands modèles de DeepSeek (V3, R1) dépassent même Qwen en adoption, ouvrant une concurrence à grande échelle. Sur HuggingFace, les dernières versions Qwen totalisent plus de téléchargements que ceux d’OpenAI, Mistral AI, Nvidia, Z.ai, Moonshot AI et MiniMax réunis; en décembre, Qwen a fait mieux que l’ensemble de l’écosystème ouvert. Les dérivés Qwen restent les plus finement ajustés. Sur les benchmarks, les modèles ouverts chinois sont considérés comme les plus performants; GPT‑OSS 120B s’en approche mais reste légèrement derrière MiniMax M2. À suivre: Nemotron, Arcee, Reflection AI.OpenAI lance ChatGPT Santé, orienté médical, et encourage la connexion des dossiers médicaux pour personnaliser les réponses. Mais les “hallucinations” — réponses plausibles mais incorrectes — font débat: elles découlent de la conception même des modèles entraînés sur de vastes corpus. Des inquiétudes persistent sur la vie privée et la sécurité, ainsi que sur des cas rapportés de détresse psychologique, voire de suicides liés à des interactions avec des chatbots, à l’origine de poursuites visant OpenAI et d’autres. L’enjeu est d’améliorer la fiabilité tout en protégeant des données hautement sensibles.Le paysage bascule au-delà des LLM, jugés en plateau de performance. Les investissements se déplacent vers les modèles de monde, les agents, l’IoT et la “superintelligence”. On observe une consolidation du marché. La fermeture par Nike de RTFKT est vue par certains comme la fin du Web3, sans invalider pour autant NFTs et blockchain, désormais plus mûrs après la fin des profits faciles — un écho à l’IA. Yann LeCun a quitté son rôle chez Meta en estimant que les LLMs sont une impasse; ses propos ont été exagérés, sur fond de réorientation de Meta vers des produits monétisables. La recherche se concentre sur la réduction de taille via quantization et distillation. Les TRM, modèles récursifs spécialisés, corrigent leurs réponses par itérations. Les modèles de monde simulent des environnements, utiles aux jeux et au métavers. Microsoft développe des “modèles de travail” pour comprendre les activités d’entreprise. Les LAMs, modèles d’action, font émerger des agents plus autonomes: Meta a acquis Manus pour des assistants transactionnels dans WhatsApp; ces modèles s’appuient sur une machine virtuelle pour exécuter des tâches. Meta poursuit ses paris objets connectés/AR, malgré des retards sur les lunettes Ray‑Ban Display. 2026 pourrait voir naître de nouvelles super apps. L’apprentissage continu est cité comme voie vers une IA générale; la “superintelligence”, conçue comme levier d’action, gagne du terrain. L’écart se creuse entre maîtrise avancée et usage basique.Enfin, la cybersécurité. Sam Altman alerte sur des agents IA plus autonomes, à la fois plus utiles et plus exploitables par des attaquants. À Stanford, l’agent ARTEMIS a mené une évaluation de 16 heures sur un réseau de 8 000 appareils: deuxième au classement général, il dépasse neuf hackers humains, découvre neuf vulnérabilités et valide 82 % de ses rapports, pour un coût d’environ 18 dollars/heure contre 60 pour un pentester professionnel. Sa force: générer des sous‑agents en parallèle. Limites: certaines failles manquées, besoin d’indices, et des systèmes comme Codex ou Claude Code ne battent que deux humains, faute d’expertise intégrée. Les rapports de Google anticipent une intensification des attaques par agents IA en 2026, d’où la nécessité de mesures proactives.Voilà qui conclut notre épisode d’aujourd’hui. Merci de nous avoir rejoints, et n’oubliez pas de vous abonner pour ne manquer aucune de nos discussions passionnantes. À très bientôt dans L'IA Aujourd’hui !
Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.
The AI-powered Podcast Player
Save insights by tapping your headphones, chat with episodes, discover the best highlights - and more!


