晚点聊 LateTalk

晚点 LatePost

《晚点聊 LateTalk》由《晚点 LatePost》出品。
最一手的科技访谈，最真实的从业者思考。

Episodes

Mentioned books

Mar 17, 2025 • 2h 18min

108: 与马毅聊智能史:“DNA是最早的大模型”，智能的本质是减熵

香港大学计算与数据科学学院院长，看 35 亿年智能史。欲知未来，先知过去。这期是《晚点聊》的一个新系列「LongContext」“长语境”的第 1 期。封面：马毅上周五（3 月 14 日）在北大做分享（刚好是 π 日）类似于现在的大模型需要 LongContext，我们去学习智能，也需要一个更全面的历史语境，让我们能在新东西不断涌现的此刻，找到一个更稳定的坐标。在这个系列的开端，我邀请了香港大学计算与数据科学学院院长，马毅教授，来与我们聊智能和机器智能的历史。马毅本科毕业于清华大学，2000 年在加州伯克利大学获得博士学位，先后任职于伊利诺伊大学香槟分校（UIUC）、微软亚研院、上海科技大学、伯克利大学和香港大学，是人工智能和计算机视觉领域的全球知名学者。最近 5 年，马毅自己关心的课题之一，就是智能的历史。为了在港大推动面向所有学科本科生的 AI 通识教育，他也在撰写教材、设计课程，对智能的发展做了更全面和深入浅出的整理。马毅对智能有一些“少数派”的理解，比如本系列的名称「LongContext」——当作为一个技术概念时，马老师认为与其一味追逐预训练模式下的更长 LongContext，更好的方法是找到一种机制，能让智能系统有闭环的、长久的、不会遗忘的记忆。这些理解本身与他对智能史的梳理和认知有关。智能是如何在地球上诞生的？马毅认为，生命就是智能的载体：从 DNA 出现，到神经系统诞生和寒武纪物种大爆发，再到人类的语言与数学的诞生，智能有不同的表现形式，但不变的是，智能都是在学习外部世界的知识与规律，从而进行预测，使知识可以为我所用。智能是在寻找规律并利用规律，是一个对抗宇宙熵增的过程。从智能的历史，我们进一步聊了机器智能的历史：大部分人会把 1956 年的达特茅斯会议视为人工智能的开端，而马毅认为，对机器智能的研究，要追溯到 1940 年代的维纳的控制论、香农的信息论等更早的源头。从那时到现在的 80 多年里，机器智能发展几经起伏。马毅也分享了自己亲历的部分变化：比如他刚博士毕业时，找不到对口方向的教职；他现在被引用最多的成果，一度没有任何会议接受。马毅也分享了一个研究者的技术品味如何形成？“品味”不仅是一种认知，也是认知被挑战时能继续坚持的自信。马毅的 taste，使他进入了一个目前在 AI 工业界眼中并不那么主流的方向：白盒大模型，和能实现“闭环、反馈、纠错”的机器智能。这两个方向在我们去年与马老师的访谈中有更详细的展开，具体内容可见《晚点聊》第 71 期节目。为加速这些方向的探索，马毅也创立了一家公司“忆生科技”。本期涉及的人物、理论、技术成果、术语，见 Shownotes 文末附录。本期嘉宾：马毅，香港大学计算与数据科学学院院长时间线： 00:13 开场总结 & LongContext 系列说明智能的历史 04:58 DNA、神经系统、语言、数学，智能有四种机制；知识本身不是智能，而是智能活动的结果 19:06 大模型在四种机制中的阶段——类似靠 DNA 物竞天择的强化学习 24:53 智能在宇宙中诞生，也许是偶然中的必然；宇宙熵增（越来越混乱、随机），终有一天会无规律可学机器智能的历史 29:02 AI 的起点不是达特茅斯会议 39:55 80 年机器智能史中的“闪耀时刻” 46:57 神经网络的起伏，本质是机制不明确，一些成果靠经验性试错 56:51 Open o1 和 DeepSeek-R1，它们真的在做“推理”吗？ 01:08:06 “DeepSeek”们的出现，是一个 where and when 的问题，不是 if or not 的问题技术 taste 的形成 01:11:21 探索未知的勇气和特立独行+严谨的学术培养 01:14:24 “做数学家，第一条是把自己训练成世界上最难说服的人” 01:18:53 在伯克利读博士时的氛围：自由跨组，学生互助 01:24:16 品味被挑战的时刻：现在被引用最多的成果，一度没有任何会议接收 01:27:58 没有接受系统教育的企业家、从业者，如何形成技术 taste？港大 AI 通识教育实践 01:35:12 减少一门英语课，所有本科生增加一门 AI literacy：教授历史、技术概念、伦理；重要的是思维训练，而不是结论本身 01:45:50 机器降临派 or 人类堡垒派？——智能共存白盒与闭环反馈纠错 01:52:15 闭环系统才能适应开放世界，具身是应用场景 01:54:05 VLA 端到端不一定是具身智能正确的解法，至少不是最高效的解法；人脑其实是一个并行结构 01:59:50 公司的意义，与学校要做的事形成互补 02:11:28 “我从不说 AGI”，不要笼统地理解智能 02:13:05 “焦虑就是来自不懂”，当 AI 的黑盒被利用，“迷信是这么产生的，权力也是这么产生的” 02:15:09 本期「连点成线」相关链接：晚点聊71：“如果相信只靠 Scailng Laws 就能实现 AGI，你该改行了”，与香港大学马毅聊智能对话香港大学马毅：“如果相信只靠 Scaling Laws 就能实现 AGI，你该改行了” 晚点聊106：与真格戴雨森长聊Agent：各行各业都会遭遇“李世石时刻”，Attention is not all you need 晚点聊103：用 Attention 串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进晚点聊101：与王小川聊AIX医疗：通向“生命科学的数学原理” 附录：诺伯特·维纳：控制论创始人，奠定AI与自动化理论基础。图灵：计算机科学之父，提出图灵机与图灵测试，奠定AI理论基础。冯·诺依曼架构：计算机体系结构基础，由冯·诺依曼于1945年提出，沿用至今。达特茅斯会议：1956 年由麦卡锡、明斯基等人发起，首次定义“人工智能”。 Perceptron：感知机，Frank Rosenblatt于1957年提出的早期神经网络模型。 Yann Lecun：卷积神经网络先驱，2018年图灵奖得主，Meta首席AI科学家。 Geoffrey Hinton：深度学习先驱，反向传播算法（Back Propagation）联合提出者，2018年图灵奖得主。李飞飞：斯坦福大学教授，ImageNet数据集发起人，推动计算机视觉发展。卷积神经网络（CNN）：Yann LeCun于1980年代末提出的深度学习模型，专用于图像识别。 AlexNet：2012年ImageNet竞赛冠军模型，由Hinton团队提出，推动深度学习复兴。 ResNet：微软2015年提出的残差网络，解决深层网络梯度消失问题。 VGG：牛津大学2014年提出的深度卷积网络，以结构简单高效著称。 ImageNet：李飞飞团队2009年发起的图像数据集，推动AI算法发展。李泽湘：机器人技术专家，马毅在伯克利博士期间的师兄；他们的导师是 Shankar Sastry。陶哲轩：数学家，研究涵盖机器学习理论，推动AI与数学交叉领域发展。 SFT Memorizes, RL Generalizes：（港大、UC Berkely、Google DeepMind、NYU 2025 年合作发表的论文），是本期中讨论提升模型推理时，SFT（监督微调）和 RL（强化学习）的相关但不同角色的那篇论文。监督微调（Supervised Fine Tuning）：基于标注数据调整预训练模型，适配特定任务。强化学习（Reinforcement Learning）：通过奖励机制优化策略，适用于动态决策任务。伯克利 BAIR：加州大学伯克利分校人工智能研究所，成立于2016年，聚焦机器人、强化学习等前沿领域。 VLA：Vision-Language-Action Model 视觉-语言-动作模型，Google DeepMind 2023 年提出的一种让智能体在物理或数字环境中执行复杂任务的模型，应用于机器人、自动驾驶等领域播客中提到的两位遭遇学生生涯挫折的诺贝尔奖得住：一位是 2024 年生理学或医学奖得主 Victor Ambros，曾未能获得哈佛大学终身教职；一位是 2023 年生理学或医学奖得主 Katalin Karikó，曾被宾夕法尼亚大学降级降薪。剪辑制作：Nick 本期主播：小红书 @曼祺_火柴Q，即刻 @曼祺_火柴Q ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

Mar 13, 2025 • 1h 20min

107: 与Haivivi李勇聊月入千万的AI Jellycat：小众AI硬件×大众消费品的交叉口创业

「佩奇她弟教你“量子纠缠”。」（封面中，小猴子身上挂的 Bubble Pal 是 Haivivi 的第一款产品。）本期，Haivivi 创始人兼 CEO 李勇讲述了 AI 玩具创业故事。李勇是一个消费硬件行业的 20 年从业者和连续创业者：曾参与天猫精灵从 0 到三千万台的全过程，后负责爱奇艺孵化的 AR/VR 产品，独立创业后，做早教机一度销量突破数十万台，后不得不在双减等政策变化中寻找新方向。 AI 玩具符合李勇寻找创业方向的逻辑：做科技巨头做不了或不会做的方向。这是一个 AI 硬件中的小众领域，却是消费品里的大市场：泡泡玛特和 Jellycat 的持续增长都显示了玩具、玩偶类产品的巨大需求：它们不仅是送给孩子的好伙伴，也成为跨年龄阶段的陪伴者，是白领“打工人”或收藏癖的“小确幸”。 3 年前创业，1 年半前开始进入 AI 毛绒玩具市场的 Haivivi，目前仍针对 3-6 岁的幼儿市场，做成年人的“AI 朋友”是他们的未来拓展目标之一。 Haivivi 的第一款产品是去年夏天面世的 Bubble Pal——一个可以挂在任何毛绒伙伴上的 AI 泡泡，让毛绒玩具能开口陪孩子聊天、说话，用小猪佩奇的世界观讲量子力学，家庭关系。上市几个月内，单价 399 元的 Bubble Pal 就卖出几万个，单月收入破千万元人民币。 *本期播客录制时间在今年春节前，“明年”“今年”“去年”的称呼分别主要指 2025、2024 和 2023 年。本期嘉宾： Haivivi 创始人 & CEO 李勇，曾在锤子手机、天猫精灵、爱奇艺等公司工作过，2021 年开始此次创业。时间线： - 产品思考：一个“AI+儿童+毛绒+硬件+情绪价值”的产品窄门 02:06 产品演示 04:22经历回顾：天猫精灵野心很大，但最多的交互来自孩子 10:02早教机品类固然好，但竞争不过大公司 12:36大模型来了，但又不够好，让大模型跟毛绒玩具结合，能控制用户预期 13:24全球毛绒玩具增速很快，所以一定要做毛绒玩具品类 15:03PMF思考：为什么做3-6岁？ 16:55先做挂件产品形态的思考：做好毛绒玩具存量市场，同时先活下来 - 大模型＋硬件，能给所有人提供情绪价值吗？ 19:11毛绒形态是情绪价值提供的最优解，别的品类说话有些诡异，需要教育市场 21:55如果泡泡玛特也会说话呢？在 AI 之外，还要考虑更长的链条 23:43在情绪价值赛道，理性推演很难 24:15成年人跟一个玩具聊天会不会很傻？不会，AI 也能给成年人提供情绪价值，但要找对场景 25:27硬件有付费成本，给用户的价值要大于用户付出的成本 - 做巨头做不了，也不想做的生意 27:55排名第一第二的差评，本质来自硬件设计的取舍，以及产品破圈之后，要接受非科技爱好者的“审判” 31:18家长可以设计 prompt，让玩具成为小孩子的“个人助手” 32:27不做严肃教育，因为大模型现阶段的能力并不能做严肃教育 33:40创业公司不适合做 AI+教育，因为无法和有更多资源的教育巨头竞争 34:20而玩具方向大厂不会做，不想做也做不好 35:19提供情绪价值的玩具赛道，可以同时容纳非常多公司；而工具类往往是生死厮杀 37:49玩具公司多以儿童用户切入，但真正的收入来自给成年人的产品 39:50大模型技术的迭代，比如端到端语音模型的推出，可以帮助实现更好的用户体验 - 负债创业，而硬件本身又充满取舍 43:12负债创业时刻：调整方向、团队降薪、PPT 融资 44:45与高秉强老师相见恨晚，他也主张儿童+硬件+AI 46:29高老师也赞同不做教育，“孩子上了高中、大学，会有我这样的老师讲给他们听” 47:27产品设计中的种种取舍：先做什么、做哪个国家、纽扣还是挂件、硅胶还是毛绒、多大的麦克风…… 52:31还没投流就卖爆了，终于有个 AI 产品能离生活近一些了 55:00聊 AI 眼镜：没想到是 Meta 现跑出来，舍弃显示太有魄力了 58:09国内一定会有很多人开始做 Haivivi 类似的产品，但李勇觉得这很正常，还是要多关注自己的迭代 - 过于乐观的 AI 从业者，现在想做玩具总动员 01:03:31一些理工男不能理解的产品设计，但每一个细节都很重要 01:05:40从技术角度去做儿童产品的价值观设计，比成年人的更复杂 01:11:13对大模型过于乐观 01:13:31接入了主流的模型，也接入了 DeepSeek，但 DeepSeek 的意义更多在长期 01:15:01想做的事情很多，但是并不想让团队快速扩张 01:18:26太多科幻电影太过黑暗，Haivivi 想做 AI 版的玩具总动员。相关链接： Jellycat 如何将 vibe 注入商品？丨晚点周末晚点独家丨AI 眼镜之战，数笔新融资进行时剪辑制作：甜食本期主播：即刻 @王与桐 ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

Mar 9, 2025 • 2h 12min

106: 与真格戴雨森长聊 Agent：各行业都会遭遇“李世石时刻”，Attention is not all you need

「两瓶茅台的价格体验未来，很划算（Devin 最低月订阅费 500 美元）」 2 月下旬，我与真格基金管理合伙人戴雨森长聊了一次 AI。上周，真格投资的 Monica 发布的 Agent 产品 Manus，虽然还在内测阶段，就引起了大量关注。在聊这期时，雨森提到了 Monica 即将会发布一款 Agent 产品，那时候我们还不知道 Manus 将会席卷社交媒体。当我们把一个任务交给 Manus，过了十几分钟收到完成的结果时，似乎真的感受到了一点 attention is not all you need 的未来。带来这些变化的起点，是去年至今的两个重要节点：o1 和 R1。它们分别带来了两个对 AI 全行业的影响：一是 o1 在大语言模型中引入强化学习，开启 Pretraining（预训练）Scaling Laws 之外的 Post-training（后训练）和 test-time-computing（即推理阶段的计算）阶段的新 Scaling Laws，让模型推理能力大幅提升。我们之前在第 80 期节目中也有详细讨论 o1，当时业界还普遍猜测 o1 用到了蒙特卡洛树搜索等方法。二是与 o1 同为推理模型的 DeepSeek R1 强势开源，以极低的成本，和后续引发的巨大全民影响力，让很多人重估了大模型行业当前的最重要课题：提升模型能力。R1 的开源和同期发布了详细技术报告另一个推理模型的 Kimi-k1.5 ，也明确告诉整个领域，一些方向是“此路不通”，他们都没有使用蒙特卡洛树搜索等方法。这期节目，我们从 o1 和 R1 开始聊，二者一同带来的推理能力的提升、成本的下降，和同期模型编程能力与工具使用能力的提升，开启了 Agent 在 2025 年的应用前景。雨森详细分享了他对 Agent 机会的当前观察，以及在 DeepSeek 带来的开源生态的变化中，大小 AI 公司的新动作和调整。本期嘉宾：戴雨森：真格基金管理合伙人，投资了 Kimi（月之暗面）、与爱为舞、无问芯穹、Genspark 等 AI 项目。时间线： - OpenAI o系列与 DeepSeek R 系列的启发 01:36 o1 证明 RL（强化学习）在后训练阶段和推理时间的 Scaling Law 潜力，为 Agent 产品形态奠定基础 04:24 DeepSeek-R1 启发：开源+RL+专注的胜利；本土年轻团队的力量；技术提升带来魔法体验，涌现商业模式 - 详聊 AI Agent 14:25 3 个能力提升带来 Agent 爆发机会：推理+编程+工具使用；凡是 RL 进入的领域，往往导致人类迅速超过人类，“我把这叫李世石时刻” 18:11 Attention is not all you need，“工作的 Scaling Law”：从“注意力经济”到“无需注意力”的范式转变，Agent 帮你干活 34:07 Agent 产品形态推演：从写（分析类）到读（操作），到 Agent 指挥 Agent 干活（多 Agent 协同）；一个例子：Manus 为了获得凤凰城地铁时刻表，在找不到公开信息的情况下给相关部门写邮件。 45:44 Agent 机会属于谁？模型公司自己做，还是应用公司？ 53:02 Agent 成本：成本下降、速度变快是必然；200 美元一个月的 ChatGPT-pro，500 美金一个月的Devin，两瓶茅台的价格体验未来，很划算 - 开源带来的格局重塑 58:18 DeepSeek 强势开源下：字节与腾讯的不同动作 01:10:39 DeepSeek 长期的商业价值？ 01:14:53 开源并非必选项 01:19:39 阿里的节奏：开源、开放 01:28:34 对六小虎：DeepSeek 的“清场效应”；对更多应用公司，加速从“黑莓时代”到“iPhone”时代 01:35:45 对算力需求：总需求变大没争议，但算力结构的变化可能导致英伟达市值调整 - 为更快到来的 AGI 的未雨绸缪 01:44:59 一生中见证多次指数增长，历史罕见 01:51:32 希望 AI 普惠，但也有可能走向反面 01:54:40 戴雨森个人为 AGI 做的准备 02:04:01 最近的阅读推荐：A Brief History of Intelligence（作者：Max Bennet）、《第一只眼》（作者：Andrew Parker）相关链接： 3 位连续创业者打造 Manus，应用潮里有更多 “underdog” 的机会（文末附 Manus、Open Manus 实测）晚点聊 99：MiniMax创始人闫俊杰：做大模型，千万别套用移动互联网的逻辑晚点聊 100：硅谷怎么看 DeepSeek？与 FusionFund 创始人张璐聊开源、Agent 和除了 AI 晚点聊 102：DeepSeek 启动开源周，大模型开源到底在开什么？晚点聊 103：用 Attention 串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进附录（本期中提及的一些 AI 产品）： Devin：由 Cognition 开发的自动化编程助手 Agent。 DeepResearch：OpenAI 2025 年 2月发布的为智能研究 Agent，支持深度信息检索与报告生成。 Manus：本期中提及的 Monica.im 当时即将发布的 Agent 产品，支持多任务自主执行。 ComputerUse：Anthropic 2024 年 11 月发布的通用计算机助手 Agent，允许 AI 操作计算机完成任务。 Cursor：由 Cursor 团队开发的 AI 编程助手。 Perplexity：由Perplexity AI 开发的 AI 搜索引擎，能提供深度搜索、信息整合和答案生成。剪辑制作：甜食本期主播：小红书 @曼祺_火柴Q，即刻 @曼祺_火柴Q ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

Mar 6, 2025 • 49min

105: 潞晨尤洋争议中谈三方云平台 DeepSeek 成本：为何我不做 MaaS 了？

「我们的测试是，通过 MaaS 获得收入，代价太高了」上周六，DeepSeek 发布开源周收官之作：概述了 DeepSeek 的推理优化思路，并放出了 2 月 27 日前后一个 24 小时时段内的线上时机测试。据 DeepSeek 官方数据，这 24 小时里，他们处理的 Token 输入总量是 608B（6080 亿）；输出的 token 量是 168B（1680 亿）。每秒每节点（一节点有 8 张 H800）的吞吐量达到了输入 73.7k Tokens，输出 14.8k Tokens。做到这么大的吞吐量，他们平均只用了 226.75 个节点，每个节点是 8 张英伟达 H800，加起来是 1814 张卡。而这支撑了 DeepSeek 高达 2000万-3000 万的日活。由此 DeepSeek 也根据 GPU 的市场价格，和自己的 API 定价，算了一个成本利润率，即这几天被广泛传播和讨论的 545%，换算成毛利是 84.5%。这也让前段时间算过另一笔账，且结果大相径庭的的潞晨科技创始人尤洋的言论被推到了风口浪尖。尤洋曾说，通过自己的实测，他发现中小云平台现在部署 DeepSeek，再售卖 API 给其它应用方，是巨亏的生意，月亏可达 4 亿。亏损的核心是，尤洋自己测的吞吐量与 DeepSeek 公布的数据相差巨大（每节点每秒输出位 300 Tokens 左右）。由于 GPU 的价格在一定时间内是固定的，吞吐量，就决定了 API 服务能否赚钱。在“被打脸”的争议中，尤洋接受了「晚点聊」的访谈。我们聊的时间是 3 月 1 日，尤洋没有特别提及 DeepSeek 的具体推理优化，他称自己不方便评价。他更多聊了，为什么他认为中小云平台做 MaaS 服务不赚钱，也解释了他眼中的 MaaS 商业模式。他认为单纯卖 API 的 MaaS 可能更合适大型云厂商和自己开发独家模型，并能做相应深度优化的公司。 3 月 1 日，潞晨科技也宣布停止即将包括 DeepSeek API 在内的 MaaS 服务。如果听友想更详细的了解，考虑到运维、折旧等成本的 DeepSeek 实际利润率怎么测算，可以看 Shownotes “附录”里贴的几篇相关链接，有非常详细的解读，并搭配了公式和图表。本期嘉宾：尤洋，潞晨科技创始人时间线跳转： 00:04 DeepSeek 官方实测数据，惊人的吞吐量带来惊人利润率 03:10 尤洋此前的测算引发争议与讨论：亏损 4 亿 vs 毛利 85% 09:25 一个合格 to B MaaS 服务，冗余资源到底该备需求的几倍？ 12:26 潞晨科技已不再做 MaaS 服务，MaaS 买的是 GPU 时间，卖的是 Token 调用，承担了链条上的最多亏损 17:57 专注给大小公司部署私有模型 22:15 强模型公司（如 OpenAI）和大型云厂商自己做 MaaS 更合理 26:22 高额利润才能带来创新投入，价格战会导致大家都没资源投入研发 28:20 实际服务中，输入、输出序列的波动，用户请求的多样化，会导致线上服务效率下降 34:28 云计算也是高弹性，AI 云平台不会成为新的云计算吗？ 38:17 潞晨想做 AI 版 Databricks，而 Databricks 自己也在做这件事；创业公司的空间在哪儿？ 43:00 新方向是自己训练视频生成模型，在热潮前的 2021 年 9 月开始创业的方向选择 46:37 技术和商业问题可以广开讨论，不打算再回应其他争议相关链接：再次深度拆解：Deepseek利润率高达85%，推理效率领先一个数量级，彻底颠覆认知！（老罗的暗中观察）回应争议：Deepseek真实利润率是多少？到底需要多少算力？光年之外联创再出发，与袁进辉聊 AI Infra 到底做什么？剪辑制作：甜食本期主播：小红书 @曼祺_火柴Q，即刻 @曼祺_火柴Q ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

Mar 3, 2025 • 1h 27min

104: 我给线性注意力找“金主”，字节 say No，MiniMax say Yes

「继续来聊“注意力”，不止技术，也有研发故事。」（本期因录音 bug，音质有波动；不时出现“变声期”，请见谅。）上期，我们与清华的两位博士生，肖朝军和傅天予，聊了稀疏注意力机制的改进，也以注意力为线索，串起了大模型的优化史。上期主要聊了稀疏注意力。这期，我们来聊注意力机制的另一大改进方向：线性注意力。 MiniMax 在今年 1 月发布了参数为 4560 亿的开源大模型 MiniMax-01，01 就用到了他们开发的线性注意力机制，lightning attention。本期，我邀请了这个项目的负责人，MiniMax 高级研究总监，负责 01 模型网络架构的钟怡然，来与我们一起聊研究线性注意力的研发过程。钟怡然曾担任上海人工智能实验室青年科学家，是新架构探索组的 PI，也就是项目负责人；他在澳洲国立大学获得博士学位，师从李宏东教授和 Richard Hartley 院士。在 2021 年，线性注意力还是一个“看起来很美好的泡泡”，怡然和团队就开始探索线性架构的实现。当 2024 年年中，MiniMax 开始用大量算力资源训练线性架构的 4560 亿参数的新一代模型 01 时，线性架构能在大规模模型上 work 是非共识。但闫俊杰最后拍板，投了公司超过 80% 的研发资源。当然，训练模型不是戏剧性的梭哈。在训 01 前，MiniMax 团队通过 3700 次预训练测试，去预测这种新架构在更大参数的模型是否也有好的表现。（这其中不少都是小规模实验。）这期节目，我们完整聊了这个过程。在效率上线上，从计算方法推导，当序列非常长，线性注意力在计算效率上的的优势会越来越大于稀疏注意力。但从效果上，也就是线性注意力的模型，能否和 Transformer 模型一样聪明，甚至更聪明。现在还没有谁能给出有绝对说服力的答案。这也是之后 MiniMax 的技术进展，可能会揭晓的悬念。本期嘉宾：钟怡然，MiniMax 高级研发总监时间线跳转： - MiniMax 开源：为什么第一个模型选了 01 05:46 开源是为了展示架构创新，吸引更多人才 08:20 开源后社区反馈集中在推理效率与多模态支持，MiniMax 把推理优化贡献到了开源框架 vLLM 中 10:20 开源要有影响力需要更多工作，MiniMax-01 当前开源版本参数过大，个人开发者确实参与受限 - MiniMax-01 中的线性注意力改进：7 混 1 结构，100 万 Token 序列长度下提速 2700 倍 13:11 线性注意力的核心思想是通过调整QKV矩阵计算顺序，将复杂度从二次降至线性 15:26 稀疏注意力（如NSA、Mobile）在小模型表现尚可，但线性注意力在参数规模扩大后优势显著 20:23 纯线性注意力在召回能力（如“大海捞针”任务）上存在缺陷，团队通过混合架构（每 7 层线性注意力加入 1 层 Softmax 注意力）优化 27:31 混合架构在 100 万 Token 序列长度下实现 2700 倍加速，同时模型效果优于纯 Transformer 28:27 3700 次小模型实验验证架构可扩展性，扩大规模前要做充分验证 - 21 年开始的线性架构研发之旅：从“美好的泡泡”到 4560 亿参数大模型 30:24 2021 年开始做线性注意力研发时，它还是一个“美好的泡泡” 35:19 “我们是最懂线性注意力的人”，为什么这个模型不诞生在我们手上？ 41:20 50% 的把握，投 80% 的资源 42:46 上规模后，发现了召回缺陷；一张大表，3700 个预训练任务 50:46 一个测试例子：MiniMax-01、DeepSeek-R1 表现不及 Kimi-k1.5，可能和数据构造有关 52:52 线性架构也许是更适合推理模型的架构 01:00:51 线性架构能 work，仍是非共识 - “道心”之争 01:02:00 钟怡然坚信线性注意力是“无损优化”，混合架构效果甚至优于传统Transformer 01:11:23 MiniMax计划4月发布深度推理多模态模型，整合线性架构、原生多模态与强化学习 01:22:18 AGI愿景 vs 竞争驱动：DeepSeek 爆火后，但不改变产品是技术最大的证明相关链接： 103：用 Attention 串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进 99：MiniMax创始人闫俊杰：做大模型，千万别套用移动互联网的逻辑 71：“如果相信只靠 Scailng Laws 就能实现 AGI，你该改行了”，与香港大学马毅聊智能 101：与王小川聊AIX医疗：通向“生命科学的数学原理” 103 期晚点聊图文版：《大模型 “注意力简史”：与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》附录： QKV 计算：Query-Key-Value计算，注意力机制中用于生成上下文感知向量的核心步骤。 Mamba：由卡内基梅隆大学在2023年提出的基于状态空间模型的高效长序列建模架构。 Jamba：由 AI21 Labs 在 2024 年提出的结合 Mamba 与 Transformer 的混合架构模型。 vLLM：由加州大学伯克利分校在 2023 年提出的开源大模型推理加速框架。有损优化：以牺牲部分模型性能为代价换取计算效率或资源节省的优化方法。无损优化：在不影响模型性能的前提下提升计算效率或资源利用率的优化策略。（另，更多关于线性注意力机制的术语也可见上期注释）剪辑制作：Nick 本期主播：小红书 @曼祺_火柴Q，即刻 @曼祺_火柴Q ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

Feb 26, 2025 • 1h 28min

103: 用Attention串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进

「与 InfLLM 与 MoA 的两位作者一起聊注意力。注意“注意力”是为了可预见的长长长……文本。」（题图：levelsio.com 上售卖的 Attention 鸭舌帽。）本期图文版：《大模型 “注意力简史”：与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》上周，DeepSeek、Kimi 都放出了新的大模型架构改进和优化成果，分别是 NSA、MoBA（GitHub）。他们都聚焦到了对大模型中的“注意力机制”的改进。注意力机制是大语言模型（LLM）的核心机制。回到 2017 年 6 月那篇开启大语言模型革命的 Transformer 八子论文，标题就是：Attention Is All You Need（注意力就是你所需要的一切）。而优化 Attention 的计算效率和效果，又能帮助解决，AI 学界和业界，都非常关心的一个问题，就是长文本，long context——不管是要一次输入一整本书，让模型能帮我们提炼、理解；还是在现在用强化学习来提升推理能力的范式转型后，需要生成长思维链；又或者是，我们未来希望模型有越来越长的“记忆”，这都需要长文本能力的支持。这期节目，我们邀请了两位也做过 Attention 机制改进的 AI 研究者，一起聊 attention 它是什么，过去的瓶颈在哪儿，以及最新的 NSA、MoBA 这些成果带来了哪些启发；和未来注意力机制及更广泛的长文本能力提升上，有哪些趋势和方向。本期嘉宾：清华自然语言处理实验室的博士肖朝军，他是 InfLLM（GitHub）注意力机制改进的一作，导师是清华计算机系的刘知远。（Email：xcjthu@gmail.com）清华 NICS-EFC 实验室的博士傅天予，他是 MoA（GitHub）注意力机制改进的共同一作，导师是清华电子工程系的主任汪玉。汪老师的实验室也做了很多与硬件层结合的优化工作。（Email：fty22@mails.tsinghua.edu.cn) NICS-EFC 实验室最近也开源了一个与多模态注意力机制改进相关的成果 FrameFusion（GitHub）。他们之前的成果都和 NSA、MoBA 一样属于“稀疏注意力”改进的范畴。注意力机制是一个会涉及较多技术细节的话题。我在 shownotes 的末尾贴了一些术语和过往注意力优化成果的简单解释，希望可以帮大家更好得理解。如果你虽然不是一个 AI 从业者，但又因为兴趣、好奇或工作需要，非常希望由浅入深得了解更具体的技术机制和进展。欢迎多听我们的节目，这次我也在 shownotes 里贴了一些 AI 大神用相对通俗方式讲解 AI 的视频节目的地址。让我们一起学习起来！不是每个人都需要或有精力去了解 AI 底层技术，但很多人都会被 AI 影响，都需要“智能思维”。时间线跳转注意力机制是什么 & 工作原理？ 00:05 注意力机制是大语言模型的核心，优化注意力机制计算效率与效果对长文本处理至关重要 06:00 注意力机制本质是建立词与上下文的动态关联，解决传统 RNN 的遗忘问题 10:08 Transformer 原本的 Full Attention 通过存储所有词向量解决长文本遗忘，但面临存储与计算复杂度瓶颈 12:24 注意力机制 N 方复杂度导致显存与时间开销爆炸，稀疏化成为改进选择 15:25 稀疏注意力与线性注意力（RNN 思路）是注意力机制两大改进方向，各有优劣 16:27 之前稀疏注意力更主流，但 Mamba 之后，线性注意力也比较火 18:27 算法、系统、硬件三层优化共同提升效率，如 MoE 与生成范式革新也能帮助处理长文本详解 NSA 与 MoBA：都是把稀疏注意力引入了训练阶段 21:06 动态稀疏效果更好但计算效率低，静态稀疏（如滑动窗口）更高效但效果受限 24:06 NSA 与 MoBA 聚焦预训练阶段稀疏化，解决训练与推理的机制差异 30:27 NSA 与 MoBA 均采用动态与静态混合策略，块状稀疏设计适配硬件特性 24:55 稀疏训练突破性能上限质疑，NSA 论文证明效果可超越稠密注意力 27:23 长思维链（CoT）与 RL 需求推动稀疏注意力落地训练阶段 36:50 块状稀疏设计（Block-Level）优化 GPU 并行与内存访问效率 42:06 NSA 实测推理加速显著，MoBA 强调保留关键注意力头提升长程关联 48:21 实验关注训练曲线稳定性与长 CoT 生成能力，而非传统 Benchmark ---两篇paper 中的训练曲线（Training Curve）的图示：上图：MoBA 论文中的 Figure3 上图：NSA 论文中的 Figure4 未来方向与 AGI 的终极想象 55:32 存储压缩与多模态长序列处理是下一阶段关键挑战 57:55 记忆架构需突破全存与固定存储的极端，探索类人动态决策机制 01:02:04 长文本能力支撑多模态推理（视频、科研）、情感记忆与知识服务 01:16:28 AGI 需具备科研能力突破知识边界，记忆与效率优化是底层支撑 01:22:03 自组织 AGI 可能颠覆人类对智能的定义，动机与伦理仍是未知领域总结与预告 01:26:38 稀疏注意力解决存储与计算瓶颈，训练阶段改进适配 RL 与多模态需求 01:27:21 线性注意力（如 MiniMax 01）是另一重要方向，下期节目将深入探讨相关链接 AI 视频科普视频推荐：1hr Talk Intro to Large Language Models （Andrej Karpathy) 月之暗面 MoBA 核心作者自述：一个 “新晋大模型训练师” 的三入思过崖晚点聊 102: DeepSeek 启动开源周，大模型开源到底在开什么？附录（基本按本期播客中的出场顺序）稀疏注意力：仅关注输入序列中部分关键位置的注意力机制，降低计算复杂度。稠密 VS 稀疏：稠密指数据/计算全连接；稀疏指仅部分连接，效率更高。稀疏计算：仅处理非零数据的计算方式，显存和算力需求更低。稠密计算：处理所有数据的计算方式，计算量较大但精度高。 128k、1M 等：是在描述文本的长度，128k 就是 12.8 万。显存：显卡存储空间，用于存放模型参数和计算中间结果。算子：基础计算单元（如矩阵乘法），硬件加速优化的核心对象。 Sequence 序列：有序数据集合（如文本、语音），模型处理的基本单位。 RNN 循环神经网络：通过时序传递状态处理序列数据的神经网络架构。梯度消失、梯度爆炸：反向传播中梯度指数级减小或增大，导致模型无法训练。 Token：文本的最小语义单元（如词、子词），模型输入的基本元素。长文本：模型支持处理的超长输入序列（如数万token）。 BERT：由Google在2018年提出的基于双向Transformer的预训练语言模型。 Full Attention：标准注意力机制，计算所有位置间关系，复杂度O(N²)。 N方复杂度：计算量随序列长度N呈平方增长（如O(N²)）。 Softmax：归一化函数，将向量映射为概率分布。 Softmax Attention：标准注意力实现，含Softmax计算相似度权重。 Attention Score：注意力权重，表示输入位置间相关性强度。 Mamba：由卡内基梅隆大学在2023年提出的基于状态空间模型的高效长序列建模架构。线性注意力：通过核函数近似实现线性复杂度的注意力机制。 Tri Dao、Albert Gu：两位 AI 研究者，其中 Tri Dao 是 FlashAttention 的作者，两位也都是 Mamba 的作者。 FlashAttention：由斯坦福大学在2022年提出的显存高效注意力算法，通过分块计算减少IO开销。 MoE 混合专家系统：动态路由至不同子模型提升容量的架构。 MLA：多层注意力机制，增强模型复杂模式捕获能力。 Mooncake：Kimi 和清华大学联合开发的大规模稀疏训练框架。 GitHub 库：代码托管平台，开源项目协作与版本管理工具。预印本平台（arXiv）：学术论文预发布平台，加速研究成果传播。长思维链：扩展版思维链提示，通过长推理步骤提升模型表现。 Block：计算或数据的基本分块单位（如Transformer块）。 Triton：由OpenAI开发的GPU编程语言与编译器，支持高效自定义算子开发。 Decoding 阶段加速：减少生成式模型逐token输出的推理延迟。 Query：注意力机制中用于匹配Key的向量。 Training Curve：训练过程中指标（如损失）随迭代的变化曲线。消融实验：逐步移除模型组件以验证其贡献的实验方法。 KV Compression：压缩注意力中的Key-Value缓存以节省显存 KV Eviction：淘汰不重要Key-Value，维持长上下文效率。(以上两个项目是在描述对多模态的注意力机制优化的以往相关成果时提及） FrameFusion：视频多帧融合技术，提升时序建模效果。（讨论多模态注意力优化时，天予提到的清华 NICS-EFC 实验室最近开源的一个成果）剪辑制作：甜食本期主播：小红书 @曼祺_火柴Q，即刻 @曼祺_火柴Q ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

Feb 25, 2025 • 57min

102: DeepSeek 启动开源周，大模型开源到底在开什么？

「与西北大学（NU） MLL Lab 博士生王子涵“逛”开源。」（题图：开源大模型推理框架 vLLM 的 GitHub 页面截图，该项目已有 800 多社区贡献者。）上周五，DeepSeek 在官方 twitter 上预告了下一周会连续 5 天开源 5 个代码库，进入 open-source week，开源周。我们录制节目的这天是周一，DeepSeek 也正式放出了开源周的第一个开源项目 FlashMLA。我一直很想和人好好聊一下，大模型开源是在开什么，怎么开。比如相比闭源模型，开源要额外做一些什么工作，才能让社区比较好地理解到这个开源成果，以及能更充分地把开源用起来。正好在 DeepSeek 这个开源周，我邀请到了正在美国西北大学 MLL lab 攻读博士学位的王子涵。子涵今年刚博一，之前毕业于人大，大四时，也就是 2024 年，他曾在 DeepSeek 实习半年，今年暑假即将前往一家美国 AI Agent 从创业公司，Yutori 实习。随着 DeepSeek 在春节的爆火出圈，开源也正成为一种趋势：之前一直模型闭源的一些公司，如 MiniMax、阶跃星辰，从 1 月到现在都陆续发布了自己的第一批开源模型。之前选择保留自己最强模型闭源，开源较小版本模型的公司，可能也会在 DeepSeek 的冲击波里有新选择。这期我和子涵聊到了开源模型不同的层级，主要有技术报告，模型权重，推理框架，训练框架，还有数据集。现在我们说一个模型是开源的，一般指的是有技术报告也开放了模型权重。再往下更深入的开源，是推理框架和训练框架。而现在只有极少数的机构，比如 Allen AI 研究所，他们也开放过预训练的数据集。我们也在一起围观 DeepSeek 开源周的过程中，回顾了他们之前开源模型的一些重点优化思路，以及他们为了让社区充分理解和使用开源成果，而专门花费心力去规范代码，写详细的技术报告。这背后是一个组织对优先级的选择。而在本期最后，子涵也分享了一个自己成为开源模型滥用“受害者”的亲身经历。开源在加速技术进化，如 DeepSeek 开源周 twitter 预告里所写：acclerates the journey；也带来一些隐患，需要整个领域一边开源，一边探索解决。马斯克曾经说：“有人问我是不是想死在火星上，我说当然，但不是死于（登陆器降落时的）撞击。” 登场人物：嘉宾：王子涵，西北大学 MLL Lab 博士生（个人主页 https://zihanwang314.github.io）主播：程曼祺，《晚点 LatePost》科技报道负责人剪辑制作：甜食本期节目中提及的一些开源项目的 GitHub 页面： DeepSeek：https://github.com/deepseek-ai DeepSeek/Open-Infra-Indes：https://github.com/deepseek-ai/open-infra-index DeepSeek/FlashMLA：https://github.com/deepseek-ai/FlashMLA vLLM：https://github.com/vllm-project/vllm SGLang：https://github.com/sgl-project/sglang 字节跳动/Verl：https://github.com/volcengine/verl DeepSeek/ESFT：https://github.com/deepseek-ai/ESFT 本期节目涉及一些AI 项目、机构，见 shownotes 末尾附录。时间线跳转： -DeepSeek 开源周指向 Infra，已放出第一个库 FlashMLA 02:20 过往实习、工作中的开源项目 03:18 王子涵分享自己开源工作，包括在数研时做的 agent 相关 benchmark，以及参与 DPCVR 研发和关于 DPCRY 加 agent 的开源报告。 05:17 DeepSeek 开源周预告，强调 Small but sincere；第一个库已发布：FlashMLA；未来开源方向推测 09:30 FlashMLA，一个用 C++ 语言写到算子层的推理框架优化；像 DeepSeek 这样做大量更底层算子优化的努力比较难 17:14 FlashMLA GitHub 反馈（issues）速览：有人想要 FP8，有人问何时支持 NPU？ -一起来逛 GitHub 库，大模型开源是在开什么 19:23 一起逛 GitHub 仓库（Repo），在开源项目里该看什么？ ·看 license（开源协议），DeepSeek 惯常使用的 MIT 协议，开放、简洁、免责 ·看 readme，树状学习库的基本信息，需要的环境、如何部署 ·子涵更喜欢看 issues，而不是 star，issue 反映多少人在深度玩这个库；PR（Pull Requests）是更深度的代码贡献。 31:30 大模型开源到底在开什么：技术报告、模型权重、推理框架、训练框架、数据集。一般一个开源模型都有技术报告和权重，但推理和训练框架的代码和数据集则不一定，尤其是数据集。 35:23 vLLM、SGLang，两个活跃的开源推理库；模型权重的下载途径；字节其实开源过一般较少开源的训练框架（Verl） 41:25 数据开源几乎没有，主要是出于信息敏感性和安全性考虑。 42:38 除了数据集，DeepSeek 已开源过上述各部分，其中子涵参与的 ESFT 工作就也开源了训练框架。 44:16 从闭源到开源，需要 another layer of hard work：如规范代码、适配开源推理或训练框架。 -不同的开源策略：开源最强模型 VS 有所保留 49:14 不同开源策略主要和盈利模式与诉求有关。不靠 API 赚钱或期望推动更大格局变化（如形成标准）可能选择开源最强模型；另外，一些非盈利机构也会“非常开”，如 Allen AI 和 EleutherAI，罕见地开源了数据集。 51:29 是否会看到 OpenAI 开源最强模型？不确定。Sam Altman 在 twitter 发起投票的两个开源选项（o3-mini 和 phone-sized model）都值得期待。 52:36 子涵分享一个大模型滥用案例：自己推特账号被黑经历，“受害者”现身说法。 53:32 Ilya：“if you value intelligence above all other human qualities, you’re gonna have a bad time.” 附录： Allen AI（Allen Institute for AI）：已故微软联合创始人、慈善家保罗・艾伦于 2014 年创立的非盈利研究机构 Eleuther：一个草根、非盈利 AI 研究机构 FlashAttention：基于分块计算的注意力优化技术，减少内存占用并提升效率 MLA：多头潜在注意力机制，优化长序列处理效率 vLLM：大语言模型推理框架，优化显存管理和吞吐量 SGLang：结构化生成框架，支持灵活域特定语言控制 ESFT（Expert Specialized Fine-Tuning）：专家特化微调技术 NPU：神经网络处理器（一种 AI 芯片），专为深度学习计算优化能效 FP8：混合精度计算格式，平衡性能与数值稳定性 ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。相关链接光年之外联创再出发，与袁进辉聊 AI Infra 到底做什么？ DeepSeek Inside：彻底的技术开放，成就的商业奇观本期主播：小红书 @曼祺_火柴Q，即刻 @曼祺_火柴Q ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

Feb 11, 2025 • 1h 17min

101: 与王小川聊AI✖️医疗：通向“生命科学的数学原理”

「从把物理变数学，到把语言变数学，再到把生命变数学」将近 8 个月没有更新大的模型版本后，百川在春节前发布了推理模型 Baichuan-M1-Preview。在一批头部大模型公司中，百川在 24 年年中明确做出了选择：聚焦医疗。这是王小川长久的关注，他说：2000 年，他研究生的毕业论文就是做基因测序的拼接算法，当时他就想知道，生命的数学原理是什么？因为发现数学、物理等科学体系不足以解释生命了，他还去研究了中医，也投资过中医公司。他认为中医是一种哲学。在 2023 年成立的百川上，王小川统一了他对生命科学的长久关注与追求 AGI。这让成立之初，讲通用模型和应用的百川看起来 “变了” 、 “慢了”，也走到了焦点之外。去年，百川既不参与模型 API 价格战，也没有跟进投流大战。社交媒体上出现不看好百川的声音。也有投资人告诉我：“百川其实是最稳的大模型独角兽之一”——累计融资超 50 亿元，却没怎么烧钱。在百川发布新模型 M1 后，我们访谈了王小川，聊了百川做医疗的源起，王小川理解的 AGI 与医疗和生命科学的关系，以及百川已经发生的落地实践——2025 年一季度，每个海淀居民就可能有一个 AI 医生助理。多数人认为做医疗是转向垂直领域，王小川的逻辑则是：医疗不是垂直场景，因为任何一个 AI 技术在医疗上都有用武之地，它不会被今天的 AI 淹没掉。当更多同行与科技大公司在同一个战壕里厮杀时，强调创业要“走出大厂射程之外”的王小川看到了什么？以下是他的阶段性回答。登场人物：嘉宾：王小川，百川智能创始人兼 CEO 主播：程曼祺，《晚点 LatePost》科技报道负责人。时间线跳转： - 中国公司快速做出推理模型 03:28 内蒙古脑梗患者案例，百川 M1 给出的诊断方向与协和医院会诊高度吻合 03:41 走向开源是既定计划，方便医疗行业上手调优 06:09 快速追 o1：蒸馏不是秘密 07:35 DeepSeek “技术慢半步”超出预期 - 造医生等于 AGI，医疗不是垂直领域 12:53 成立百川时就想做医疗，2016 AlphaGo 和魏则西事件带来的思考 14:48 2000 年就做基因测序拼接算法，好奇生命的数学原理，研究中医 17:21 ChatGPT 带来的判断：语言是中轴，AI 不是第四次工业革命 20:36 为什么成立时未特别强调医疗？ 21:20 为何医疗不是垂直？ & 团队反馈 - 落地应用：北京儿童医院、海淀区 26:47 与北京儿童医院合作，为什么从儿科开始 30:52 今年一季度，每个海淀居民会有 AI 医生助理 31:57 三种付费方式：政府、医院和商保等；另一个机会是出海 36:53 做大模型后“见过的省长和市委书记比过去都多” 38:45 招投标过程分享 - 医疗，怎么继续超级模型+超级应用？ 40:37 训练医疗超级模型成本更高，但有相应价值。 42:47 中国一年就诊人次超 84 亿 45:24 医疗行业不会被通用智能吃掉，因数据、场景特殊性 - 语言是主轴，直接用图像、视频训练是走偏了 47:56 M1 有多模态，主要是为了交互，多模态不能开辟技术赛道 48:21 o1 验证了语言是智能主轴 51:18 下一个范式迁移是 AI 自己造工具 52:57 怎么看“Yann LeCunt 认为只靠语言无法让 AI 理解真实世界规律”？ 56:19 更远的未来：义体化、攻壳机动队、AI 延续“人类文明” - 从搜狗到百川58:30 两次创业比较 01:02:02 需要更多年轻人 01:05:13 去年一年，创造了什么？健康、快乐吗？ 01:06:57 室温超导带来“蒙圈”，参与 AI 浪潮的幸运 01:14:05 99.99% 的人低估了变化，大模型有望让世界更平 01:15:53 2025 年的两个期待 ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。本期访谈图文版：晚点对话王小川|不是文本创作、不是物理模型，AGI 的尽头是生命科学往期 AI 大模型播客 MiniMax 创始人闫俊杰：做大模型，千万别套用移动互联网的逻辑李开复聊零一部分团队并入阿里：只有大厂能追逐超大模型硅谷怎么看 DeepSeek？与 Fusion Fund 张璐聊开源、Agent 和“除了AI” 剪辑制作：甜食本期主播：小红书 @曼祺_火柴Q，即刻 @曼祺_火柴Q ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

Jan 29, 2025 • 1h 16min

100: 硅谷怎么看 DeepSeek ？与 Fusion Fund 张璐聊开源、Agent和“除了AI”

「技术的力量，开源的力量，初创生态的力量」 2025 年 1 月，农历春节也没有让模型竞赛丝毫减速。DeepSeek 发布开源推理模型 R1，以相对低的成本，在一些 Benchmark 上比肩，甚至超越了 o1 的表现，在全球掀起了广泛讨论。这期节目，我们邀请了 2015 年，在硅谷创立了 FusionFund 的投资人张璐，来和我们一起聊一聊，当前美国科技圈和硅谷语境中，对 DeepSeek 等模型的讨论。我们也延展聊了 DeepSeek-R1 和 o1 等推理模型打开的 Agent（智能体）应用空间；以及在美国的科技投资视野中，除了 AI ，大家还在关注什么。 FusionFund 曾投资 SpaceX、AI 音频公司 Otter.ai 还有 AI 与医疗结合的公司 Subtle Medical 等。在 AI 领域，Fusion Fund 重点投资美国本土的 to B AI 公司，关注 AI 与医疗、太空科技等领域的结合。张璐认为，DeepSeek 能有如此出圈的影响力，重要原因之一是开源生态的胜利，而开源的繁荣更有利于初创企业。张璐也谈了她对“DeepSeek”利空英伟达和 GPU 算力需求，以及 Meta 等美国科技大公司感到的压力。她的观察是，长线看，DeepSeek 这类大幅降低 AI 模型训练、部署和使用成本的开源成果，会促进更多公司把 AI 大模型带到各行各业，这会提升 AI 用量和算力需求，对算力并不是一个利空。对 Meta 这样大力投入开源的大型科技公司，张璐认为，它们的一些贡献和整个开源社区的进展，本身是 R1 这类成果出现的条件之一，同时 Meta 作为美国 AI 开源生态的主要玩家之一，也会长期受益于开源的繁荣。我们聊这期节目时，是 2025 年 1 月 27 日上午，当天晚上，英伟达股价大跌超 17%，市值蒸发超 5000 亿美元。这次波动幅度超出一些人的预期，但也许并不影响长期的趋势判断。1 月 28 日，英伟达又反弹 8%，股价从前一天最低约 116 美元回升至 129 美元。你“抄底”了吗？登场人物：嘉宾：张璐，Fusion Fund 创始合伙人主播：程曼祺，《晚点 LatePost》科技报道负责人。时间线跳转： - DeepSeek“冲击”，开源生态的胜利 02:51 张璐达沃斯峰会期间，各路商业领袖讨论 DeepSeek 04:13 去年年中，Anthropic 和 OpenAI 的朋友就提及过 DeepSeek 04:59 R1 的“惊喜”来自：1.开源 2.跳过监督学习的强化学习 3.成本优势 08:03 这对 Scaling Law 是好消息：可免除大量标注数据，结合更多合成数据，让模型自我“反思” 12:27 一直相信开源的力量，开源更利好初创生态 15:30 DeepSeek 改变大家对中国模型的印象：工程优化外，底层架构也有创新。 16:46 AMD 宣布与 DeepSeek 合作，但这也不是利空英伟达，因为DeepSeek 等成果会降低更多行业使用大模型的成本门槛 19:55 Meta 短期有公关舆论压力，长期受益开源繁荣 23:06 DeepSeek V3 557 万美元训练费用，只算了 GPU hours 25:29 OpenAI 的秘密武器？是否低估了开源与闭源的差距？ 28:09 X.ai 的特别优势：有 3D 产业数据（Tesla、SpaceX 的生产、产线数据等） 30:32 DeepSeek 的“诗意输出” ：模型有不同“性格”，不同语言也可能带来不同“思维方式” 33:12 2025 年 AI 升级方向：垂直小模型、AI 进入边缘设备、架构创新 - 推理模型带来的 Agent 机会 40:08 试用 OpenAI Operator，目前还很慢，会编造信息，但前景美好；Salesforce、微软等大公司在布局行业 Agent。 43:50 Sam Altman 称很快会让 ChatGPT Plus 会员（20 美元/月订阅）用上 Operator，这话得“打折”听。 45:25 美国 B 端客户对准确性和专业度要求高，对当前 Operator 的形态接受度低，更希望获得专业、精准产品。 46:50 Operator 与传统 RPA（流程自动化）的区别：交互革新。 49:36 医疗、金融、保险、太空科技领域都有 Agent 应用机会。 53:33 Agent 隐私问题——一个实例：人们更喜欢向机器/AI倾诉疾病困扰。 56:15 AI Native 的一代：一出生就和 AI 玩具聊天的孩子们 56:33 美国基于开源基座模型+第三方 infra 服务+应用，生态活跃；而国内投资人有时担忧只做一个环节的公司太轻，易被巨头挤压。 01:03:04 硅谷创投圈的热闹，每周有新东西，幸福感高，竞争压力也大。 - 除了 AI 01:06:23 科技和生命科学结合（Bio Tech）& 太空科技（Space Tech） 01:10:15 美国创新核心在硅谷，波士顿、纽约、奥斯汀、洛杉矶也在崛起，如洛杉矶形成了 Space Tech 聚集地。 01:13:40 2025 年充满变数，期待更好保护创新生态，防止技术和资源被大企业垄断。 ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。相关链接： OpenAI 来了！与硅基袁进辉聊 o1 新范式和开发者生态 DeepSeek 爆火引发系列连锁反应，Meta 建立 4 个小组研究 DeepSeek 剪辑制作：阿鲸Hval 本期主播：小红书 @曼祺_火柴Q，即刻 @曼祺_火柴Q ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：封面：AI 生成的数字巨鲸。

Jan 20, 2025 • 1h 38min

99: MiniMax 创始人闫俊杰：做大模型，千万别套用移动互联网的逻辑

更好的模型可以导向更好的应用，但更好的应用和更多用户并不会导向更好的模型。头图是 Dota 2019 国际邀请赛决赛（TI9）中，OG 战队的 Ana 使用 IO（小精灵，图中球形发光体）的经典作战，OG 在 TI9 中夺冠。为什么用这个图，播客里有答案~ 经过 “一切在加速” 的 2024 年，围绕中国大模型创业的讨论，从 “谁又融资了？” 变成 “谁会第一个倒下？” 行业分化时刻，我们访谈了中国大模型六小龙之一，估值已超 30 亿美元的 MiniMax 创始人兼 CEO 闫俊杰，聊了 MiniMax 的新技术目标，他们刚刚发布的首个开源模型系列 MiniMax-01 ，去年一年公司的变化和人员调整，以及闫俊杰作为一个“练习时长 3 年”的“新人 CEO”的自我复盘。 10 个月前，我们就访谈过一次闫俊杰。那次他提了很多字节；这次再聊，明显感到他主动提字节少了，提 Anthropic 多了。这与行业风向形成微妙的反差。在他更在意字节的 2024 年 3 月，大模型创业最是烈火烹油。而现在，越来越多人开始讨论大厂对创业的压力，MiniMax 本来是看起来相对 “安全”：它的 AI 社区产品 Talkie 的最新月活用户数已超过 Character.ai，成为同类产品全球第一；其在中国的 AI 社区产品 “星野”，用户数、使用时长和留存率也都是第一，高于字节旗下的同类产品。闫俊杰却自己推翻了这些优势，在他现在的认知里，用户数等指标并非 AI 竞争的核心，他说： - 千万别套用移动互联网的逻辑来做 AI。移动互联网的逻辑是：用户越多，反馈越多，推荐算法越聪明。而闫俊杰认为，AI 大模型和产品的真实关系是： - “更好的模型可以导向更好的应用，但更好的应用和更多用户并不会导向更好的模型。” 在这个认知更加明确后，闫俊杰说他做出了取舍，现在 MiniMax 最重要的目标不是增长，也不是收入，是 “加速技术迭代”。不到一年的两次访谈，我们从聊移动互联网到聊跳出移动互联网的逻辑，从讲 2024 年的目标到闫俊杰复盘当时定目标的逻辑就不太对——AI 行业和其中的人都在快速变化与迭代。时间线跳转： ·聊 MiniMax-01 新模型系列：为什么开源？ 02:12 为什么开源——加速技术迭代 & 加强技术品牌 08:22 行业误区：认为更好的智能水平要依赖更多的用户；其实不然 13:01 想清楚这个逻辑后：模型要追求不断提高上限，而产品就是产品 15:11 明确 MiniMax 是一家技术驱动的公司 ·聊对技术的态度：“一年前最喜欢说信仰的人，信仰都兑现了吗？” 18:01 “随热点而动？”这是对我们的误解 20:13 现在没人能定义什么是 AGI，只能定义智能水平会不断进步 22:00 作为创业者，不是说 Scaling Law 撞墙了我就放弃了，而是努力找方法延续它 23:59 一年前最喜欢说信仰的人，信仰都兑现了吗？ ·聊 Agent：long-context 很重要，探索 coding 之外的 Agent 场景 25:31 Agent 能处理复杂任务，复杂任务指在专业领域达到专业人士水平 27:51 Agent 需要模型架构和能力的提升；MiniMax-01 做到了第一点 29:08 01 改传统 Transformer 里的非线性注意机制为线性注意力机制，提升了处理 long-context 的能力，这对单 Agent 交互质量，和多 Agent 通讯都很重要 35:07 为什么没发 o1 方向模型？ 39:40 多模态能力在 OpenAI L1-L5 的 AGI 路线图里很重要 41:04 AI 编程助手 Cursor 的成功并不基于 o 方向的模型 41:51 蒸馏 o1 数据复现 o1，没那么难 44:09 编程之外另一 Agent 落地场景：信息的获取 51:09 中美模型的一个区别，前者缺少内部 benchmark 55:19 MiniMax 的技术团队特点：模型、Infra 和工程的综合能力强；客观、扁平、灵活 ·聊模应一体：市场不是有 A，就不能有 B 01:01:38 模型、应用一起做，还有必要吗？ 01:03:59 即使更晚创业，也不会做只做应用的公司，因为想做基于未来技术的产品 01:04:44 海螺文本的失利——没有坚持技术驱动 01:06:48 Talkie、星野的暂时领先——因为更懂用户 01:07:34 做技术的人大部分觉得自己很牛，但我不是这么认知世界的 ·聊竞争：不要区分大厂和创业公司 01:07:56 不用把创业公司单独当一类公司 01:09:22 DeepSeek 也很纯粹；智谱第一个有 AI 路线图 01:09:59 MiniMax 的路线图？——逃出生天，下一步最重要 01:11:19 一年来大模型竞争最大的变化：更多人意识到这和移动互联网是两件事 01:12:29 没和字节谈过被收购，从来没想过把公司卖一个什么价钱 01:15:02 24 年没完成年初目标，定目标的逻辑就不太对 01:16:28 大厂投入和竞争激烈程度都在预料之内 01:18:46 AI 产品该看什么指标？ 01:20:25 大公司之外，更大的“危险”还是来自自己的认知 ·聊团队和自己：放下 ego，深度思考 01:22:49 不要假定团队没有流失，流失才是正常的 01:23:24 MiniMax 需要的两种人 01:25:48 确定研发优先级需要做取舍，不见得每个取舍都对，纠错很重要 01:26:56 CEO 决策什么不决策什么不重要，重要的是组织有共同决策标准 01:29:48 让所有人都觉得公司被管得很好，这不是一个目标 01:30:28 打造 AI 组织的难点：持续吸引更好的人 01:31:17 半年多前焦虑，现在不了，因为已做出取舍，以技术迭代为最大目标 01:32:08 去年反思最多的问题——认知能力为何不能提升得更快？ 01:32:16 放下自我，思考得更深入 01:34:29 为什么一直被叫 IO？ 01:36:38 25 年对自己的期待：不断提高技术水平相关链接：《晚点对话 MiniMax 闫俊杰：创业没有天选之子》2025 年 1 月《对话 MiniMax 闫俊杰：AGI 不是大杀器，是普通人每天用的产品》2024 年 3 月 MiniMax-01 开源系列模型技术博客登场人物：嘉宾：闫俊杰，MiniMax 创始人兼 CEO 主播：程曼祺，《晚点 LatePost》科技组负责人。小红书 @曼祺_火柴Q 即刻 @曼祺_火柴Q 剪辑：甜食 ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章

The AI-powered Podcast Player

Save insights by tapping your headphones, chat with episodes, discover the best highlights - and more!

App store banner

Play store banner