
晚点聊 LateTalk
《晚点聊 LateTalk》是《晚点 LatePost》出品的播客节目
由曼祺和汉洋主持
片言可以明百意,坐驰可以役万景
Latest episodes

Jun 11, 2024 • 1h 53min
71: “如果相信只靠 Scaling Laws 就能实现 AGI,你该改行了”,与香港大学马毅聊智能
本期节目是「晚点 LatePost」上周发布的《对话香港大学马毅》的采访音频。(原文见 shownotes 末尾链接)。
马毅现在是港大计算机系主任和数据科学研究院院长。自 2000 年从加州伯克利大学博士毕业以来,马毅先后任职于伊利诺伊大学香槟分校(UIUC)、微软亚研院、上海科技大学、伯克利大学和香港大学。
在如今的 AI 领域,马毅是一位直言不讳的少数派。不少人相信用更多数据、更大算力做更大参数的模型,就可以实现通用人工智能,这就是大模型的 Scaling Laws,它被一些人视为“信仰”。
马毅则不相信这条路。他认为现在的深度学习网络本质上,都是在做压缩(compression):就是从图像、声音和语言等高维信号里,找到能表示数据间相关性和规律的低维结构。
GPT 表现出来的数学推理等能力,在马毅看来本质还是依靠记忆和统计,就像一个接受填鸭式教育的、高分低能的学生,它并不能学到因果推理、逻辑等能力。这离他定义的智能还有相当距离。他认为智能最本质的特征是:能纠正自己现存知识的不足,而且能增加新的知识。
由此,马毅也完全不买账 AI 威胁论,他认为,说现在的 AI 危险的人,“要么是无知,要么是别有目的”。
为解释深度学习网络到底在做什么,马毅团队最近几年的重点工作是,白盒大模型,也就是用数学来解释深度学习网络的压缩过程,以找到更高效的压缩方式。
他也希望以此来对抗黑盒带来的误解,因为“历史上,任何有用的黑盒都可能变成迷信和巫术”。他担心 AI 威胁论可能带来过度监管,导致垄断,遏制创新。
真理不一定掌握在少数人手中,但少数派和观点竞争的存在增加了发现真知的概率。
*访谈过程中涉及了一些论文、著作和术语,我们也标注在了 shownotes 里的附录部分。
时间线指引:
-现有主流路线的局限
02:49 工业界更关注现有方法提效,而白盒模型刚提出时的工程验证有限。
05:08 现在的大模型是通过经验找到了一些有效的方法,但它引起的量变不是真正的智能。
08:29 现有方法其实只模拟了记忆的局部功能,资源消耗大GPT 类模型仍“高分低能”。
13:26 当整个community 都认可一两件事,可能忽略掉其他可能更重要的事,曾经的深度学习就是一个例子。
15:45 如果你作为年轻人,相信只靠 Scaling Laws 就可以实现 AGI,你可以转行了。(这部分提及的文章是附录里的 wide eyes shut)
18:44 因为研究不要怕特立独行:当年在微软亚研院招何恺明等员工,都会让大家想:你做的哪些事别人做不了?
-智能的原则:简约与自洽;达到智能的可能路径:白盒、闭环、自主
21:19 2017 年回到伯克利后,开始梳理已有成果:现有深度网络都是在做“压缩”(compression)。
23:18 白盒大模型是给这个压缩过程找到数学解释。
24:52 科学史上的好想法总会被翻新。
26:11 知道了压缩到数学原理,能帮助找到更高效的压缩方式。
26:50 Everything should be made as simple as possible, but not any simpler.前半句对应简约,后半句对应自洽。
29:39 为什么智能会出现?——世界上有值得学、能学到的规律。
32:47 知识不等于智能,GPT-4 有更多知识,婴儿更智能。智能的本质特则会给你是能纠正现存知识的不足并增加新的知识。
37:13 达到智能,除了从黑盒到白盒,还有从开环到闭环,从人工到自主。
40:48 自主学习的含义之一是,人的学习是在大脑内部建模完成的,不需要真去对比外部物理信号,生物没有这个选项。
46:17 跨学科研究和借鉴神经科学帮助形成了上述想法。
-验证推演 & 白盒对黑盒的祛魅
48:41 ReduNet 是一个框架,但工程实现还不够;CRATE 做了工程优化。
55:32 历史上任何有用的黑盒都可能变成巫术。
57:03 有人说 AI 是原子弹,我们看很可笑。
57:33 政府应该监管技术的应用,而不是技术本身。
59:07 从去年开始,更迫切感到要让更多人知道现在的 AI 在作什么,AI 没这么可怕。
60:16 白盒更实际的作用:减少试错成本、GPU 成本。
-对智能历史的梳理
01:05:04 为何机器智能的结构会类似生物智能?——尚未看到更高效地方法。
01:07:13 从维纳的《控制论》开始,第一批研究智能的选择并没有区分机器与生物。
01:09:58 闭环系统的好处,解决“灾难性以往”问题。
01:13:13 对(人工)智能的研究并非始于1956年。
01:15:26 深度网络的两次危机都与缺乏数学解释有关,但现在可能不会再发生。
01:17:23 从生物学和神经科学中学习,猴子大脑机制与智能研究发现的相似性。
01:20:36 真正的智能应具备自主学习和自我纠错的能力。
-创业 & 教育
01:24:14 学校做验证,公司做放大,希望证明白盒路线的可行。
01:29:09 要么有量变,用白盒显著降低训练资源or提升训练效率;要么有质变,探索闭环、自主的可能性。
01:38:53 业界其他的非主流路线探索:LeCun 的 JEPA,李飞飞新创业等。
01:41:21 港大正在推动 AI literacy 课程,所有专业都学,AI 应成为通识教育的一部分。
01:48:39 达特茅斯会议为什么在智能前面加上 artificial?——也是追求和前辈不一样,想探索人类高级智能。
01:52:20 科学竞争最关键的就是人,重要的是把资源分配给正确的人。
相关链接:
对话香港大学马毅:“如果相信只靠 Scaling Laws 就能实现 AGI,你该改行了”
https://mp.weixin.qq.com/s/YTLWgcsGds86lgW_druXBQ
【视频】马毅教授谈神经网络,《简约和自洽》:神经网络从黑盒到白盒,学习模型从开环到闭环
(听完播客还有兴趣了解跟多的话,非常推荐这个视频,有图解、有现场,深入简出)
https://www.bilibili.com/video/BV1tN411F77Z/?vd_source=3ea9875872e1534f62079295c4e2c464
忆生科技Engram正在招募优秀人才,简历请投递:recruit@transcengram.com
访谈中提到的论文:
Scaling White-Box Transformers for Vision, 2024/5
https://arxiv.org/abs/2405.20299
Eyes wide shut? exploring the visual shortcomings of multimodal llms, 2024/4
https://arxiv.org/abs/2401.06209
White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? 2023/11
https://arxiv.org/abs/2311.13110
Unsupervised Learning of Structured Representations via Closed-Loop Transcription, 2022/10
https://arxiv.org/abs/2210.16782
本期人物:
马毅,香港大学计算机系主任
程曼祺,晚点 LatePost 科技报道编辑(微信:momochoqo;即刻:程曼祺_火柴Q)
剪辑:甜食
附录:访谈中提到的技术术语、概念和人物
维纳:在 1940 年代前后提出控制论。播客中提到的《控制论》的副标题是:under control and communication in animals and machine(“或关于在动物和机器中控制和通信的科学”)
香农:在 1940 年代前后提出信息论
Yann LeCun,图灵奖获得者、Meta 首席科学家
李飞飞,知名 AI 研究者,斯坦福大学教授
何恺明,知名 AI 研究者,ResNet 作者
1956 年达特茅斯会议:提出了人工智能(Artificial Intelligence)这一概念的会议
ReduNet,马毅团队 2022 年发布的白盒大模型理论框架
CRATE,马毅团队 2023 年提出的更新的白盒大模型
JEPA,Yann LeCun 团队提出的一种世界模型架构

May 30, 2024 • 1h 20min
70: 开始第三个一千零一夜,与米可世界 Emily 聊中东出海 6 年
封面:米可世界中东团队合影。
前不久,我接受米可世界的邀请和一些媒体朋友一起去了迪拜、沙特和埃及,了解中国企业的中东出海。
本期《晚点聊》就邀请到了米可世界的中东项目负责人 Emily。
2018 年,毕业复旦数学系、在上海工作的 Emily 48 小时内决定去中东创业,买了一张机票落地埃及后开始做语音社交产品,之后她又加入赤子城旗下的全球线上社交娱乐公司米可世界,负责语音社交产品 YoHo 等项目在中东的运营。
5、6 年里,米可世界的中东团队从一个会议室就能坐下的几十人发展成到了超 300 人,覆盖海湾、北非和部分南欧市场,运营着 MICO、YoHo、TopTop 和 Sugo 四个产品,过去一年收入超过 10 亿元人民币。
Emily 分享了很多中东创业的故事:最开始吃不惯阿拉伯食物,一天只吃一顿饭;沙特国庆时被也门大户写小作文指责,越来越了解中东各国间的微妙差别和对应的运营策略;在疫情时与同事一起应对行业危机。
Emily 在埃及的 6 年已经超过了 2000 天,可以开始听第三个一千零一夜了。这本古老的书暗合中东文化的一个特点:爱聊天,爱讲述。这是语音等各类社交产品在那里外受欢迎的原因。
绵延西亚、阿拉伯半岛和北非、有 4 亿人口的阿拉伯世是一个有众多国家和民族交错的复杂市场。不沉下来做本地化很难了解各中生存策略。Emily 的一手体验里就有在中东淘金的线索。
内容摘要:
·落地埃及:创业、加入米可,运营 YoHo
01:13 2018 年初打算投资中东的社交语音 App,后来自己创业,不到 48 小时决定来埃及。
03:30 2019 年加入米可,负责运营 YoHo,认定中东社交是大市场。
07:00 中东市场的优点:人口多,文化相似,当时的竞争相对少;难点:文化差异、互联网人才较少,细分度超出想象。
09:30 为何加入米可?——专注海外、重仓中东,中东市场需要很重的本地化。
13:01 什么团队配置适合出海:米可的组合是腾讯、微博(互联网)+华为、中兴(海外)
15:05 语音社交的产品形态?中东用户怎么用它?
17:23 在埃及理解了为何需要和陌生人聊天;生日收到平台用户 3000 美元的打赏。
19:45 国内和中东语音产品的区别:国内更偏内容,中东更偏社交。
25:04 王子飞机游艇轮番秀在中东也很罕见,但这里的一般工薪层更愿意花钱娱乐。
·深入本地化:细分市场的门道
27:29 中东“土豪”人没大家想象多,赚他们的钱也没那么容易。
28:30 中东多国间的差异化运营,沙特国庆时,被也门用户吐槽的故事。
30:15 TopTop 很长时间里的第一大户是巴林人,中东任何小国家都可能有大客户。
35:23 怎么看 TikTok 加码中东?
37:10 米可的多产品运营策略。
41:20 米可现在是多 App 的“灌木丛”策略,但同时在看大 App 的机会。
·出海建议
44:57 中东这两年热起来,热门中国电影也在考虑来中东。
47:11 出海落总部,阿联酋、沙特、埃及等怎么选?
48:40 用人之道:从招有更多经验的人变成招和培养年轻人。
52:08 没有在埃及职场观察到“躺平文学”
53:40 怎么在日常管理团队时融入本地文化。
54:40 通过更高质量的决策挺过 2020 年的政策危机。
62:43 对出海公司的建议:最重要的是选好当地负责人和合作伙伴。
64:49 中东本地 VC 不发达,在中东的初创中国企业尽量拿国内的钱,如 Yalla。
67:43 个人成长:真正体验了商业实操、管理实操,理解了“无所畏惧”。
74:46 对追求极致的数学解释。
相关链接:
海湾淘金:中国公司奔赴另一场招商引资
https://mp.weixin.qq.com/s/IK2JuQJSbNlbL-lr95-gHQ
(我问米可想贴什么链接让大家了解公司,他们很直接,上招聘链接:😀)
米可世界招聘官网
https://micoworld.jobs.feishu.cn/index
登场人物:
Emily,米可世界中东运营负责人,负责 YoHo 等产品
程曼祺,晚点 LatePost 科技报道编辑(微信:momochoqo;即刻:程曼祺 火柴Q)
剪辑:甜食

7 snips
May 15, 2024 • 1h
69: 每个人活着都不舒服
本期节目请到了《日常的深处》作者王小伟来聊聊为啥大家都活着不舒服。朋友你可能最近已经在不少节目里听过小伟了,但要相信汉洋能和他聊点不一样的,毕竟汉洋活着是这不舒服。
本期节目我们聊到了:
感觉今天好像每个人都活着不舒服,是吗?
说这么多有啥用呢?
为什么要批判日常消费生活?
现代化是不是来得太快了,还没给我们足够的时间准备
互联网实现了它的承诺吗?
你开心就好,真的能好吗?只要你努力就会更好,真的能更好吗?
日常生活是怎么没的?
到底应该怎么办?
我们的社会是不是一定会变成现在这样?
情绪价值是价值吗?
相关链接:
日常的深处
早上挤地铁,中午叫外卖,晚上刷手机,打工人如鲠在喉的一天|王小伟 一席第1052位讲者
西二旗的杨枝甘露
登场人物:
王小伟:大学教师,《日常的深处》作者
汉洋:现在是黄毛版(其实是银色)
剪辑:甜食
封面:汉洋在柏林的随手拍

Apr 30, 2024 • 47min
68: 怎么运营一家美术馆?和艺仓美术馆馆长余光照聊聊艺术、艺术馆和怎么办展
本期节目汉洋和嘉宾余馆在画廊里聊了聊美术馆这件事。可能你看过很多展,但估计和汉洋一样,不知道这到底是个什么事儿?看不懂怎么办?官方到底烦不烦「打卡」?新艺术家要怎么办展?策展人到底在做什么?
本期节目我们聊到了:
从煤炭码头到美术馆
美术馆「看不懂」到底该怎么看?
做美术馆赚钱么?或者说维持美术馆正常运行的经费来源是什么?
什么人是美术馆的主要客流?
美术馆的运行模式,以及美术馆和艺术家之间的关系,国内外是否有不同。
美术馆除了办展览,还承担了哪些功能?
一个展览是否如看上去那样(以一定的主题展陈一定数量的展品)这么简单?办一个展览,不同参与角色(美术馆、策展人、艺术家、或者其他参与方)的目的是什么?
一个展览大概流程是什么?有什么琐碎的工作要去做?
一个展览闭幕以后,展品哪去了?为什么有的作品需要销毁?
数字艺术流行的时代,为什么还要来美术馆看呢?
如果一个没有名气艺术家想办一场个展,或者说他可以策划一个群展,那么他应该如何去做?
你们会帮新艺术家的项目找赞助吗?
怎么看待在美术馆里打卡这件事?
相关链接:
艺仓美术馆的官方播客是:《艺术范儿》
艺仓美术馆
[微信公众号:艺仓美术馆 MAM]((https://mp.weixin.qq.com/s/1M4rJUhEKgnuXl6FFn_rKQ)
【当前展览】
“繁衍生息”/“行于暗”
【展览信息】
见“外”知“内”,3月23日艺仓两展同开
登场人物:
余光照:艺仓美术馆馆长
汉洋:不会拍照
后期:甜食
封面:艺仓美术馆

Apr 25, 2024 • 1h 5min
67: 与《刚性泡沫》作者朱宁聊普通人保住财富:为什么多元化投资更好?
*本期音频来自访谈素材,建议大家如有条件可用耳机收听,效果比外放更好。
今年 3 月中旬,《晚点聊》在北京访谈了经济学家朱宁,聊了聊在不确定性的世界,如何做投资,怎样看待中国经济。
朱宁是中国少有的将国内和国际视野、学术研究和业界经历结合得比较好的经济学家,为人亲切、说话坦诚。在访谈中,他慷慨地分享自己的观点和见闻,甚至包括个人投资组合和犯过的投资错误。
其中一个错误是他在 2008 年加入了雷曼兄弟。那时,他刚拿到加州大学戴维斯分校的终身金融教授职位,离博士毕业仅有五年,意气风发。“严重过度自信”的他本来有五个选择,但最后选择了 “最不应该的” 雷曼。
2010 年,在内地 “蓬勃向上” 的氛围吸引下,朱宁重返学术界,参与了上海交通大学上海高级金融学院的创立。2016 年,朱宁怀抱着“经济学要经世济民” 的理想情怀,来到清华大学,更多地参与到政策制定中。现在,他在上交、清华和耶鲁都有学术职位,但在考虑转向业界。
2010 年回国后,朱宁呈现出两种形象。一种是行为金融学在中国的倡导者。他通过研究投资者行为和心理,揭示出人的非理性,称 “投资者最大的敌人就是他们自己”。
另一形象是中国经济金融领域存在泡沫的警示者。对于 “购房是刚需” 的观点,他批驳了十年,提醒投资者房地产行业存在泡沫。他也曾在 2015 年股市震荡发生前多次警示投资者,称 “崩盘总比预期来得早”。他在 2016 年出版的著作《刚性泡沫》(China's Guaranteed Bubble)中,则警示了中国经济由于存在刚性兑付和隐性担保,亟需化解资产泡沫和系统性风险。
今年 1 月,《刚性泡沫》出了增订版。朱宁在书中称,过去几年发生的一些重大事件都在 “本书上一版中有所预见和讨论”。例如 2015 年的股市震荡,2016 年的棚户区改造货币化安置,2018 年的资管新规和科创板的推出,2020 年的三条红线和共同富裕,2021 年的房地产企业爆雷,2022 年的新房交付困难和购房者断供。
看到现实一定程度应验自己的理论,朱宁心情复杂。“我希望我是错的,我一直是这个心态,这两年更是如此。” 他觉得虽然已经有了很多进步,但要真正化解泡沫和风险还有很长的路要走。
本期节目我们聊了:
03:33-这几年,有哪些与投资相关的重要叙事变化?
10:00-很多人觉得自己和巴菲特的差距非常小。
16:35-房地产的黄金时代已过,如果大家有多套房,应该考虑多元化配置。
33:51-看好黄金和美债,仍质疑比特币。
42:00-如果一个市场不能给投资者长期创造价值,投资者一定不会愿意在这个市场投资。
58:33-政府要建立好社会的安全垫,个人努力提高自身人力资本。
相关阅读:
本期《晚点聊》对应的文字报道:《9 年前提醒泡沫风险的经济学家,给普通人的多元化投资建议》
https://mp.weixin.qq.com/s/7RlRST0lYh5TyQVplrXxbQ
朱宁的著作《刚性泡沫》《投资者的朋友》《投资者的敌人》。
乔治·阿克洛夫和罗伯特·席勒合著的《动物精神》《钓愚》。
理查德·塞勒的著作《“错误” 的行为》。
本期出现的人物和简称:
“高金”,上海交通大学上海高级金融学院的简称。
“道口”,清华大学五道口金融学院的简称。
罗伯特·席勒(Robert J. Shiller),诺贝尔经济学奖得主、耶鲁大学教授,也是朱宁的导师。
林毅夫,北京大学新结构经济学研究院院长、教授。
高善文,国投证券首席经济学家。
陆挺,野村证券中国首席经济学家。
孟晓苏,国家房改课题组原组长、中房集团原董事长,现为汇力基金董事长。
邵宇,东方证券原首席经济学家,现为复旦大学泛海国际金融学院金融学特聘实践教授。
登场人物:
朱宁,经济学家,上海交通大学上海高级金融学院副院长,清华大学国家金融研究院副院长,耶鲁大学国际金融中心教授研究员。
曾梦龙,晚点特稿组作者。
龚方毅,“晚点财经”主编。
剪辑:甜食

Apr 10, 2024 • 50min
66: 怎么选发型、为啥烫发贵、咋吹头发:和理发店老板宝哥聊聊美发这个生意和到底该怎么整整头发?
汉洋对于头发的问题可太多了。每次摘下眼镜理发再戴上眼镜简直就是赌博。所以这次索性请了一位美发店的老板来聊聊美发这个行业,从理发师的成长路径再到各种消费者会遇到的常见问题。
本期节目是汉洋染头的时候录制的,所以有一些(故意的)底噪。
本期节目我们聊到了:
一般发型师职业路径是啥样的?
早年南北方造型师的区别是?
当我和发型师说「选个您感觉合适的」时候,发型师是怎判断的?
如何找到自己合适的发型?
该怎么更好的和自己的发型师描述自己的需求?感觉每次理发都是一次赌博。
造型和美发的区别
日常如何打理?
正常理发选择哪一档的价位?我总觉得中间档是给我预备的一个坑,不想剪最便宜的怕万一真剪不好,也不想剪最贵的觉得没必要,理发店是不是也出于消费者的这种心理设定了三档价位,让消费者看似有选择但是正中圈套。
我为什么吹不出理发店里吹出来的发型?
在你眼中什么是一个好的造型师?
开理发店最难的地方是什么?
正月里剪头的人会明显更少吗?
好像理发店这个行业它跟奶茶和餐厅非常不一样,就是到今天你也很少看到那种全国的特别大的连锁,当然有一些连锁了,不过主要是地区性的,为什么会是这样呢?
互联网对你们这个行业有什么改变吗?尤其是有了互联网之后,比如说像小红书、美团对他们是一些什么样的变化了?
你们讨厌被叫 Tony 老师吗?
为什么烫发那么贵?基本上一线城市都一两千起了。
贵的烫发药水/染发原料和便宜的区别到底有多大?
为什么烫发上杠子的时候和染发配颜色和涂颜色不是老师亲自做?
为什么店里洗的头发不容易油,是有专门理发店洗发水嘛?
有什么一般顾客不知道,但发型师都认为是常识的事情吗?
我们作为普通人,应该学习这方面的那些知识呢?各种流行词到底是概念还是真有货?
相关链接:
宝哥的店大象造型
宝哥的小红书
晚点聊之前谈验光的节目
汉洋有个口误,Parsons 在纽约不在伦敦
登场人物:
宝哥:大象造型主理人
汉洋:我不想赌了
剪辑:甜食
题图:正在漂发过程中的汉洋

Apr 2, 2024 • 1h 3min
65: 信仰充值的威力:与逐际动力谌骅聊聊 GTC 和人形机器人新进展 | AI 大爆炸
本期《晚点聊》邀请了在去年底就已造出人形机器人的公司,逐际动力的联合创始人谌骅。
(*节目中涉及的术语可见 Shownotes 末尾的附录解释。)
图:逐际动力人形机器人 CL-1
谌骅于 2012 年获浙江大学控制科学与工程学院自动化专业学士学位及竺可桢学院荣誉学位,在 2018 年获美国俄亥俄州立大学电气与计算机工程博士学位,后在本校进行博士后研究,2019 年 6 月回国。
2022 年,谌骅与他的博士生导师、知名机器人学者张巍一起创办了逐际动力。
今年刚刚过去的三个月,我们已看到了这个领域的诸多新进展: Figure AI 获 OpenAI、微软、英伟达、贝佐斯 6.75 亿美元投资,接入 OpenAI 大模型;英伟达在 GTC 大会上发布机器人基础平台 GR00T,黄仁勋还与科幻动画片主角“机器人瓦力”的实物版同台;特斯拉 Optimus 新释放 demo;做机器人大脑的 PI 获得 OpenAI、红杉等的投资。
与真实物理世界的交互是语言之外的重要学习与智能进化方式,有“身体”的智能也能大大拓展了 AI 的任务范畴。
图:逐际动力四轮足机器人 W1(左),逐际动力点式双足机器人 P1(右)
本期节目,从 GTC 等近期行业热点切入,谌骅分享了他博士以来亲历的技术进展和创业历程、目前人形机器人技术栈的瓶颈;我们也对比了中美人形机器人创业的诸多差异。
他认为,GPT 大大加速了机器人大脑的发展,“小脑部分”也就是勾连大脑决策到最后身体执行的部分仍有很多突破空间,这也是最让人兴奋之处。
内容摘要:
· GTC 与近期进展:看好机器人,但黄仁勋与 Transformer 八子对话又没聊机器人
01:20 小脑能力已经赶不上大脑,更关注小脑
05:12 FigureAI 和 Aloha 背后的新技术:Diffusion Policy,扩散模型用于生成机器人动作
06:44 Diffusion Policy 和 Diffusion 模型之间的关系
09:04 重要提升在于泛化性:机器人可以像人那样洗盘子了,不需要盘子摆放精确
09:47 为何 GTC 黄仁勋与 Transformer 八子论坛完全没聊到机器人?
· 求学与创业:当软件与硬件 meet,机会信号出现
12:56 2016-2017 年读博期间,波士顿动力 demo 表现好,与他们的科学家交流,发现方法很相似
14:29 波士顿动力展现的是「足式运动能力」,它和「操作能力」是两条线
15:00 足式运动能力在控制上为什么难?——一个「欠驱动」系统
18:08 足式运动能力,抽象一下就是谌骅博士研究的课题:混杂系统的最优控制
20:08 MIT 开源硬件方案是对行业的重要推动
21:26 MIT 使用了原本用于其它领域的行星减速器,也从理论上做了解释
24:10 大公司 VS 小公司,一个没有完全 ready 的方向,更看中探索的灵活性
26:30 逐际做了 3 个产品,为什么做这么多?
· 市场观察:人形机器人为什么在中国先火?AGI 信仰充值带来了什么?
27:43 去年中国为什么多了这么多人形机器人?——马斯克效应
29:50 走得像人能体现技术能力,但这也许没那么重要
31:43 逐际的四轮足机器人和点式双足机器人:用在哪儿?干什么?
34:29 点式双足机器人的更强运动和平衡能力——来自这两年强化学习在机器人控制中的运用。
35:00 这和 Transformer 没有直接关系,但整个领域的信仰充值让大家意识到用数据驱动方法做控制是可行的。
36:43 为什么中国做人形机器人的公司看起来比美国公司“更不聚焦”?
40:53 为什么大模型是美国先火,人形机器人是中国先火?
42:45 波士顿动力居然有 30 多岁了!它仍在用液压驱动,几乎不可能产品化
45:19 一个现象:起步太早的科技公司,可能因在老技术栈上积累太深,采纳新技术更慢
47:10 这一次,这件事不会再发生了吗?为什么?
48:54 更确定的事:人形机器人方向;发展不及预期的事:硬件
52:26 机器人的数据也是和硬件耦合的:比如触觉该如何表达?这受限于传感器
54:56 机器人端侧算力,英伟达 Jetston 又先人一步
57:23 人形机器人是交叉学科,兼具软硬能力的人可能会成为主导
59:25 对机器人“叛变”人类谨慎乐观
相关链接:
B站-逐际动力首次公开人形机器人CL-1动态测试(2023.12)
https://www.bilibili.com/video/BV1fc411r7bC/?spm_id_from=333.999.0.0&vd_source=cf48783bb6fd0cb15643d40c5b7b7fb1
基于强化学习,逐际动力双足机器人P1野外徒步
https://www.bilibili.com/video/BV1bw4m1d7Yq/?spm_id_from=333.999.0.0&vd_source=cf48783bb6fd0cb15643d40c5b7b7fb1
逐际动力发布首款四轮足机器人
https://www.bilibili.com/video/BV1XF411m77a/?spm_id_from=333.999.0.0&vd_source=cf48783bb6fd0cb15643d40c5b7b7fb1
晚点聊 ep 40-通用机器人,AI 的下一个浪潮?
https://www.xiaoyuzhoufm.com/episode/64c239d70f7b199a693a55fa
Diffusion Policy 论文
https://diffusion-policy.cs.columbia.edu/
附录:节目中出现的技术、公司等名词
逐际动力:一家通用机器人研发和制造商,产品包括人形机器人、四轮足机器人及相关软硬件和AI解决方案。
·FigureAI:2022 年成立的美国人形机器人公司,近期获得 OpenAI、微软、英伟达、亚马逊创始人贝佐斯共计 6.75 亿美元的融资。
·PI(Physical Intelligence):今年新成立的机器人大脑创业公司,获红杉、OpenAI 投资。
·Mobile Aloha:斯坦福大学服务机器人项目,展示过开窗、浇花、收拾垃圾等能力。
·波士顿动力 Atlas:波士顿动力的一款人形机器人。
·Diffusion Policy:一种基于扩散模型的机器人动作生成策略。
·自由度:系统、模型或物理实体在运动或变化过程中可以变化或被独立控制的参数数量;在机器人领域常说的“某个关节有几个自由度”,就是指关节在运动时可被独立控制的方向和角度的数量,它决定了机器人的动作范围和灵活性。
·欠驱动系统:系统的控制输入数量少于系统自由度的数量,导致系统不能完全控制所有自由度的状态。
·混杂系统:包含连续和离散动态的系统,它们在同一系统内同时存在并相互作用,增加了系统的复杂性。
·连续状态:系统的状态可以在一定范围内无限取值,变化是连续不断的,没有跳跃或间隔。
·离散状态:系统的状态只能取特定的、分离的值,变化是阶段性的,不连续。
登场人物:
谌骅,逐际动力联合创始人
程曼祺,晚点 LatePost 科技报道编辑(微信:momochoqo;即刻:程曼祺_火柴Q)
剪辑:甜食

Mar 27, 2024 • 51min
64: 让奶牛猫跳洗澡舞,与阿里通义薄列峰聊多模态共识中的变量是什么?| AI 大爆炸
年初至今,很多人可能都刷到过跳洗澡舞的奶牛猫和大金毛,从 B 站、小红书到 TikTok,它们一路从中国火到了海外。
让小猫舞起来的应用是阿里巴巴通义千问 App 中的“全民舞王”功能,其背后的技术是阿里通义实验室 XR 实验室开发的 Animate Anyone。
通义实验室 XR 实验室的多模态成果还有可一键换装的 Outfit Anyone,和今年 2 月底刚发布的肖像视频生成框架 EMO(Emote Potrait Alive),它可以用一段语音作为单一控制条件,驱动任何肖像类照片动起来,比如让蒙娜丽莎诗朗诵,让 Sora 女主角开口说话。
*节目中涉及的术语可见 Shownotes 末尾的附录解释。
(视频链接见 shownotes 末尾)
本期节目我们就邀请到了这一系列多模态成果的研发 leader,阿里通义实验室科学家(XR 实验室负责人)薄列峰,来分享他在人工智能多模态领域的实践与观察。
薄列峰于 2007 年获得西安电子科技大学电气工程博士学位,后在芝加哥大学和华盛顿大学从事博士后研究。
在加入阿里前,他先后担任了英特尔资深研究员,亚马逊无人超市 Amazon Go 首席应用科学家和京东数科 AI 实验室首席科学家。
薄列峰的学术和工业界经历刚好横跨深度学习崛起前后,并涉足多个领域,包括计算机视觉、自然语言和 AI 与硬件的结合。
本期节目我们从 OpenAI Sora 对多模态行业的影响出发,聊到了阿里自己的实践,技术与产品的结合——Animate Anyone 支持的“全民舞王”是一个AIGC(生成式人工智能)应用引发 meme 传播的的例子;还有薄列峰对多模态未来趋势,包括更长期的世界模型的技术设想。
内容摘要:
· Sora 和多模态行业进展
01:50 典型的多模态包括文生图、文生视频等;XR 实验室研究范围:解决数字人等问题。
03:19 多模态有较长的发展脉络,从 GAN 到 Diffusion Model 再到如今的 Sora。
06:35 Sora 的冲击:恐惧无益,视频生成尚未完全解决,世界模型仍有探索空间。
08:04 世界模型的定义和实现方法尚未达成共识。
09:09 Sora 带来了挑战与冲击,创业公司的机会。
10:51 面对 Sora,大厂的数据优势是否仍存在?
· XR 实验室的多模态探索
12:40 多模态模仿人类智能和能力,是自然而重要的发展方向。
14:00 阿里多模态研究脉络:数字资产生产+技能;技能涵盖表情、动作和交互等。
18:26 EMO 通过单一语音控制生成视频,无需动作序列。
20:40 Talking head 之前也有人做,新方法的区别在于使用了大模型。
21:32 大模型带来的变化:EMO 是 zero shot,生成过程简单、轻量;同时效果更生动、复杂,适应性更强。
· 技术与产品的协同进步
24:10 Animate Anyone 用到通义千问 app 中是技术研发和应用的交集。
26:28 用户带来的启发:让宠物跳舞比让人跳舞更受欢迎,因为宠物只能通过技术来跳舞。
27:10 上传狗的人比猫的人更多,因为原初模型更容易识别狗,近期已做了优化,提升了对猫狗的接受率。
27:56 免费提供 AIGC 功能的成本考量?现阶段更重视用户参与和反馈。
29:15 为何分精力做产品优化?——现阶段的产品优化实质是模型能力的优化。
· 过往的跨领域经历和技术观察
32:58 07年前后关于深度学习的玩笑:“深度学习效果比其它方法高了一个点,但多了很多参数。”
33:42 深度学习首先在语音识别任务上取得突破。
34:45 在亚马逊 Amazon Go 解决实际视觉问题的经历。
36:30 跨学科经历的启发?——实践中积累的正确理解至关重要。
38:20 为什么物理世界的 AI 进化更慢?——硬件在过去甚至未来都是大瓶颈。
42:10 多模态大趋势里的变量?——世界模型的实现。
43:12 世界模型应该能模拟因果,而非仅表达统计关系。实现方式仍不确定。
44:37 世界模型是否需 3D 化?尚不确定。
46:24 世界模型应输入哪些数据?
48:32 有了世界模型后,人们可以用它做什么?
相关阅读:
EMO 项目网站(可查看视频 demo)
Animate Anyone 项目网站(可查看视频 demo)
附录:节目中出现的技术、公司等名词:
·GAN(生成对抗网络):一种通过对抗训练生成数据的深度学习模型。
·Diffusion Model(扩散模型):目前主流的图片生成模型,它是模拟数据扩散过程的高质量图像生成模型。
·CLIP:OpenAI 发布的理解图像与文本关系的多模态 AI 模型。
·Pika、Runway:两家视屏生成模型创业公司。
·世界模型:模拟现实世界复杂系统的智能模型。
·Prompt:引导 AI 模型生成特定输出的文本或其它输入。
·zero shot:指模型无需针对特定任务训练特定样本也可完成该任务的能力。
·动作序列:按顺序排列的一系列动作,通过定义一系列动作和它们的执行顺序,可以创建出流畅且连贯的动态表现。
登场人物:
薄列峰,阿里通义实验室科学家
程曼祺,晚点 LatePost 科技报道编辑(微信:momochoqo;即刻:程曼祺_火柴Q)
剪辑:甜食

Mar 21, 2024 • 1h 18min
63: 来这的人都对上班这件事有所怀疑:和跳海创始人二狗与投资人 Mable 聊聊酒吧、精酿和年轻人
汉洋前两天写了一篇关于跳海的文章,作为配套他邀请了跳海的创始人梁二狗和跳海的天使投资人(与璀璨钻石打酒师)Mable 聊了聊跳海,也聊了聊如何做一线城市年轻人的生意。
本期节目我们聊到了:
如果今天有人想在没有跳海的城市复制一个跳海,你会建议他做什么?
这一代一线城市的年轻人有什么特点?
如果跳海是个年轻人的生意,那年轻人还需要什么生意?
运用社交网络(比如小红书)对你们来说是个负担吗?
沟通中的共识建立
你会和那些骂你们贵的人吵架吗?
在你看来传统精酿圈问题出在哪?
跳海的发展理念和商业模式
北京这个城市特殊的地方在哪里?
相关链接:
不是谁都能在跳海当一名打酒师丨晚点周末
牌牌坐:ep.2 跳海酒馆:世界在下沉,我们要建造
Do Things that Don't Scale
探月学院
ARPU: average revenue per user
登场人物:
二狗:跳海酒馆创始人
Mable:一个随波逐流的人
汉洋:爱喝酸啤
剪辑:甜食
封面由汉洋拍摄

Mar 14, 2024 • 1h 34min
62: 对谈哲学教授姜宇辉:哲学能解决年轻人的意义危机吗?
本期《晚点聊》,我们邀请了嘉宾姜宇辉,聊聊哲学为我们提供的各种生命策略,以及哲学如何帮助年轻人面对意义危机。
我们相信人的需求是多向度的,听众不仅希望从《晚点聊》获得前沿的商业信息,也关心那些永恒的基本问题:我该怎么获得幸福,又该怎么理解痛苦?我该如何追寻生命的意义,又该如何看待死亡?在这个充满不确定性的时代,这些问题比以往更强烈地撞击我们的心灵。
本期节目,哲学教授姜宇辉将用尽可能通俗的语言讲解哲学是什么、不是什么,哲学对一个普通人有什么用。当我们感到迷茫、找不到生活的意义的时候,哲学能帮到我们吗?
嘉宾介绍
姜宇辉,巴黎高等师范学校硕士,复旦大学哲学博士,华东师范大学政治与国际关系学院教授,博士生导师。主要研究方向为当代法国哲学、电影哲学和媒介理论。译作有《千高原》《普鲁斯特与符号》。专著有《德勒兹身体美学研究》《画与真》等。著有哲学普及读物《将人生哲学到底》。
本期节目我们聊了:
05:51 大众对哲学的误解和对电子游戏的误解很相似
13:51 韩炳哲提出“倦怠社会”,但没告诉我怎么走出倦怠
23:38 姜老师被哲学“刺痛”的时刻
33:03 先贤的思想还能帮我们理解数字时代的困境吗?
40:54 普通人打开哲学的正确方式
48:25 哲学提供的三种生命策略:超越论、内在论、虚无论
51:28 都在谈使命、愿景,柏拉图和互联网大厂的区别在哪?
54:58 如何用亚里士多德的“实践智慧”对抗生活的无意义感
1:09:42 刷手机、“买买买”的快乐,为什么总是让人更空虚?
1:17:49 无论世界是怎样的,我们总是可以对它说“不”
1:24:00 真正的生命从你想了解自我开始,完整的生命从你想了解他人开始
节目中提到的部分人物/作品:
《将人生哲学到底》
《倦怠社会:韩炳哲在首尔和柏林》
“哲学性非常高的诗人”托马斯·特朗斯特罗姆
德勒兹,法国作家、哲学家,后现代主义的主要代表人物之一
列维纳斯,当代犹太裔法国哲学家,从犹太教得到灵感对西方传统形而上学进行了极端彻底的批判
登场人物:
姜宇辉:华东师范大学教授。
朱丽琨:晚点特稿组作者。
剪辑:甜食
Remember Everything You Learn from Podcasts
Save insights instantly, chat with episodes, and build lasting knowledge - all powered by AI.