哪条路线，才能通往「世界模型」的终局？｜对话黄碧薇：Aether AI 创始人

2026-06-18 · Show: 十字路口Crossing · 2980s · Source

哪条路线，才能通往「世界模型」的终局？｜对话黄碧薇：Aether AI 创始人

概览

本期围绕“世界模型到底是什么”展开，主持人从视频生成、3D 生成、V-JEPA 等不同路线切入，追问世界模型究竟是严肃技术对象，还是被混用的热门概念。

黄碧薇的核心观点是：真正可落地的世界模型必须理解物理世界背后的因果变量、因果结构和因果动力学，而不只是生成看起来合理的视频或轨迹。她认为，因果世界模型可以帮助机器人在新环境、新任务中举一反三。

讨论后半段从技术路线转向因果 AI 的学术史、创业动机、具身智能落地、数据与算力规划，以及 AI 时代科研和 PhD 选择。整期的主线是：大语言模型证明了大数据范式的威力，但物理世界任务需要更深层的因果理解。

分段落总结

[00:00] 开场与嘉宾背景

[事实] 主持人提出，过去半年“世界模型”成为 AI 和具身智能领域的热门关键词，但其定义并不统一。 [事实] 本期嘉宾是 Aether AI 创始人黄碧薇教授，讨论重点是她对世界模型和因果世界模型的理解。 [事实] 黄碧薇介绍自己曾在德国马克斯普朗克研究所、CMU、UCSD 等机构学习和工作，长期研究因果发现和因果 AI。 [事实] Aether AI 的目标是构建真正的因果世界模型，第一阶段落地场景是具身大脑。

[02:09] 世界模型的定义与主流路线

[事实] 黄碧薇认为，世界模型需要理解物理规律、因果关系，并能模拟世界如何从当前状态变化到下一状态。 [事实] 她提到当前被称为世界模型的方向包括视频生成模型、3D 生成模型，以及以 V-JEPA 为代表的路线。 [事实] 不同路线侧重点不同，有的重渲染，有的重视频生成效果，有的试图学习底层动力学系统。 [推测] 她对“世界模型”一词的界定比市场常见用法更严格，强调是否真正理解世界运行机制。

[03:43] 因果世界模型作为第四条路线

[事实] 当被问到最看好哪条路线时，黄碧薇提出 Aether AI 正在做的是“因果世界模型”这条路线。 [事实] 她认为最终落地的世界模型必须懂物理世界底层规律、因果结构和 transition dynamics。 [事实] 她也强调这一路线会吸收早期因果小模型、大模型、视频生成模型等不同方法的积累。 [推测] 她并不是完全否定现有三条路线，而是认为它们需要被整合进一个以因果为核心的框架。

[04:39] 因果世界模型的三要素

[事实] 因果世界模型首先要在隐空间中学到因果变量和因果特征，例如物体形状、数量、速度、角速度、摩擦力等。 [事实] 第二，它要学习这些因果变量之间的结构关系，例如抓杯子时握力点、速度、角度如何影响成功率。 [事实] 第三，它要学习动作导致状态转移的机制，即不同动作会让系统在下一时刻进入什么状态。 [事实] 黄碧薇认为，具备这三点后模型才可能在新环境和新任务中实现类似人的举一反三。

[06:04] 为什么物理世界必须理解因果

[事实] 黄碧薇解释，大语言模型能在自然语言和代码任务中成功，是因为这些模态的信息更离散、更表层化，且数据量巨大。 [事实] 她认为具身任务、机器人任务、科研发现、生物制药、新材料、天文等领域比语言任务更复杂，仅靠相关性范式不够。 [事实] 她以煎 pancake 为例说明，机器人只模仿视频流程无法应对锅温、面糊厚度、油量变化等真实条件。 [推测] 这个例子意在说明：物理世界的泛化不是“看起来像”，而是要知道变量改变后结果如何变化。

[09:03] 数据自我进化与模型反哺

[事实] 黄碧薇提出，从因果角度收集数据时，可以更有针对性地识别模型真正缺少的信息。 [事实] 她举例说，采集一万条数据时，真正包含新信息的可能只有一百条，重点应是把这些高价值数据喂给模型。 [事实] 当因果世界模型发展到一定程度后，它本身可以作为 simulator，生成长程、可控、包含 corner cases 的高质量数据。 [事实] 这些模拟数据可以反过来补充真实数据采集不足，继续训练因果世界模型。

[10:35] 第一版模型的目标、数据与算力

[事实] 黄碧薇称，第一版模型预期需要约七八千小时数据，以及几百张卡的算力；团队当时大约有四百张卡。 [事实] 她把数据分为四类：模拟器与因果世界模型产生的数据、egocentric 数据、视频数据、遥操数据。 [事实] 遥操数据被描述为“最后一公里”，用于把物理规律映射到机器人身上。 [事实] 第一版模型目标包括长程任务能力、一定思考能力，以及对未见物体和新任务的泛化能力。

[12:21] 从 lift 到 stacking 的泛化信号

[事实] 黄碧薇提到，模型在训练中学会 lift 和 pick-and-place 后，可以在测试中完成此前没有见过的 stacking 任务。 [事实] 她认为 stacking 能成功，是因为它组合了 lift 和 pick-and-place 中共享的物理规律。 [事实] 她强调，只要新任务涉及的物理规律在训练中被覆盖，模型就有机会泛化；完全没见过的物理规律仍需要探索学习。 [推测] 这个案例是她用来证明“学规律”区别于“背任务步骤”的关键证据。

[14:07] 论文验证、模拟环境与真机计划

[事实] 黄碧薇提到团队近期有多篇相关论文，包括发表在 ICML 的工作和 Add-Diffuser 相关工作。 [事实] 她说明相关实验主要是在模拟器里完成，数据量大约是上百小时级别。 [事实] 对真实世界实验，她表示团队预期会推出类似真机 demo，展示机器人长程任务的泛化性和推理能力。 [事实] 她指出真实物理世界存在隐变量、数据偏差、missing value、distribution shift 等不完美问题。

[16:16] 因果研究的三大学派

[事实] 黄碧薇介绍，因果领域大致有三个门派：CMU 因果发现路线、以图为核心的因果推断路线，以及 potential outcome framework。 [事实] 她说自己主要属于 CMU 派，因为她在 CMU 求学，并师承相关教授。 [事实] 她也提到，自己的研究受到以图模型为核心的因果思想影响。 [推测] 这段为听众补足了因果 AI 的学术坐标，说明 Aether AI 的技术路线不是凭空出现的创业叙事。

[17:44] 走上因果 AI 道路的偶然性

[事实] 黄碧薇说，自己最初在德国读计算神经科学，关注如何从人脑中为 AI 获得新想法。 [事实] 她在 2013 年暑期学校第一次听到因果发现相关课程，虽然没有完全听懂，但意识到这是一个核心问题。 [事实] 此后她进入因果领域，并逐渐思考如何用因果方法改善机器学习和 AI 任务。 [事实] 她提到因果视角能改善强化学习、分类、聚类、非稳态预测、表征学习、迁移学习等任务。

[20:36] 因果如何帮助大语言模型

[事实] 黄碧薇认为，因果可以从外部和内部两条路径帮助大语言模型。 [事实] 外部路径是先用传统因果发现方法找变量之间的因果关系，再通过 RAG 或 prompt 形式提供给大模型，以提升可靠性、减少幻觉。 [事实] 内部路径是改变大模型架构，让模型本身在内部学到因果关系。 [事实] 她认为 OpenAI、Anthropic 等大厂主要仍沿着 LLM 范式前进，还没有真正转到因果道路上。

[22:05] 为什么选择具身智能而不是 LLM

[事实] 黄碧薇说，语言模型在语言和代码任务上已经相对接近高分，而具身智能仍处在很早期的状态。 [事实] 她因此更想把具身智能从低分推向高分，而不是在已经较成熟的 LLM 方向上做有限增益。 [事实] 她后来进一步说明，大语言模型能力增长很快，使得直接在 LLM 领域落地因果的增益可能有限。 [推测] 这是她选择“因果世界模型 + 具身智能”作为创业方向的核心战略判断。

[22:34] 因果 AI 的历史脉络

[事实] 黄碧薇从哲学谈起，称因果问题在东西方思想中都被探索了很长时间。 [事实] 她给出现代因果定义：当干预 A 时，B 的概率发生变化，就可以判断 A causes B。 [事实] 因果最早的重要应用之一是临床医学中的随机对照实验和双盲实验。 [事实] 她介绍，后来 CMU 学者提出 PC 算法，尝试从观测数据中挖掘因果结构；再后来又出现利用非高斯性质判断因果方向的方法。

[25:21] 数据配比、VLA 与 World Action Model

[事实] 黄碧薇说，前三类数据，包括模拟数据、egocentric 数据和视频数据，大约占 80%，遥操数据约占 20%。 [事实] 她认为 World Action Model 更像是 VLA 的加强版或中间态，短期效果好是因为视频数据很多。 [事实] 她认为 VLA 泛化差的核心原因之一，是 action 端是连续空间，很难通过示范数据覆盖所有状态。 [事实] 她给出主观评分：VLA 天花板约 5 分，WAM 约 6.5 分，而完整因果路线若各层面都实现因果，可以达到 10 分。

[29:15] 对因果路线的质疑与 scaling law

[事实] 黄碧薇认为，市场普遍认可因果是目标，主要质疑在于如何真正实现因果世界模型。 [事实] 她把实现难点概括为三点：从 raw data 中提取因果变量，学习因果结构，学习因果系统如何随时间变化。 [事实] 她认为 scaling law 不能脱离数据质量和模型形式单独讨论。 [事实] 她举例说，懂因果和底层规律的模型可能用更少数据达到同样性能。

[31:12] 创业触发与科研转产品

[事实] 黄碧薇说，科研和创业一直是她想做的两件事。 [事实] 她认为自己在因果 AI 领域积累了 12 到 13 年后，已经准备好把相关成果推向商业和应用层面。 [事实] 外部触发来自 AI 发展和具身智能瓶颈，尤其是她认为 VLA 路线已经遇到问题。 [事实] 她提到 2025 年初与朋友聊到工厂机器人和自动化现状，意识到机器人缺少智慧大脑，这触发了她创业的决定。

[34:57] 科学家创业与 frontier lab

[事实] 黄碧薇认为自己既是科学家在创业，也是在创业中继续做底层科研。 [事实] 她说 Aether AI 更像 frontier lab，因为它要通过底层技术发明来推动具身大脑突破。 [事实] 她区分科研和创业：科研成果往往以 paper 呈现，而创业要把算法、小模型和论文成果转化为系统性、可商业化的产品。 [推测] 她对创业的理解不是单纯产品包装，而是把基础研究工程化、系统化并推向真实用户。

[35:55] AI 时代科研门槛与能力训练

[事实] 黄碧薇认为，真正核心、开创性的科研门槛并没有降低；但简单科研的门槛确实因 AI 降低。 [事实] 她主张“拥抱 AI，但不依赖 AI”，把 AI 作为工具，而不是让 AI 控制思维。 [事实] 她认为科研中最宝贵的是创造性想法和批判性意见。 [事实] 她建议年轻研究者不要完全跟随潮流，而要尝试看到下一个潮流在哪里。

[37:37] LLM 热潮后的因果圈反思

[事实] 黄碧薇说，ChatGPT 发布后，她曾深刻反思：为什么因果 AI 更合理，却是 LLM 吸引了所有注意力。 [事实] 她意识到，数据量堆叠本身是有用的，LLM 仅靠大数据和表层信息抽取也能取得很强效果。 [事实] 她由此转向思考，如何把大数据和更深入的因果方法结合起来。 [事实] 她把自己的路径分成两个阶段：先思考因果如何帮助 LLM，再转向因果世界模型和物理 AI。

[40:45] 数据采集与 PhD 选择建议

[事实] 黄碧薇说，Aether AI 大部分数据由团队自己产生，尤其是可大规模采集的模拟数据。 [事实] 对于遥操数据，她说团队会自己采一小部分，也会从供应商处定制一部分。 [事实] 她认为，只有真正渴望研究的人才应该读 PhD；如果只是想获得学位，不一定值得花五六年。 [事实] 她建议不确定自己方向的人可以先尝试 PhD 或产业界，因为如今工业界与学术界之间的 gap 已经变低。

[43:17] 大模型天花板与因果关注度上升

[事实] 黄碧薇认为，大语言模型的天花板取决于任务，在具身任务上天花板已经显现。 [事实] 她观察到，近期越来越多人开始谈论因果，这让她感到欣慰。 [事实] 她提到杨立昆和李飞飞的一些 high-level idea 与因果相关，虽然有时未直接使用“因果”这个词。 [事实] 她认为多数团队目前要么停留在 high-level 意识，要么只在简单点上引入因果，尚未系统实现因果变量、因果结构和因果动力学三部分。

[45:37] 融资用途与人才需求

[事实] 黄碧薇提到公司已获得约 2000 万美元融资。 [事实] 她说资金主要会投入三块：算力、数据和人才招聘。 [事实] 团队需要 AI 算法尤其是因果算法人才、视频生成模型训练人才，以及 robotics full-stack 人才。 [事实] 她强调 robotics full-stack 人才需要同时理解传统机器人控制、硬件和当前 AI 模型算法进展。

[47:17] 五年后回看世界模型路线

[事实] 黄碧薇认为，今天的一些模型范式不能简单说是错的，因为探索过程需要一步步前进。 [事实] 她认为 VLA 不是终局，但它留下了 action head 等建模方式。 [事实] 她认为 WAM 也不是终局，但它是从视频生成模型走向世界模型的中间产物。 [推测] 她的终局判断是：阶段性路线有价值，但最终仍要回到能表达真实因果与动作条件状态转移的模型。

[48:08] 因果是否真实存在的终极问题

[事实] 当被问到若能向“预知未来者”问一个问题时，黄碧薇说她想问：因果到底是否客观存在。 [事实] 她把这个问题类比为时间是否存在，认为这类问题在哲学上并不完全确定。 [事实] 她最后补充，日常生活和工程实践中仍可以务实地假设时间、物理世界和因果都真实存在。 [推测] 这段把整期技术讨论拉回到哲学层面，也呼应了因果 AI 的基础性问题。

播客点评/总结

[推测] 本期最大价值在于把“世界模型”从热词拆成了几条具体技术路线，并明确给出黄碧薇版本的判断标准：是否能学习因果变量、因果结构和因果动力学。

[推测] 亮点是技术讨论和个人经历结合得比较紧密，既讲了 VLA、WAM、模拟数据、遥操数据、算力等工程问题，也讲了因果发现的学术源流和创业触发点。

[推测] 局限是许多关键进展仍处在论文、模拟器或计划中的真机 demo 阶段，关于真实世界泛化效果、规模化训练细节和商业落地路径，转录稿中还没有提供充分验证材料。

[推测] 这期适合关注世界模型、具身智能、机器人基础模型、因果 AI 的听众，也适合正在思考 PhD、科研与创业关系的 AI 研究者。