170: 【具身季报 26Q2】世界模型大风不停,和不想被贴标签的人

2026-06-29 · Show: 晚点聊 LateTalk · 6831s · Source

【具身季报 26Q2】世界模型大风不停,和不想被贴标签的人

概览

本期围绕 2026 年第二季度具身智能/物理 AI 的五个关键进展展开:人形机器人马拉松、Figure 的物流分拣直播、灵巧手与灵巧操作、英伟达 Cosmos 3 世界模型,以及 Pi 0.7、Generalist Gen 1 等具身模型进展。

节目反复讨论的核心问题是:具身智能到底会由硬件公司、模型公司、全栈公司,还是通用大模型厂商主导。Peter 的判断是,世界模型并不是简单替代 VLA,而是在为现有 SOTA 模型补充环境预测、状态建模和动作生成能力。

硬件侧,马拉松和灵巧手显示出大厂资源、工程能力和可靠供给的重要性;场景侧,Figure 和星动纪元的物流分拣展示让人形机器人第一次更具体地进入工业落地讨论;模型侧,Cosmos 3、Pi 0.7、Gen 1 和 OpenAI Robotics 的动向共同指向一个更大趋势:具身模型、视频生成、世界模型和通用模型正在相互靠近。

分段落总结

[01:35] 节目开场与 Q2 Top5

[事实] 主持人介绍这是《具身季报》系列第二期,继续邀请 AlphaEast 创始合伙人陈喆 Peter 回顾第二季度具身智能动态。

[事实] 本期 Top5 包括人形机器人马拉松、Figure 物流分拣直播、灵巧手与灵巧操作、英伟达 Cosmos 3 世界模型,以及 Generalist J1/Gen 1 和 Pi 0.7 等模型进展。

[推测] 节目把“物理 AI”“世界模型”“具身模型”放在同一框架里讨论,说明行业叙事正在从单点机器人产品转向硬件、数据、模型和落地场景的系统竞争。

[05:01] 世界模型从实验室走向产品级

[事实] Peter 认为,上一季度世界模型更多还是研究概念和实验室样品,而 6 月发布的 Cosmos 3 更像产品级、大规模预训练模型。

[事实] Cosmos 3 有 Super、Nano、Edge 等版本,面向不同部署环境。

[事实] Peter 认为世界模型不是简单颠覆 VLA,而是给现有 SOTA 模型带来环境预测和建模的新能力。

[推测] 这意味着未来主流路线可能不是“VLA vs 世界模型”的二选一,而是把动作生成、视频预测和空间理解融合到统一架构里。

[07:20] 人形机器人马拉松与大厂能力

[事实] 第二季度北京人形机器人马拉松中,荣耀机器人事业部的机器人获得自主导航类别前三名。

[事实] Peter 认为荣耀胜出并不完全意外,因为赛前荣耀、宇树和北人被认为是夺冠热门。

[事实] 荣耀投入了较多资源,包括定制大扭矩电机和液冷结构,使机器人能在长时间高速跑动中控制电机温度。

[推测] 马拉松结果提示,具备高端制造、组织能力、资金和人才密度的大厂,可能快速成为人形机器人市场的重要力量。

[10:30] 人形机器人从单点技术走向系统工程

[事实] Peter 认为,人形机器人正在从单一技术创业公司视角,演变成高端制造、复杂算法、软件系统和系统作战能力的综合工程。

[事实] 节目提到小米、小鹏、理想等电动车和手机厂商也已开始严肃投入人形机器人。

[事实] 荣耀在本次赛事中派出多支队伍,且在遥控和自主导航项目中均取得冠军。

[推测] 资源充足的大厂可能通过多机型、多团队并行试错,加速硬件可靠性和工程成熟度。

[12:06] 马拉松作为技术试炼场

[事实] 2025 年半马冠军成绩约为 2 小时 40 分钟,而本次荣耀机器人在自主导航类别中的前三名成绩约为 50 分钟。

[事实] Peter 认为一年左右成绩提升三倍多,说明硬件、控制和自主导航均有快速进步。

[事实] 他把马拉松类比为 F1,认为它不是直接面向销售,而是展示技术边界和积累系统经验的测试环境。

[推测] 这类极限比赛的商业价值不在“跑步本身”,而在散热、供电、运动控制、可靠性等能力向量产产品迁移。

[14:58] Figure 物流分拣直播

[事实] Figure 从 5 月 13 日开始直播三台机器人进行包裹分拣,持续 100 多小时,处理约 13 万个包裹。

[事实] 任务内容是站在流水线旁,将包裹翻面,让标签朝上,平均约 3 秒处理一个。

[事实] Peter 认为这是人形机器人在工业场景价值上的一次零到一展示,物流分拣是适合人形机器人切入的场景。

[推测] 相比舞蹈或马拉松,这类直播更接近潜在商业客户理解“机器人能替代什么工作”的方式。

[16:31] 为什么物流分拣适合人形机器人

[事实] Peter 解释,虽然 Figure 直播中机器人基本固定站位,但真实场景会出现包裹滑落、异形物体、轻物体、球形物体等 corner case。

[事实] 他认为只有人形机器人结合具身模型的泛化能力,才可能处理无法穷尽的异常情况。

[事实] 传统机器视觉加工业机械臂、吸盘或简单夹爪,难以完成软包裹二维码翻面、展平等双手灵巧操作。

[推测] 物流分拣的关键不是标准包裹,而是大量非标、柔性、可变形物体带来的尾部难题。

[20:25] 可变形材料与灵巧操作需求

[事实] 节目提到衣物、软包裹、塑料袋等 deformable materials 无法用简单刚体模型建模。

[事实] Peter 认为这类任务需要具备泛化、理解和适应能力的模型,以及灵巧手或双手操作能力。

[事实] Figure 和星动纪元选择快递分拣场景,被认为是因为传统技术栈和非人形方案难以顺畅解决。

[推测] 可变形材料可能成为具身智能早期展示“新算法确实有用”的核心场景之一。

[21:00] 遥操作争议与远程接管

[事实] Figure 直播中出现机器人动作较流畅的片段,引发是否存在遥操作的讨论;Figure 官方称使用 Helix 02 模型自主完成。

[事实] Peter 认为遥操作不是争议重点,因为机器人部署前本来就需要大量遥操作来采集数据和纠正动作。

[事实] 他认为未来工业场景中类似 Robotaxi 的远程接管会成为常态,一个人可监管多台机器人。

[推测] 工业和物流场景更容易接受远程接管,而家庭场景会因隐私问题对全自主能力提出更高要求。

[24:08] 人形机器人海外出圈

[事实] Peter 认为 Figure 直播在推特上反响较高。

[事实] 同期美国达人秀中,来自成都的舞者吴宇飞与八台宇树机器人完成舞蹈表演,并获得全票晋级。

[事实] Peter 认为这些展示让美国普通观众更直观地看到人形机器人进入工业和商业场景的可能。

[推测] 大众传播层面的出圈正在降低人形机器人从“科幻概念”到“可部署设备”的认知门槛。

[25:32] 国内物流落地与星动纪元

[事实] 主持人提到星动纪元与中国邮政的物流合作,去年 11 月已发布邮政包裹分拣 demo。

[事实] Peter 表示,星动纪元在中国邮政和顺丰等场景做过长时间测试和训练,已能实现全自主分包、翻面、扫描等工序。

[事实] Peter 认为中国公司在人形机器人物流和工业场景落地上的实际进展不亚于美国公司。

[推测] 物流场景可能成为中美人形机器人公司最早形成可比商业验证的战场。

[26:44] 上一代 2B 机器人公司的延展机会

[事实] Peter 认为海柔、极智嘉、普渡等上一代 2B 机器人公司有机会把人形机器人和具身智能能力应用到未解决场景中。

[事实] 他指出 2B 技术公司的门槛不只是技术本身,还包括行业认知、客户系统耦合和运营体系嵌入。

[事实] 上一代 2B 机器人公司很多已进入 IPO 或 Pre-IPO 阶段,上市后可能获得比一级市场创业公司更多资源。

[推测] 既有客户和场景理解,可能让老牌机器人公司在具身智能落地阶段重新获得优势。

[29:00] 全身运动控制与数据采集范式

[事实] 节目讨论 Locomanipulation,即把运动控制和精细操作结合起来的全身控制能力。

[事实] Peter 认为具身智能瓶颈在数据,每个模型范式迭代背后都是数据范式变化。

[事实] 数据采集经历了 Aloha 真机遥操、UMI 无本体采集、第一视角视频,以及全身动捕等阶段。

[推测] 数据采集方式的变化,可以作为判断下一阶段模型能力突破方向的先行指标。

[32:15] 全身动捕与宇树生态

[事实] Peter 提到英伟达 Sonic 全身动捕工作后,越来越多团队能通过动捕方式为人形机器人采集大范围数据。

[事实] 他认为宇树硬件成熟,以及开源社区围绕宇树机器人的参数优化,使人的运动信息更容易迁移到机器人身上。

[事实] 越来越多公司开始采集全身运控和灵巧手数据。

[推测] 硬件标准化和开源生态可能让某些机器人本体成为事实上的研究平台。

[35:00] ICRA 上的灵巧手热潮

[事实] Peter 在维也纳 ICRA 观察到大量中国厂商参展,尤其集中在灵巧手领域。

[事实] 5G、希诺、灵节点、星动纪元等公司发布或展示了新一代高自由度灵巧手。

[事实] Peter 认为 5G 二代手是本届 ICRA 最受关注的灵巧手产品之一。

[推测] 灵巧手正在从配件市场变成具身智能竞争的关键基础设施。

[36:28] 5G 二代直驱灵巧手

[事实] 5G 二代手有 20 个自由度,属于直驱高自由度灵巧手。

[事实] Peter 认为二代手在不增加重量的基础上改善了反曲性能和散热问题。

[事实] 现场很多研究者上手体验其灵巧性、反曲性和机械性能。

[推测] 5G 的优势不只是单个 demo,而是可能成为科研人员可稳定使用的低成本、高可靠硬件载体。

[40:47] 灵巧手的基础设施位置

[事实] Peter 将 5G 的定位类比为宇树:专注于把低成本、高可靠、稳定的硬件设备做好,供研究人员开展大量实验。

[事实] 他提到过去一两个月,中美多家公司发布了基于 5G 灵巧手的灵巧操作模型或工作进展。

[事实] 高自由度灵巧手当前主要面向全球科研市场,出货量仍较小,头部约几千支水平。

[推测] 谁能率先提供稳定、廉价、可规模供给的灵巧手,谁就可能影响后续算法和数据标准。

[43:13] Genesis 与灵巧操作模型

[事实] Genesis 2024 年成立,早期做机器人仿真环境,后转向灵巧操作和机器人全栈系统开发。

[事实] Genesis 使用定制 5G 手展示了魔方旋转、处理食物、烹饪、弹钢琴等灵巧操作,并公开称采集了约 20 万小时数据。

[事实] Peter 认为当前灵巧手操作模型仍处于较早期阶段,类似两年前 Aloha 行为克隆阶段。

[推测] 现有灵巧操作 demo 可能在特定任务上表现亮眼,但泛化能力和数据采集方法仍未形成共识。

[47:01] 灵巧手数据会由谁掌握

[事实] 主持人提出灵巧手数据和智能能力到底会属于灵巧手公司、本体公司,还是第三方数据公司。

[事实] Peter 认为灵巧手数据高度依赖手的结构、自由度、电机选型和传感器选型。

[事实] 他认为第三方数据公司在灵巧手数据采集上会受限,因为不同手的构型很难直接迁移和 retarget。

[推测] 如果独立灵巧手公司能成为广泛供应商,它们可能掌握重要数据入口;如果全栈本体厂商自研灵巧手,数据则会回到本体厂商手中。

[53:34] 绳驱、直驱与混合方案

[事实] 希诺未来在 ICRA 发布 Flex2 混合驱动灵巧手,重载抓握由前臂电机通过绳驱实现,掌内用微型电机完成更灵巧动作。

[事实] Peter 认为混合方案试图同时获得绳驱抓握力大和直驱掌内灵活的优势。

[事实] 他也指出,涉及前臂绳驱的方案需要与本体厂商深度耦合,难以像标准手掌产品一样快速切换。

[推测] 对独立灵巧手公司来说,全直驱、不依赖前臂的标准化产品路径可能更容易形成规模化市场。

[59:52] 特斯拉路线与大厂跟随

[事实] 节目提到 Optimus 第三代手仍采用绳驱方向,并有 22 自由度。

[事实] Peter 认为国内很多大厂选择跟随特斯拉绳驱路线,是因为工程团队不愿承担偏离特斯拉路线的风险。

[事实] Peter 表示自己对直驱路线的判断有所加强,因为当前灵巧手研究上的前沿进展更多来自全直驱手,如 5G 和 Shapare。

[推测] 特斯拉的路线选择会在产业界形成强烈牵引,即使研究界的前沿结果暂时偏向直驱。

[62:24] Cosmos 3:Omni World Model

[事实] Peter 认为 Cosmos 3 是本季度世界模型的标杆,是市场上较早提出全开源 Omni Model 的产品。

[事实] Cosmos 3 可原生处理文本、图像、视频、声音、动作等输入,也可输出多种模态。

[事实] 其关键架构被称为 Mixer of Transformers,包括用于推理的自回归 Transformer 和用于生成的 Diffusion Transformer。

[推测] Cosmos 3 的重要性在于把理解、生成、预测和动作输出放到一个统一框架中,为“通用世界模型”提供了产品化样板。

[68:56] 世界模型的三类划分

[事实] Peter 引用英伟达的分类,将世界模型分为 Video World Model、Action-Conditioned World Model 和 World Action Model。

[事实] Video World Model 代表包括 Google Veo、阿里 Wan 和 Cosmos 3,核心是视频生成和未来状态预测。

[事实] Action-Conditioned World Model 在给定动作条件下预测世界变化;World Action Model 则直接生成机器人动作,类似 policy。

[推测] 在具身领域,最受关注的是 World Action Model,因为它最直接服务于机器人该如何行动的问题。

[72:40] VLA 与世界模型的融合趋势

[事实] Peter 提到一些北美语言模型研究者并不理解为什么要把 VLA 和世界模型对立起来,认为终极模型本来就应是 Omni Model。

[事实] 他认为 VLA 更擅长生成指令和动作,而世界模型更擅长状态预测。

[事实] 如果两种能力能巧妙结合,终极性能会更好。

[推测] 未来具身智能的主流模型可能不再用单一标签定义,而是融合 VLA、视频生成、动作预测和空间推理。

[74:54] 世界模型创业热潮

[事实] 主持人列举了 Genesis、LiberAI、流形空间 Manifold、逆矩阵、模式星空、极佳世界等世界模型相关公司。

[事实] Peter 认为世界模型爆火,是因为 VLA 路线遇到一定性能瓶颈,而视频生成模型、Diffusion Policy、flow matching 等基础要素在 2025 年底到 2026 年初逐渐成熟。

[事实] 他认为大模型领域赚钱效应和具身智能战略重要性,共同推动了资金和人才快速涌入。

[推测] 世界模型融资热潮中可能存在过度竞争,但它也反映了行业对下一代机器人 policy 路线的重新押注。

[80:00] Pi 0.7:VLA 接入轻量世界模型

[事实] Peter 认为 Physical Intelligence 是一家持续创新、稳步迭代的公司,Pi 0.5、0.6、0.7 每个版本都有明显变化。

[事实] 他把 Pi 0.7 概括为在传统 VLA 基础上接入轻量世界模型,用未来图像预测影响动作生成。

[事实] Pi 0.6 已展示过长时间 agent 规划能力和状态记忆方法。

[推测] Pi 0.7 的方向类似人类“脑补”行动后果,再据此调整动作,体现了世界模型对 VLA 的补强作用。

[82:46] Generalist Gen 1 与 scaling law

[事实] Peter 认为 Generalist Gen 1 提高了 VLA 模型执行速度,并在复杂长程任务中宣称把平均成功率从 60% 多提升到 99%。

[事实] Gen 1 采集了约 50 万小时真实世界交互数据,采用 UMI type 无本体数据采集。

[事实] Gen 1 没有基于预训练 VLA 微调,而是用自有数据端到端训练模型。

[推测] 这显示 Generalist 试图证明具身模型也存在可扩展的数据 scaling law,并且不愿简单跟随 Pi 的开源路线。

[87:30] Generalist 不想被贴标签

[事实] Peter 说 Generalist 从公开信息看比较排斥把自己定义为世界模型或 VLA。

[事实] Peter Florence 写过文章,表示他们的方法既不是把动作贴到 VLM 上变成 VLA,也不是世界模型,而是用物理交互原生数据训练。

[事实] Peter 提到这种思路可追溯到 Google RT1:用文本、图像、关节序列训练 Transformer,输出机器人动作。

[推测] Generalist 的“反标签”姿态,是为了强调其模型不是现成范式拼接,而是从物理交互数据中直接学习。

[89:11] Google ER 1.6 与机器人安卓

[事实] Google DeepMind Robotics 发布 ER 1.6,全称 Embodied Reasoning 1.6。

[事实] Peter 认为它更像增强了空间和任务理解能力的 VLM,不能直接输出机器人控制或 policy。

[事实] Google 与波士顿动力 Spot、Apptronik、Sereact 等合作,展示了其想做 Robotics 安卓生态的思路。

[推测] Google 的路线更偏提供可调用的软件和大脑能力,让不同机器人硬件接入其模型生态。

[92:30] 通用大模型厂商会不会主导具身大脑

[事实] Peter 提出底层问题:多年以后,具身 AI 模型是否会由 Anthropic、OpenAI、Google 等通用模型大厂提供。

[事实] 如果 Omni Model 路线有效,机器人空间理解和动作预测可能被融合进更大的通用模型。

[事实] 主持人提出反方观点:具身模型需要大量硬件参与和数据采集,而通用模型公司未必擅长。

[推测] 通用大模型厂商是否能绕过硬件数据壁垒,将决定具身大脑创业公司的长期空间。

[93:52] OpenAI Robotics 重启

[事实] 主持人提到 OpenAI 在 5 月底更正式地宣布 Robotics Team,并招聘全栈人才,短期场景是制造自身基础设施,长期愿景是人人可用的机器人。

[事实] Peter 认为 OpenAI Robotics 基于其 DALL-E、Sora、图片视频生成和世界模拟团队建立。

[事实] Peter 认为 OpenAI 高调重启机器人业务,说明他们看到了技术成熟度和机器人方向与核心模型能力的相关性。

[推测] OpenAI 的进入可能强化世界模型路线,并吸引更多顶级人才和算力进入具身智能。

[98:20] 宇树 IPO 与估值锚点

[事实] 节目提到宇树在二季度科创板 IPO 过会。

[事实] Peter 认为宇树上市对具身行业发展和投资都是标志性事件,为头部具身公司提供估值锚点。

[事实] 他认为人形机器人不会必然 winner take all,因为不同尺寸、负载、速度和场景会产生不同机器人形态。

[推测] 硬件市场可能分化,但具身大脑或模型市场更可能出现寡头化。

[99:43] 开源模型、闭源模型与创业公司夹击

[事实] Peter 认为智能模型可能分化为高水平开源模型和顶级闭源模型。

[事实] 他提出模型创业公司必须回答两个问题:如何与最好开源模型竞争,以及如何与最强闭源私有模型竞争。

[事实] 他认为高水平开源模型可能来自英伟达等不依赖模型变现、而依赖算力变现的公司;顶级闭源模型可能来自 Google、阿里、字节、Anthropic 等。

[推测] 具身模型创业公司的终局空间,可能比当前融资热度暗示的更窄。

[102:49] 商业化节奏与中美差异

[事实] Peter 认为商业化要从中美差异、硬件公司和模型公司差异两个维度看。

[事实] 他认为美国前沿创新公司更能容忍长期不确定探索,如 OpenAI 在 ChatGPT 前多年没有明显商业化。

[事实] 他认为中国环境更难容忍长期无收入、无落地,因此创业公司更需要展示商业化姿态,最好形成事实。

[推测] 中国具身公司可能更早被迫进入场景落地,而美国模型公司可能有更长研究窗口。

[106:20] 落地周期是否缩短

[事实] Peter 表示,相比去年,他认为具身智能商业化周期正在缩短。

[事实] 他把原因归结为大量资金、人才、算力、数据和语言模型能力迁移到具身领域。

[事实] Figure 和星动纪元的快递分拣被视为新算法技术栈解决真实场景问题的例子。

[推测] 具身智能仍可能需要多年才能规模盈利,但早期可落地场景已比过去更清晰。

[108:13] 未来一两个季度的展望

[事实] Peter 预计未来一两个季度会有更多人形机器人产品在具体场景中落地或商业化。

[事实] 他预计更多大公司会进入人形机器人市场,宣布产品计划或路线。

[事实] 他认为从宣布计划到发布产品至少可能需要一年到一年半。

[推测] 2026 年下半年可能是大厂进入人形机器人游戏的关键窗口,不进入则可能在 2027、2028 年失去身位。

[110:39] 全栈、分工与中国创业悖论

[事实] Peter 认为中国具身创业存在一个悖论:资本市场既难容忍长期无收入,也难容忍公司不是全栈。

[事实] 他提到很多具身大脑公司都在宣布做机器人本体。

[事实] 他也认为即使宇树被质疑只是硬件公司,也不代表它不能长出软件或 AI 能力。

[推测] 具身智能终局可能长期在全栈公司和垂直分工公司之间反复博弈,而中国公司会更倾向讲全栈故事。

播客点评/总结

[推测] 本期价值在于把二季度分散的发布、比赛、直播、融资和论文趋势放进同一张产业地图里:硬件可靠性、灵巧手供给、数据采集、世界模型、VLA 演进和商业落地被串成一条连续脉络。

[推测] 节目亮点是讨论不止停留在“某个 demo 很酷”,而是反复追问谁掌握数据、谁提供硬件标准、谁定义模型范式、谁能形成商业闭环。这让听众能更好理解为什么灵巧手、物流分拣和 Cosmos 3 都是同一场竞争的一部分。

[推测] 局限在于不少判断依赖公开展示、从业者交流和产业经验,像 Figure 是否完全自主、Generalist 模型细节、OpenAI Robotics 后续投入等都还无法从转录稿中完全确认。

[推测] 本期适合关注具身智能、机器人投资、AI 模型路线和人形机器人商业化的人收听;如果只想了解单个机器人产品参数,信息密度可能偏高,但对理解行业方向很有帮助。