171: 【AI季报 26Q2】从 coding 到 RSI,强者愈强的未来?

2026-07-01 · Show: 晚点聊 LateTalk · 5983s · Source

【AI季报 26Q2】从 coding 到 RSI,强者愈强的未来?

概览

本期围绕 2026 年第二季度 AI 进展展开,核心框架是两条线:一条是继续推进前沿智能,重点包括 Coding、长程 Agent、RSI、Robotics;另一条是让已有智能扩散到企业、个人工作流和新的交互形态中。

节目认为,OpenAI 与 Anthropic 的竞争已经不只是模型能力之争,而是模型、产品、定价、企业销售、生态和组织稳定性的系统性竞争。Coding 既是当下收入来源,也是 Auto Research 和 RSI 的基础能力。

RSI 被放在本期的中心位置讨论:从 AI 辅助研究、Auto Research,到 AI 在研究过程中改进自身,最终可能把人从智能迭代循环中部分抽离。与此同时,企业自有模型、中国开源模型、Slack 协作、Computer Use、实时语音和物理 AI,构成了“智能如何扩散”的另一条主线。

分段落总结

[01:36] 节目框架与嘉宾背景

[事实] 本期是“晚点聊”2026 年 Q2 AI 季报,嘉宾是 MOE Capital 创始合伙人 Henry Yin。

[事实] 主持人提出本期沿两条脉络讨论:一是前沿智能如何继续推进,二是已有智能如何扩散到社会和企业中。

[事实] 节目开头说明录制时间是 6 月 27 日,部分关于 Fable5 可用性和限制的信息在录制后已有变化。

[04:17] Q1 判断在 Q2 的延续

[事实] 嘉宾认为,上季度关于 OpenAI 在 Coding 上反扑 Anthropic 的判断,在 Q2 已经更清晰地被验证。

[事实] Auto Research 和 RSI 从偏前沿、偏科幻的话题,变成了更明确的研究与创业方向。

[事实] Computer Use 继续推进,OpenAI 的 Codex 新功能被视为基于 Computer Use 能力的产品化进展。

[08:00] Fable/Methos 与 GPT-5.6 的模型竞争

[事实] 节目称 Anthropic 发布了长期预热的 Methos/Fable,能力很强,但发布过程因为安全护栏、拒答和静默降级等问题引发争议。

[事实] 嘉宾认为,Anthropic 在不告知用户的情况下对部分前沿 AI/ML 研究任务降级,是典型的“非对齐”问题。

[事实] OpenAI 发布 GPT-5.6,节目提到它在 Terminal Bench、Agent’s Last Exam、生物和网络安全等方向表现突出。

[事实] 两家公司最前沿模型都出现了可用范围受限的情况,节目将其与美国政府监管要求联系起来。

[14:18] Codex 反扑与 Coding 产品迁移

[事实] 嘉宾观察到,Claude 4.7 口碑波动、Anthropic 定价变化,以及 OpenAI 给迁移企业用户提供免费额度,推动了一部分用户从 Claude Code 转向 Codex。

[事实] 节目提到 Anthropic 的收入增长仍然很快,并有媒体报道称其在 Q2 出现盈利。

[推测] OpenAI 用更激进的价格和免费策略争夺用户,可能是在牺牲短期财务表现以换取用户、数据和模型迭代机会。

[19:36] Cursor 退场与独立 Coding 公司的压力

[事实] 节目称 Cursor 在 Q2 不再是独立公司,被 SpaceX AI/XAI 相关主体收购。

[事实] 嘉宾认为,Cursor 等 Coding 公司短期收入增长强劲,但长期会受到 Claude Code 和 Codex 的双重挤压。

[推测] Cursor 的退出被节目视为一次踩中买方需求和市场时间点的高质量退出。

[22:00] 两大公司的系统性竞争

[事实] 嘉宾认为,OpenAI 和 Anthropic 的竞争已从单一模型能力转为模型、产品、变现、生态系统和组织能力的系统性竞争。

[事实] 节目提到,一些 OpenAI 研究员认为 OpenAI 的研究和模型能力并不弱,问题更多出在产品和 go-to-market。

[事实] 嘉宾认为 Anthropic 在社区传播、产品稳定性和人员留存上表现较强。

[事实] 节目讨论了 Anthropic 的价值观和对齐文化,认为它在 AI 对齐上的投入仍被硅谷不少人认可。

[28:05] RSI:从 Auto Research 到递归自我改进

[事实] RSI 的全称是 Recursive Self-Improvement,节目中译为“递归自进化”。

[事实] 嘉宾将 Auto Research 定义为 AI 像研究员一样读论文、提假设、写代码、跑实验并分析结果。

[事实] RSI 比 Auto Research 更进一步,要求 AI 在研究过程中不断改进自己,让下一轮研究能力更强。

[推测] 如果 RSI 真正实现,智能提升的瓶颈可能从人类研究员转向算力、对齐和系统设计。

[32:10] Anthropic 的 RSI 实践与三种未来

[事实] Anthropic 在《One AI Builds Itself》中披露,截至 5 月,其代码库中超过 80% 合并代码由 Claude 写成。

[事实] 节目提到 Anthropic 工程师人均每天合并代码量相比 2025 年前提高 8 倍,AI Agent 也完成过累计 800 小时的 AI 安全研究任务。

[事实] Anthropic 设想三种未来:模型能力停止增长、模型继续增强但非指数增长、RSI 完全实现。

[事实] 嘉宾认为 Anthropic 对 RSI 的态度矛盾:一方面担心速度过快带来对齐风险,另一方面又不能在竞争中单方面放慢。

[39:15] Recursive 与 RSI 创业潮

[事实] Recursive 在 Q2 发布了早期成果,在 NanoChat Auto Research、NanoGPT Speed Run 和 GPU Kernel Benchmark 上取得 SOTA。

[事实] 嘉宾认为 Recursive 的意义不只在具体分数,而是展示了一套通用研究闭环可以同时改进算法、训练速度和硬件利用效率。

[事实] 节目还提到 Mirrandale 和 Core Automation 等新团队进入 RSI 方向,创始人背景分别来自 Anthropic 和 OpenAI。

[推测] RSI 仍未技术收敛,因此创业公司可能还有机会通过新 idea 参与,而不只是和大公司拼算力。

[43:20] Robotics 与 Physical AI

[事实] OpenAI 在 Q2 公开宣布做机器人并招人,节目称其在 Fremont 有机器人 warehouse,团队已有几十人。

[事实] Anthropic 虽未同样公开,但节目称业内流传其也在考虑 Robotics,并在文章中提到 Recursive Intelligence 下一步是 Robotics 和 Physical Intelligence。

[事实] 嘉宾认为,OpenAI 和 Anthropic 这类模型公司可能更擅长机器人大脑和模型训练部分,不一定直接做完整硬件产品。

[推测] 物理 AI 被放在 RSI 之后讨论,是因为真实世界数据、机器人执行和“机器造机器”可能成为下一阶段智能增长来源。

[46:10] 世界模型与行动条件模拟

[事实] 嘉宾用机器人解鞋带举例,说明世界模型希望让机器人理解世界并在没被遥操作教过的情况下完成任务。

[事实] 节目认为世界模型热起来,是因为 RL World Models 和视频生成两条研究路线在 2024、2025 年开始合流。

[事实] RL World Models 强调在虚拟世界中模拟和学习,视频生成路线提供大量关于物理世界的知识。

[事实] 新方向是 action-conditioned world model,即模型不仅生成视频,还能理解“采取某个行动后下一步会发生什么”。

[51:35] 企业自有模型与后训练服务

[事实] 节目提到 Harvey 与 Applied Compute 合作,基于 GLM5.1 后训练出法律场景模型,并在其 Legal Agent Benchmark 上击败 Anthropic 和 OpenAI。

[事实] 嘉宾认为企业愿意拥有自己的模型,原因包括前沿模型成本高、可访问性不稳定,以及担心自身能力被 Frontier Lab 内化。

[事实] 节目认为高质量专有数据、明确评估系统、高频高价值业务,是企业适合做后训练和自有模型的重要条件。

[推测] 法律、医疗健康、金融和咨询等高价值专业场景,可能更适合通过后训练形成企业自己的模型优势。

[57:05] 中国开源模型的机会

[事实] 节目称 GLM5.1 在 Harvey 与 Applied Compute 的合作中表现最好,GLM5.2 在硅谷也获得很高关注。

[事实] 嘉宾提到 GLM5.2 是 Terminal Bench 上首个开源破 80 的模型,并且支持 Anthropic API,便于替换 Claude Code 后端模型。

[事实] 节目总结称,过去八周中国开源模型连续刷新全球最强开源,包括 Kimi、DeepSeek 和 GLM 系列。

[推测] 中国开源模型与美国后训练服务公司的结合,正在形成一种共同服务企业客户、替代昂贵 Frontier Lab 模型的生态路径。

[66:00] Claude Tag 与团队协作入口

[事实] Claude Tag 允许用户在 Slack 中通过 @Claude 提交任务,Claude 完成后把结果返回群聊。

[事实] 嘉宾认为,这让 AI 从个人聊天机器人变成团队协作空间中的 24 小时同事。

[事实] 节目提到 Anthropic 产品团队约 65% 的代码通过 Claude Tag 形式完成。

[事实] Claude Tag 的产品打磨重点包括上下文利用、主动提出任务和权限管理。

[71:10] Record and Replay 与 Computer Use

[事实] OpenAI 的 Record and Replay 先录制人类完成电脑任务的过程,再把流程固化成 skill,之后由 AI 自动重放执行。

[事实] 嘉宾将其类比为机器人遥操作:把人类操作能力迁移给 AI。

[事实] 节目提到三家前沿公司在 OS World Verified 上都超过了人类基线,说明 Computer Use 能力正在增强。

[推测] Record and Replay 比 Claude Tag 更具长期方向性,但短期效果受 Computer Use 准确率、延迟和隐私条款限制。

[76:20] 实时语音、Interaction Model 与 Image2

[事实] 嘉宾认为语音不是普通多模态能力,而是人和 AI 交互的基础设施。

[事实] Thinking Machines Lab 发布 Interaction Model,节目称其为 276B MoE、12B 激活、从零训练,支持边听边说、看动作、打断人,并配有异步推理模型。

[事实] 节目将 Interaction Model 与 OpenAI real-time 系列对比,认为前者从“对讲机式轮流说话”走向“打电话式全双工”。

[事实] OpenAI Image2 被认为在 image arena 中断层领先,并且比上一代文生图模型更适合视觉生产力任务。

[83:20] Meta、Google 与 XAI 近况

[事实] Meta 的 Muse Spark 被节目称为重组后的第一炮,但行业讨论不多,仍处于追赶态势。

[事实] 节目认为 Q1 的 token maxing 风潮进入冷却和稳定阶段,Meta 取消 token leaderboard,并开始设置使用限额。

[事实] Google 在 I/O 发布 Gemini Omni,视频剪辑能力令人惊艳,但嘉宾认为 Google 在 Coding 上相对 OpenAI 和 Anthropic 落后。

[事实] XAI 被节目描述为从 NeoLab 转向 NeoCloud,收入来自算力集群出租;嘉宾认为其训练模型团队已出现较大流失,继续追赶前沿模型会比较难。

[94:20] MidJourney 的医学影像硬件转向

[事实] MidJourney 在 6 月中宣布 MidJourney Medical 和 MidJourney Scanner,称其为新的全身医学影像方法。

[事实] 节目介绍其原理是人在水池平台上接受大量超声波换能器扫描,再用计算集群重建肌肉、脂肪、骨骼和器官的 3D 图像。

[事实] 嘉宾提到 MidJourney 创始人 David 有 NASA、激光雷达和 Leap Motion 等硬件背景,并长期用文生图收入支持多个硬件和软件项目。

[推测] MidJourney 的案例提醒听众,AI 公司未必只沿着模型和软件竞争展开,也可能把现金流投向更天马行空的硬件探索。

播客点评/总结

[推测] 本期价值在于把 Q2 AI 的大量碎片事件放进了两个清晰框架:一边是 Coding、Agent、RSI、Robotics 推动智能上限;另一边是企业模型、开源生态、Slack、Computer Use、语音和图像推动智能扩散。

[推测] 节目的亮点是既讨论模型 benchmark,也讨论产品、商业化、组织文化、监管、创业机会和企业客户选择,不把 AI 进展简化成“谁的模型更强”。

[推测] 局限是部分内容依赖嘉宾观察、业内传闻和录制时点信息,尤其是模型访问限制、公司收入、团队流动和未发布产品,需要后续持续校验。

[推测] 这期适合关注 AI 基础模型竞争、AI Coding、RSI、企业自有模型、开源模型生态和 AI 创业方向的听众;如果只想了解单个产品更新,信息密度可能偏高。