Vol. 162 科技快乐星球44: 新模型“SOTA们”齐贺新春
Vol. 162 科技快乐星球44:新模型“SOTA们”齐贺新春
概览
本期是春节前加录的一期“科技快乐星球”,主线围绕 AI 模型、AI 编程工具、智能体产品和若干科技新闻快速展开。两位主播从 Xcode 引入 Agentic Coding 聊到 Codex、Claude Code、Gemini、GLM、Seedance 等新模型与工具的实际体验。
节目里的一个核心判断是:AI 工具正在从“模型能力竞赛”进入更具体的产品和场景竞争,包括编程、视频生成、购物支付、语音耳机、随身录音设备、翻译、本地模型部署等。主播多次强调,不同模型和工具的风格差异很明显,选择适合自己工作流的工具比单纯追榜更重要。
另一条讨论脉络是 AI 对产业基础设施的影响:云厂商、芯片、算力、电力、太空数据中心、机器人训练、影视制作和 IT 外包都被放进同一张图里讨论。节目整体节奏很快,既有产品体验,也有对行业走向的延伸判断。
分段落总结
[00:00] 春节前加录与本期主题
[事实] 主播开场说明这是春节放假前临时加录的一期节目,因为近期国产 SOTA 模型集中发布,担心春节后又会有新新闻。 [事实] 上一次原本计划录“科技快乐星球”,但话题跑向了“龙虾”,所以这期要补上快节奏科技新闻盘点。 [推测] 本期定位更像节前新闻合集,重点不是深度拆一个主题,而是快速覆盖近期 AI 与科技动态。
[00:47] Xcode 26.3 的 Agentic Coding
[事实] 主播提到 Xcode 26.3 带来 Agentic Coding,支持 Codex 和 Claude Code/Cloud Code 一类工具,在 Xcode 内的使用方式更接近 Cursor。 [事实] 体验上,小任务可以交给它,但复杂任务仍更习惯在命令行中完成,因为 Xcode 内的 Agent 缺少斜杠命令和更细粒度控制。 [事实] Xcode 集成的优势包括能访问编译错误、warning、模拟器等 Xcode 专有信息,并可能让修 warning 和 build 流程更顺。 [推测] 主播认为这是苹果在 Agentic Coding 时代补上的一小步,价值主要来自与 Xcode 原生环境的深度绑定,而不是 Agent 能力本身领先。
[03:24] Opus 4.6 与 GPT-5.3 Codex 的体验差异
[事实] 主播提到 Opus 4.6 和 GPT-5.3 Codex 都已经发布,并且用了几天后感觉效果都不错。 [事实] 一位主播认为 GPT-5.3 Codex 比之前快一点但仍然慢,Opus 4.6 能力更强一些但提升不算特别显著。 [事实] 另一位主播在项目中交叉比较两者方案后,更信任 Codex 做 review 和新功能策划,而把 Claude Code 用于更确定的小任务执行。 [推测] 两位主播并不完全认同同一套评测方法,但共同指向一个结论:Codex 更偏稳重、上下文读取多,Claude Code 更快、更会补全意图。
[06:16] 不同模型适合不同工作流
[事实] 主播认为 Opus 4.6 和 GPT-5.3 Codex 的完整开发流程耗时可能差不多,但风格截然不同。 [事实] 与 Codex 沟通时需要说得更详细,因为它不太容易跑偏;与 Claude Code 沟通可以更粗糙,因为它会主动脑补更多。 [事实] 主播提到 Codex 的客户端、项目 tree、composition、terminal 和 agent teams 等功能,并尝试在 Codex client 中运行 Claude Code。 [推测] 这段讨论的重点不是“谁绝对更强”,而是把 Codex 和 Claude Code 分配到规划、审查、执行等不同环节中。
[10:00] Gemini、苹果 Siri 与模型升级成本
[事实] 主播提到 Gemini 将与苹果合作接入 Siri,但也看到消息称新的 Siri 又要推迟,可能要到 9 月、10 月或 11 月才能看到。 [事实] 主播认为 Google 与苹果合作合理,因为 OpenAI 与微软关系更近,而 Gemini 本身也被视为 SOTA 模型之一。 [事实] 主播把自己的小工具从 Gemini 2.5 换成 Gemini 3,发现实际收费可能与 2.5 差不多,因此建议按自己的任务实测成本。 [事实] 他们也讨论了旧模型不一定能被强制替换,因为不同模型、不同版本的行为习惯会影响既有链路。
[13:29] Neuralink OTA 与脑机接口风险
[事实] 马斯克宣布 Neuralink 准备在 2026 年量产,主播提到现在 Neuralink 可以 OTA。 [事实] 主播认为软件升级如果不需要把芯片取出更换,会降低升级成本。 [事实] 同时他们也担心脑机接口植入代价高、OTA 出问题后风险大,并联想到接口、带宽和未来硬件更换问题。 [推测] 主播对脑机接口的态度明显谨慎,更能接受脑外或身体其他部位的增强,而不是直接改造大脑。
[14:53] 亚马逊与 Anthropic 的云和芯片绑定
[事实] 亚马逊披露其持有 Anthropic 价值约 606 亿美元的股权,主播称这笔投资带来显著财务收益。 [事实] Anthropic 承诺反向采购 100 万个亚马逊 Trainium 芯片。 [事实] 主播把这件事与 OpenAI 依赖微软、Google 同时拥有云、TPU、模型和产品进行对比。 [推测] 在主播看来,AI 公司与云厂商、芯片和算力供应的绑定会越来越深,而 Google 在基础设施完整性上有独特优势。
[17:14] 马斯克的太空 AI 计算中心设想
[事实] 马斯克称要在 30 个月内部署太空 AI 计算中心,并申请百万卫星星座计划。 [事实] 主播提到这可能基于 SpaceX 发射能力、Starlink V3 和轨道数据中心集群,但面临太阳能供电、太空散热、质量、维护和宇宙射线等问题。 [事实] 主播认为全球可能只有马斯克或 SpaceX 有资格尝试这种规模的事情。 [推测] 这段讨论把太空算力视为基础设施竞争的新方向,但两位主播都承认技术难度非常大。
[21:26] 欧盟要求 WhatsApp 开放 AI 助手接口
[事实] 欧盟警告 Meta 要开放 WhatsApp 接口,允许竞争对手的 AI 助手进入。 [事实] 主播认为如果规则落地,GPT、Anthropic、Gemini 等模型至少在欧洲可能进入更多平台。 [事实] 他们也讨论到欧盟可能延续“要求开放”的监管风格,甚至未来要求手机 AI 控制也向多模型开放。 [推测] 主播认为欧盟这种监管倾向可能与本土缺少强科技巨头有关。
[23:13] Google Project Genie 与 AI 游戏生成
[事实] Google 发布 Project Genie,用于驱动 AI 游戏生成,可通过文本和图像实时生成互动 3D 环境。 [事实] Unity 和 Roblox 等公司的股价因此受到影响。 [事实] 主播把这类世界模型与机器人训练联系起来,认为先在虚拟环境中模拟,再到现实测试,可以提升机器人训练效率。 [推测] 他们对模拟世界能否覆盖真实物理持保留态度,尤其提到材质、布料、碰撞和复杂户外环境很难完全模拟。
[26:32] 印度 IT 外包与 AI 替代
[事实] 主播提到印度 IT 四巨头准备暂停招聘,传统外包模型可能结束。 [事实] 他们认为 AI 能替代大量外包工作,不只包括写代码,也包括客服。 [推测] 这段讨论把印度外包视为 AI 自动化首先冲击的典型行业之一。
[27:21] 苹果收购 Q.AI 与 AI 短域名
[事实] 苹果斥资近 20 亿美元收购以色列 AI 初创公司 Q.AI。 [事实] 这家公司技术可以通过传感器捕捉面部细微动作,让用户不用真正讲话也能下达指令。 [事实] 主播提到创始人曾创办 PrimeSense,后者技术与 Face ID 有关,并称他两次把公司卖给苹果。 [事实] 他们还顺带聊到 Q.AI、Z.AI、ai.com、chat.com 等 AI 域名价格很高。
[29:32] Google UCP 与 AI Agent 购物支付
[事实] Google 推出 UCP 开放协议,让 AI agent 可以直接完成购物和支付。 [事实] 主播认为未来 AI 可能会代替用户购买日用品,例如自动监控纸巾余量并下单。 [事实] 他们用“千问请喝奶茶”和淘宝购物场景举例,认为当前 AI 下单体验仍比较粗暴,可能优先追求成功下单率。 [推测] 主播判断 AI agent 购物是明确趋势,但权限边界、用户确认和个性化选择仍需要改进。
[32:11] GPT-5.2 更新与模型边际提升
[事实] 主播提到 ChatGPT 上能用 GPT-5.2 Thinking,但用不了 GPT-5.3。 [事实] Sam Altman 称 GPT-5.2 已升级,速度更快、效果更好且价格不变。 [推测] 主播认为模型能力到一定程度后,再往上提升一点,普通用户可能很难明显感知,边际效益在递减。
[32:47] 国产 SOTA 模型集中发布
[事实] 主播列举了智谱 GLM5、MiniMax M2.5、通义千问 Qwen Image 2.0、Kimi、MiniMax 语音模型等近期国产模型发布。 [事实] 他们认为春节前国产 SOTA 发布非常密集。 [推测] 这批发布被主播视为国产模型快速追赶的一部分,2026 年用上更高水平国产模型的可能性很大。
[33:35] Seedance 2.0 与 AI 视频生成
[事实] 字节跳动发布 Seedance 2.0,主播称它掀起了很大关注。 [事实] 主播认为 Seedance 2.0 的清晰度、影视感、运镜和终端产品影响力都很突出,海外用户甚至在研究如何注册中国手机号使用它。 [事实] 他们也提到一些热门 IP、影视角色、声纹和肖像被还原,引发侵权风险,相关功能后来收紧。 [推测] 主播认为 AI 视频会重塑影视制作流程,降低技术门槛,让创意相对更重要,但重复套路内容很快会被用户刷走。
[41:29] ChatGPT Go、广告与 AI 订阅价格
[事实] OpenAI 推出 ChatGPT Go 订阅计划,月费为 8 美元,并可能测试广告。 [事实] Anthropic 在广告中暗示自家 AI 没有广告,用来调侃 OpenAI。 [事实] 主播认为只要广告是良性的,通过广告降低月费、再提供无广告高价套餐是可以接受的。 [推测] 他们对 Anthropic 的“无广告”表态保持谨慎,因为未来商业模式可能变化。
[42:43] OpenAI 智能耳机与随身语音设备
[事实] OpenAI 被提到准备在 9 月发布首款智能耳机,采用金属软石形状设计。 [事实] 主播长期使用 ChatGPT 语音聊天,认为 Voice Mode 的模型调性和文本模型不同,更短、更容易重复,智能程度可能不如文本模式。 [事实] 主播还提到自己准备测试一个硬币大小的录音硬件,将音频串流到家里的 Mac mini 处理指令,类似随身 Jarvis。 [推测] 他们认为语音和随身录音设备的价值在于低摩擦记录灵感、对话和临时查询,但全天记录中大多数内容可能无效。
[50:01] Translate Gemma 与 YouTube 自动配音
[事实] Google 发布 Translate Gemma 开源翻译模型,支持 55 种语言,可本地部署,Ollama 也支持。 [事实] 主播认为本地翻译模型适合有离线需求的场景,但在线 API 价格低、效果好,仍可能是首选。 [事实] YouTube 开放自动匹配配音,支持 27 个国家的语言。 [事实] 主播体验后认为配音效果比较抽离,熟悉的 YouTuber 换成另一个声音讲中文会让人不适,更希望有双语字幕。
[52:06] Qwen3 Coder、苹果屏下 Touch ID 与模型榜单
[事实] 主播提到 Qwen3 CoderNet 发布,以及苹果获得屏下 Touch ID 新专利。 [事实] 关于指纹识别,主播认为从无指纹到有指纹是质变,但从 Touch ID 到 Face ID 的变化没有那么强。 [事实] 他们随后讨论 GLM 作为 Pony Alpha 在 OpenRouter 上被盲测后引发关注,并提到可参考竞技场榜单和 OpenRouter 使用量选择模型。 [推测] 主播认为国产模型追赶速度很快,但能否追到 Opus 4.6 仍不确定。
[54:49] 龙虾、Kimi、Gemini 与编程模型分工
[事实] 主播提到自己在“龙虾”中使用 Gemini 或 Kimi 2.5 等模型。 [事实] 一位主播给龙虾增加了调用 Claude Code 等其他 client 的能力,让它消耗其他 client 的 token 写代码。 [事实] 他们讨论了“更贵更强模型做 plan,更便宜模型做执行”的用法,但也表示实际配置会比较复杂。 [推测] 他们更倾向于让专业编程任务交给 Codex 或 Claude Code,而不是强行让所有模型承担同一种工作。
[56:41] 马斯克机器人销售时间表
[事实] 马斯克称他的机器人准备在 2027 年开始销售。 [事实] 主播对时间表表示怀疑,并调侃这种压缩周期会给工程团队带来巨大压力。 [事实] 他们提到马斯克曾用奖励 Cybertruck 的方式激励团队快速完成装机任务。 [推测] 主播认为马斯克的推进方式很激进,但这也符合他一贯风格。
[57:27] 人类染色体 4D 图谱
[事实] 国际 4D 核组联盟发布耗时十年的人类染色体 4D 图谱,研究 DNA 折叠真相。 [事实] 主播提到它比较了人类胚胎干细胞和成纤维细胞等内容,为临床医学提供新视角。 [事实] 他们认为一些病因不明的遗传病,未来可能从染色体折叠错误而非单纯基因突变角度得到解释。 [推测] 主播把这类成果与 AI 加速生物工程研究联系起来,认为长期会有利于医学发展和寿命延长。
[58:47] 数据中心电费、中国电力基建与 SpaceX
[事实] 主播提到特朗普要求科技公司承担数据中心电费成本。 [事实] 他们认为中国在电力和基建方面有优势,包括核电、水电、太阳能、风能、光伏和火电。 [事实] 主播也提到中国可回收载人火箭正在追赶 SpaceX,而 SpaceX 当前发射能力非常强。 [推测] 在主播看来,AI 时代的竞争不只是模型,也包括电力、火箭、空间资源和规模化基础设施。
[61:18] 约翰·卡马克的光纤内存脑洞
[事实] 主播讨论约翰·卡马克设想用 200 公里光纤代替内存的方案。 [事实] 这个想法类似早期 delay line memory,让数据在闭合光纤中持续传输,并通过增强补足能量衰减。 [事实] 主播提到理论上可实现很高传输速率,并让一定量数据持续“在飞”。 [推测] 他们认为这个方案脑洞很大、很有趣,但现实中铺设和维护 200 公里闭合光纤并不容易。
[64:22] 节目收尾
[事实] 主播表示本期把春节前准备的新闻都聊了一遍,希望陪伴听众春节回家路途。 [事实] 因为后期可能要过年回家,本期可能一刀不剪直接上线。 [事实] 节目最后祝大家新春大吉、恭喜发财,并约定春节后再见。
播客点评/总结
本期价值在于把近期 AI 工具和产业新闻放在一个连续语境里看:模型更新、编程工作流、视频生成、语音硬件、智能体支付、云和芯片、电力与太空基础设施都不是孤立事件,而是在共同推动 AI 产品化和基础设施化。
亮点是两位主播给出了不少实际使用感受,例如 Xcode Agentic Coding、Codex 与 Claude Code 的差异、Gemini 3 成本、ChatGPT 语音模式、Seedance 2.0 的出圈效果等。这些内容比单纯复述新闻更有参考价值。
局限也很明显:节目节奏很快,很多新闻只展开到体验和直觉判断,没有逐条核验来源或深入拆技术细节。[推测] 更适合已经关注 AI 工具、编程模型、国产大模型和科技产业动态的听众,用来快速补齐近期热点,而不是作为严谨的技术研究资料。