当我们在讨论 Harness 的时候，我们在讨论什么 | 深度对谈: Minimax × Hermes Agent

2026-04-28 · Show: 十字路口Crossing · 4623s · Source

当我们在讨论 Harness 的时候，我们在讨论什么

概览

本期播客来自一场 B 站直播精华，围绕 Agent、Agent Harness、Hermes Agent、MiniMax Agent 以及 OpenCloud/OpenClaw 热潮展开。嘉宾从“养虾”“训马”等社区现象切入，讨论为什么 Agent 在中国突然破圈，以及为什么记忆、工具、环境和工作流成为新一代 Agent 产品的关键。

核心观点是：Harness 不是单纯的提示词或 UI，而是一套让模型连接真实世界、使用工具、接受约束并持续交付结果的系统。模型越来越强之后，真正的瓶颈从“模型会不会”转向“怎样组织模型行动、怎样让 Agent 可靠、怎样让人从低层操作中退出”。

讨论后半段扩展到多 Agent 协作、自我进化、Skill/CLI、垂直 Agent、Agent Infra、Claude Code、Manus、实名与安全争议，以及 AI 是否会替代人。嘉宾总体持乐观态度，认为 AI 更像电力或蒸汽机，会重塑工作方式，但人的目标设定、taste、创造力和价值判断仍然重要。

分段落总结

[00:00] 直播背景与嘉宾介绍

[事实] 主持人 Koji 说明本期是 B 站直播精华剪辑，嘉宾包括 MiniMax Agent 的首席架构师阿导、研发工程师泽英，以及 Hermes Agent 业务负责人 Tommy。 [事实] 节目聚焦 Agent 和 Agent Harness，并说明英文发言部分已用 AI 转成中文，以便听众更流畅收听。 [事实] 主持人提到 Hermes Agent 在全球受到关注后首次现身中国社交平台，并正面回应过来自中国开源团队的抄袭指控。

[01:25] OpenCloud/OpenClaw 热潮为什么在国内爆发

[事实] 嘉宾认为 OpenCloud/OpenClaw 的爆火与春节后国内用户集中体验 Agent 有关，国内热度甚至超过硅谷。 [事实] 一个原因是海外用户此前已接触 Claude Code、Core Worker 等 Agent，而国内用户此前较少体验到足够好用的 Agent。 [事实] 另一个原因是 MiniMax M2.5、M2.7 等国内模型开始具备更强的 agentic 能力，使用户能通过 IM 等低门槛方式体验 Agent。 [推测] 这波热潮本质上不是单个产品营销，而是国内用户第一次大规模感受到“AI 可以持续做事”的体验跃迁。

[04:34] 从“养虾”到 Hermes Agent

[事实] 嘉宾认为 OpenCloud/OpenClaw 的一个痛点是记忆不稳定，例如每天刷新后可能忘记此前交流内容。 [事实] Hermes Agent 抓住了记忆痛点，强调多层次记忆和持续学习，因而补足了上一波 Agent 体验中的不足。 [事实] 嘉宾把用户从 OpenCloud/OpenClaw 转向 Hermes Agent 描述为技术基础和用户需求的“双向奔赴”。 [推测] Hermes Agent 的走红并不是完全替代前者，而是在用户已经接受 Agent 之后，用更稳定的记忆和可复现工作流承接了需求。

[05:54] Hermes Agent 的定义与自我进化

[事实] Tommy 将 Hermes Agent 定义为开源智能体框架：如果大语言模型是大脑，智能体框架就是双手。 [事实] 该框架负责工具编排、主循环管理、状态管理和错误处理，让模型能在真实世界执行任务。 [事实] Hermes Agent 的记忆系统可以把成功工作流保存为技能，使 Agent 下次复现正确路径。 [事实] Tommy 认为这种知识压缩能提升一致性，甚至让不同模型在同一框架和技能下输出更稳定的结果。

[08:13] Hermes 背后的开源社区与增长

[事实] Tommy 介绍其团队起源于 2022 年的 Discord 开源社区，早期围绕 Llama 模型后训练展开研究。 [事实] 团队曾开发 ARN 算法扩展模型上下文长度，也研究过分布式训练和跨非共址 GPU 的训练优化。 [事实] Hermes Agent 最初是团队成员为管理日常工作而做的个人工具，后来因开源实验室的习惯自然开源。 [事实] Tommy 提到 Hermes Agent 的 Token 消耗在一个多月内从日均 20 亿增长到 200 亿，之后接近每天 3000 亿。

[14:18] Harness 到底是什么

[事实] 嘉宾把 Harness 描述为一种约束 Agent、同时给予其工具和自由度的系统，让它能完整交付成果。 [事实] 类比到人类工作，它像给同事约定边界、配备电脑、电话、邮箱和权限，再让其完成任务。 [事实] 在技术层面，Harness 需要给 Agent 工具、环境、自由度、约束，以及多个 Agent 之间的对抗或协作目标。 [推测] Harness 的关键不是“控制模型”，而是为模型搭建可行动、可反馈、可纠错的工作环境。

[16:48] 人类成为瓶颈与 Harness 的出现条件

[事实] 嘉宾提到自己曾同时运行多个本地 Agent 和云端 Agent，让它们在 GitHub 分支上尝试不同想法。 [事实] 在这种工作流中，人需要不断切换上下文并给多个 Agent 输入，反而成为效率瓶颈。 [事实] 解决瓶颈的方向是让 Agent 获得真实反馈，例如能测试、部署、检查结果，并把经验沉淀为 Skill、CLI 或 Hooks。 [推测] Harness 的出现依赖两个前提：模型足够聪明，用户也愿意把更多真实权限交给模型。

[19:04] 为什么需要多 Agent 协作

[事实] 嘉宾认为多 Agent 的价值之一是信息交换效率高，两个模型之间可以快速交换大量上下文，而人类通常只给出很短反馈。 [事实] 单个 Agent 的局限包括上下文变长后智能下降，以及长程任务中一旦路径偏离就可能越来越偏。 [事实] MiniMax 的实践中会让两个 Agent 做 cross check，用新的上下文和角度纠正单个 Agent 的偏差。 [推测] 多 Agent 并不只是“角色扮演”，更像是在复杂任务中引入复核、反驳和并行探索机制。

[23:00] 自我进化与模型训练中的人机分工

[事实] 嘉宾认为高复杂度、高密度任务要 scale up，就必须减少人的参与，让 AI 承担更大比例工作。 [事实] 在 MiniMax 的训练流程中，嘉宾称 M2.7 的 R1 pipeline 里已有 80% 以上工作由模型加 Harness 自己完成。 [事实] 人类仍负责判断、taste、创造力和方向选择，而 Agent 负责查问题、汇总实验结果、给出建议。 [推测] 这里的“自我进化”更接近工程闭环：旧模型帮助训练新模型，Agent 帮助改进模型和工作流。

[26:06] 记忆、冷启动与用户和 Agent 的关系变化

[事实] 嘉宾指出，Agent 初次和用户见面时不了解用户，需要通过文件、数据、反馈和习惯逐步磨合。 [事实] 用户会期待 Agent 变得更聪明、更了解自己，并在工作复盘中总结出更高层次的东西。 [事实] 主持人观察到，用户面对“养虾”失败时不只是怪工具出 Bug，也会认为自己没有训练好它。 [推测] 用户对 Agent 的信任变化，会让工作方式从“AI 适应人”转向“人围绕 AI 重构流程”。

[29:00] “蒸馏人”与 Skill 的真实价值

[事实] 主持人提到 B 站上有人把乔布斯、Elon Musk 等名人“蒸馏”成 Skill，用于对话。 [事实] 嘉宾认为人本身不能被真正蒸馏，这更像是把某个人的公开信息、工作方式或表达风格整理给模型。 [事实] 嘉宾认为这种做法满足了用户和更聪明的人交流、扩展认知、缓解 AI FOMO 的需求。 [推测] “蒸馏人”的价值不在复活某个人，而在把知识、方法和品味压缩成可调用的交互接口。

[33:00] 零人公司、一人公司与人的 Taste

[事实] 主持人提到有创业者认为未来可能不是一人公司，而是零人公司。 [事实] 嘉宾不同意完全零人化，认为目标设定、taste 和起点仍需要人类定义。 [事实] 主持人提到一个名为悠悠的 Agent，被工程师设定“打败 Claude Code”的目标后自生自灭，通过写日记、发 Twitter 和收打赏维持运行。 [推测] 这类案例更像社会实验，但展示了 Agent 可以围绕人类给定目标持续行动和自我维护。

[36:38] MiniMax Agent 与 Hermes Agent 的关系

[事实] 嘉宾认为模型公司已经很难脱离 Agent 或 Harness 环境提供最好的智能。 [事实] MiniMax 做 Agent 的目标是让模型和 Agent 一起提供完整体验，并不断推进能力边界。 [事实] MiniMax 同时也希望模型支持 Hermes Agent、OpenCloud/OpenClaw 等外部 Agent，而不是只拟合自家容器。 [事实] 嘉宾透露 MiniMax 内部有数字员工，会每天寻找能接入 MiniMax 模型的开源项目并提交 PR 或留言。

[39:48] Claude Code 的 OpenCloud 化与 Skill 传播

[事实] 嘉宾认为 Claude Code 最近的更新包括定时任务、IM 接入、手机远程控制和 Memory 文件夹等，体现出 OpenCloud/OpenClaw 化趋势。 [事实] OpenCloud/OpenClaw 的核心被概括为：随时随地联系得到、能协作、并且越用越懂用户的 Agent。 [事实] 嘉宾认为 Skill 加 CLI 的范式比 MCP 更容易让普通人编写、分享和传播经验。 [推测] ClawHub 一类共享平台的意义在于让个人工作流快速扩散，形成社区层面的 Agent 学习网络。

[42:49] Agentic 模型和 Chatbot 模型的差异

[事实] 嘉宾认为 Chatbot 的核心是当下给出回答，而 Agentic 模型需要和环境互动、探索、推理并纠正路径。 [事实] 他们提到 browser camp 这类 benchmark 要求模型跨多个信息源寻找满足多条件的答案，考验长程探索能力。 [事实] MiniMax 在模型中强调 interleaved thinking，即模型在工具调用和环境交互后能重新思考，而不是只按最初计划执行。 [推测] Agentic 能力的核心不是“回答更聪明”，而是在不确定环境里持续行动并动态修正。

[45:12] 模型公司做 Agent 的反馈循环

[事实] 嘉宾认为模型和应用、Agent 是互相促进的关系，应用会探索模型能力边界，再把真实使用经验反馈给模型公司。 [事实] 用户、开发者和创作者的真实分布比公司内部评测更丰富，因此常常能用出模型公司没预料到的能力。 [事实] 通用 Agent 应用、Skill 和 workflow 可能会逐渐被后续模型内化。 [推测] 对创业者来说，通用层能力容易被模型吸收，真正壁垒可能来自具体场景、数据、流程和交付闭环。

[49:29] 中国模型与 Anthropic、OpenAI 的差距

[事实] 嘉宾认为中国团队在训练方法和模型训练认知上与硅谷差距没有那么大。 [事实] 他们认为更大的差距在于真实任务定义，以及如何请各领域顶尖人才把问题、数据和评估体系转化为模型训练素材。 [事实] 嘉宾特别提到 Anthropic 在 coding 方向押注较早，因为 coding 更容易触及真实世界问题边界。 [事实] 算力差距也被认为仍然存在，但嘉宾相信国产算力和中国人才会继续支撑更多实验。

[51:46] 通用 Agent、垂直 Agent 与创业机会

[事实] 嘉宾认为垂直 Agent 会百花齐放，因为通用 Agent 往往难以解决最后一公里交付。 [事实] 也有嘉宾认为许多垂直场景最终会被更强的通用 Agent 吃掉，差异主要来自当前模型能力还不够。 [事实] 在 Agent Infra 上，身份认证和支付被认为是最核心问题，但嘉宾判断这类基础设施不太适合普通创业公司独立承担。 [事实] 更上一层的 Agent 工具、环境和面向业务的接口，被认为仍有创业机会，尤其需要具体行业 know-how。

[56:47] 新模型、实名、安全与封闭争议

[事实] 嘉宾讨论了 Opus 4.7，认为它体现了更强的 RL 倾向，但也可能带来约束遵循下降等典型问题。 [事实] 对 Claude Code 强制实名，嘉宾一方面认为 Agent 时代确实需要解决行为归因和身份认证问题。 [事实] 另一方面，也有嘉宾批评过度实名和安全叙事可能导致封闭，并强调“intelligence with everyone”。 [推测] 安全、算力、商业控制和开放理念在 Agent 时代会持续拉扯，很难只用单一理由解释大公司的选择。

[63:04] Claude Code 源码泄漏与行业影响

[事实] 嘉宾称看到 Claude Code 源码后，研发者第一反应是兴奋，因为可以学习一个被广泛认可的 Agent 实践。 [事实] 源码中包含做梦、养宠物、多 Agent 协作等实验性功能，说明大公司也仍处在探索阶段。 [事实] 嘉宾对比 Codex 和 Claude Code，认为前者更简化、更多交给模型，后者更强调约束和工程护栏。 [推测] 源码泄漏削弱了“顶级 Agent 有神秘魔法”的想象，也让行业看到大家面对的是相似问题。

[65:39] Manus 与 Agent 产品范式变化

[事实] 嘉宾认为 Manus 在去年是现象级产品，显著提高了用户对 Agent 产品的审美和期待。 [事实] Manus 的模式更像替用户托管并交付结果，而新一代本地或订阅型 Agent 更强调用户直接购买 Token、自己运行和训练 Agent。 [事实] 嘉宾认为 Agent 和 Harness 有生命周期，会随着模型能力提升不断换代。 [推测] Manus 代表的是“我付钱要结果”的产品逻辑，而 OpenCloud/OpenClaw、Claude Code 等更偏“我拥有并训练一个工作伙伴”的逻辑。

[67:51] 未来统一形态与交互抽象

[事实] 嘉宾设想未来 Agent 会支持全模态输入和全模态输出，接近实时响应，交互更简洁。 [事实] Agent 可能直接交付结果，用户通常不需要关注过程，但需要时仍可以查看。 [事实] 嘉宾认为从 Copilot 到 Cursor、Claude Code，再到用 OpenCloud/OpenClaw 指挥多个 Claude Code，外层交互壳正在变薄。 [推测] 未来产品形态可能不再围绕“看 Agent 怎么操作”，而是围绕“自然提出目标并收到可信结果”。

[70:25] B 站 AI 内容与 AI 游戏想象

[事实] 嘉宾提到 B 站上有人用 OpenCloud/OpenClaw 连接家里的机器狗，也有人把文字冒险游戏角色放到网页场景里自动对话。 [事实] 主持人提到任天堂 Tomodachi Life，认为它像一个让玩家既当导演又当观众的模拟世界。 [事实] 讨论延伸到 AI 游戏可以创造无限延续的角色生活和故事。 [推测] Agent 与游戏结合的潜力，可能不只是生成内容，而是让玩家参与一个持续运行的模拟世界。

[72:45] 对“人会被 AI 替代”的反驳

[事实] 嘉宾明确不同意“人会被完全替代、无事可做”的观点，认为人的创造力不可替代。 [事实] 他们把 AI 类比为电和蒸汽机，认为岗位会变化，但人会用新工具创造更多事情。 [事实] 嘉宾用 ATM 机例子说明自动化提升效率后，银行网点和相关工作并没有简单消失，而是发生了结构变化。 [事实] 结尾建议用户尽早拥抱 AI，把它当作伙伴、工具或长期协作者。

播客点评/总结

这期的价值在于把 Agent 热潮从产品现象拉回到系统问题：模型、Harness、记忆、工具、环境、反馈、Skill、社区传播和真实任务定义共同决定了 Agent 能不能真正工作。它不是单纯介绍 Hermes Agent 或 MiniMax Agent，而是在讨论“模型变强之后，产品和组织该怎么重构”。

亮点是嘉宾同时有模型训练和 Agent 产品实践视角，能把多 Agent、interleaved thinking、Skill/CLI、身份认证、通用与垂直 Agent 等问题放在同一条演进线上看。关于“人类成为瓶颈”“模型公司会内化应用层 workflow”“Agent 外壳越来越薄”的判断，尤其适合开发者、AI 产品经理和创业者参考。

局限是转录中部分产品名和术语存在明显识别混杂，且很多判断来自嘉宾个人经验和行业观察，并没有逐条展开数据验证。[推测] 对不熟悉 Claude Code、OpenCloud/OpenClaw、Manus、MCP 等背景的听众来说，部分段落会显得跳跃，需要额外上下文才能完全理解。

[推测] 最适合收听的人群是正在使用或构建 Agent 的开发者、关注 AI 应用创业的人、模型公司或工具链团队成员，以及想理解“Agent 时代工作方式如何变化”的技术从业者。整期的基调不是焦虑，而是鼓励听众把 AI 当作新基础设施，尽快学习如何驾驭它。