探秘 Claude Code,搞懂 Agent Harness|对谈来新璐
探秘 Claude Code,搞懂 Agent Harness|对谈来新璐
概览
本期围绕 Agent Harness 展开,核心问题是:当大家说“Agent 的上限由 Harness 决定”时,究竟在讨论什么。来新璐把 Harness 概括为“模型以外的部分”,包括执行能力、上下文/状态环境,以及多 Agent 的治理和编排。
讨论以 Claude Code 源代码泄漏为切入口,把 Claude Code 视为学习 Agent Harness 的样本,重点分析了工具、记忆、压缩、上下文交接、权限治理、CLI 与 MCP、沙箱等工程实践。
嘉宾的主要判断是:模型仍然是 Agent 智力的第一来源,但好的 Harness 要贴合模型运行逻辑,并且不能在模型变强后反而束缚模型。相比传统 prompt node / flow 的框架,他更推崇“模型即 Agent”“更多上下文、更少控制”“Bash/CLI is all you need”的方向。
节目后半段转向创业和未来判断,讨论了 Agent infra、混合组网、Agent payment、个性化模型训练,以及“零人公司”和 Agent 作为未来经济主体的可能性。
分段落总结
[00:00] 开场与节目目标
[事实] 主持人指出,最近大家都在讨论 Agent Harness,并提出问题:当我们聊 Harness 时到底在聊什么。
[事实] 节目将 Claude Code 源代码泄漏视为一个观察 Agent Harness 关键模块的教学样本。
[事实] 嘉宾来新璐是 Share AI 创始人,团队做了 Learn Claude Code 教程,用来解析 Claude Code 的 Agent 设计模式。
[事实] 本期目标是让听众理解 Harness 不是神秘概念,而是软件工程方法。
[01:44] Harness 的基本定义
[事实] 来新璐用一句话定义 Harness:“模型以外都是 Harness”。
[事实] 他把模型比作聪明的大脑,但如果没有身体和手脚,大脑只能思考,不能行动。
[事实] 他部分认可“Agent 的上限来自 Harness 设计”,但强调 Agent 智力上限仍然来自模型发展。
[推测] 在他的框架里,模型决定“会不会想”,Harness 决定“能不能做、怎么持续做”。
[02:45] Learn Claude Code 与范式争论
[事实] Learn Claude Code 大约从九个月前开始做,初衷是把 Claude Code 当作强大的 Agent Harness 样本来学习。
[事实] 嘉宾认为,过去 LangChain、LangGraph 等基于 prompt node、parameter flow 的方式,在未来 Agent 开发中会越来越不适用。
[事实] 他更看好 Agent native 的方式,也就是“Agent 即模型、模型即 Agent”,以及类似“Bash is all you need”的范式。
[推测] 这段讨论的核心冲突是:工程师到底应该控制流程,还是给模型足够上下文和工具,让模型自主完成任务。
[04:16] Managed Agents 与是否还需要理解 Harness
[事实] 主持人提到 Claude 推出了 Managed Agents,也就是把自家的 Agent Harness 能力开放给开发者使用。
[事实] 嘉宾认为,未来可能会出现像 Web 框架一样开箱即用的 Harness,但在当前技术周期中,开发者和创业者仍需要理解其内部变化。
[事实] 他认为不了解 Harness 的产品,会缺乏迭代空间和“灵魂”。
[事实] 嘉宾也认为产品经理需要理解技术周期的变化,因为当前 AI 产品是在吃技术进步的红利。
[06:59] Agent Harness 的三层结构
[事实] 嘉宾把 Agent Harness 拆成三层:执行能力层、上下文/环境层、治理编排层。
[事实] 执行能力层包括 CLI、代码注册工具、MCP 扩展工具等,为模型提供 action 能力。
[事实] 上下文/环境层包括 system prompt、skills、memory、上下文窗口管理,以及任务跨窗口交接。
[事实] 治理编排层处理多 Agent 的组织协作、权限治理、信息提供与隔离等问题。
[08:43] 用复杂项目解释三层如何协作
[事实] 嘉宾用一个大量 Agent 协同完成复杂项目的例子,说明单靠 action 工具无法完成长程任务。
[事实] 执行层需要提供文件增删读写、搜索等工具,让模型能够写代码和修改项目。
[事实] 上下文层需要让 Agent 知道当前路径、依赖、文件结构、Git 信息、已完成内容和下一步任务。
[事实] 编排治理层需要处理写代码 Agent、测试 Agent 的关系,并控制不同角色的权限,避免测试 Agent 为了通过测试而直接篡改代码。
[11:19] 现有 Infra 与 EKB/K 系列工具链
[事实] 嘉宾认为三层 Harness 目前都还没有被封装得非常好,因为 Agent 范式变化很快。
[事实] 他的公司在做一套 Agent 开发工具链,包括 K Computer、K Runtime、K Watch,以及数据导出和强化学习相关工具。
[事实] K Computer 被描述为在内存数据结构中实现的一台虚拟 Unix 计算机,为主动式 Agent 提供工作环境。
[事实] K Watch 用于观测 Agent 任务完成情况、卡点、工具设计、skill 设计和模型效果。
[14:01] 与云厂商 Agent Infra 的差异
[事实] 主持人提到 AWS Agent Core、阿里云 Agent Bay 等云厂商也在做 Agent Harness Infra。
[事实] 嘉宾强调他们的工具链并不只面向云端,而是希望所有能跑 JS 的场景都能使用,包括浏览器网页和微信小程序。
[事实] 他提出 K Computer 只有约 1KB,目标是在各种环境中提供统一、轻量的 Unix 式 Agent 工作环境。
[事实] 技术实现上,他们用数据结构重写 Unix 文件系统等抽象,并在支持 WebAssembly 的场景中切换到 Rust/WASM 实现,否则 fallback 到 JS。
[16:11] 工具层的关键工具与坑
[事实] 嘉宾认为最主要的工具包括文件系统工具、浏览器操作能力,以及 Python/Node 这类语言解释器。
[事实] 他认为这些工具组合可以覆盖大部分 Agent 任务。
[事实] 工具设计的坑主要在权限和角色绑定:探索代码库的 Agent 应该只拥有无副作用的读能力,而不应拥有写、删、改等能力。
[事实] 对浏览器或网络工具,也需要限制访问网域和可操作范围。
[17:38] Memory 的几类方案
[事实] 嘉宾把 memory 方案粗略分为规则式、半规则式和完全模型驱动式。
[事实] 规则式方案包括知识图谱、向量搜索、结构化节点表示和检索扩展。
[事实] 他更偏好半规则式方案,例如用 Unix files 和 Markdown 存储信息,再由 Agent 按规则维护、更新和查询。
[事实] 他提到 Claude Code、Manus 以及 MemU 都接近这种 Unix files 加 Agent 驱动维护的思路。
[20:14] Memory、Skill 与自迭代边界
[事实] 主持人提到大家开始混淆 memory 和 skill 的边界。
[事实] 嘉宾认为 Claude Code 早期的 insights 特性会分析近期对话,生成任务报告,并可指导 skill 生成。
[事实] 他认为 memory、skill、经验、SOP 之间存在很大交集,很多内容很难严格归类。
[推测] 这一段的重点不是定义名词,而是 Agent 如何通过历史经验持续学习和自我迭代。
[22:04] Harness 的共识与非共识
[事实] 嘉宾认为“Bash is all you need”或“CLI is all you need”正在成为一种共识,很多人开始优先给 Agent 提供 CLI。
[事实] 他指出,很多主流 Agent 框架仍然基于 prompt node、状态图、路由和条件规则,不是为这一理念原生构建的。
[事实] 他认为 K 系列工具链试图面向新的共识范式,提供 Agent 开发工具链。
[推测] 这段把 CLI/Unix 哲学放在 Agent Harness 的中心位置,弱化了 MCP 和传统流程编排框架的重要性。
[23:17] 从 Claude Code 泄漏源码学到什么
[事实] 嘉宾认为 Claude Code 的上下文压缩策略比外界想象得复杂,包括何时删除工具输出、压缩时保留或恢复哪些信息。
[事实] 他认为 Claude Code 的 memory 设计也很精妙,并且与 skills 机制遵循同一套哲学。
[事实] 他总结 Claude Code 的关键思想是:模型才是 Agent,要给模型合适工具和足够自由,而不是由程序员每一步替模型决策。
[事实] 他用“更多 context、更少 control、更多 action 能力”概括这种做法。
[25:00] 沙箱、K Computer 与取舍
[事实] 主持人提到 Manus 使用过云端沙箱 E2B,并询问沙箱领域的变化。
[事实] 嘉宾认为沙箱领域最近有很多聚合式方案,但大的进展还不多。
[事实] 他认为他们的 1KB Unix Computer 更极致轻量,本质上不是传统 sandbox,而是数据结构层面的虚拟计算机。
[事实] 这种方案无法真实运行 GCC 编译器或浏览器,但提供最小化 Unix 文件系统、Bash 命令能力、局域网通信、共享磁盘等能力。
[27:00] Claude Code 的“做梦”式记忆机制
[事实] 嘉宾说 Claude Code 有两套记忆更新机制:一套在每轮 Agent 工作结束后的 stop hook 上触发,另一套是 AutoDream。
[事实] stop hook 会 fork 一个 Agent,复用上下文和 KV cache,判断哪些信息需要保存到 Markdown 记忆文件中。
[事实] 这些 Markdown 文件类似 skill,包含 YAML 和 description,运行时先读文件名和描述,再判断是否加载全文。
[事实] AutoDream 大约每天触发,在满足会话数量条件后回顾最近会话,纠正、更新、合并和整理记忆。
[29:11] 上下文压缩与交接工程
[事实] 嘉宾认为 Claude Code 在上下文压缩和跨 Agent 交接上有大量工程兜底。
[事实] 当上下文窗口接近满载时,一种策略是踢掉不必要的工具输出或垃圾信息,腾出空间继续工作。
[事实] 另一种策略是在达到阈值时留下余量,生成进展文档,让下一个 Agent 读取后接着完成任务。
[事实] 上下文交接的关键问题是:哪些信息该交接,哪些不该交接,下一个 Agent 初始化时应加载什么。
[30:30] Harness 是 Agent 模型之上的工程实践
[事实] 嘉宾把 Harness 类比为新底层运行层之上的工程实践,类似 CPU、汇编、C、C++、Python/Node 等抽象逐层演进。
[事实] 他认为现在新的底层运行层是模型,而开发者很难直接修改模型参数,所以要围绕模型智能性做上层工程实践。
[事实] 他认为许多 Agent 最佳实践,如果从模型运行逻辑出发,会显得自然且符合直觉。
[推测] 这解释了为什么“less control more context”等实践看似反传统工程直觉,却适合当前 Agent 模型。
[32:35] 好 Harness 与坏 Harness 的标准
[事实] 嘉宾认为坏的上下文管理会随意裁剪历史轮次、修改系统提示词,导致提示词相关机制失效。
[事实] 他认为“最好的管理就是不要做管理”,因为过度管理可能破坏模型原本的运行逻辑。
[事实] 好的 Harness 应该与模型运行逻辑自洽,并且与模型未来能力进步方向正交。
[事实] 如果 Harness 随模型变强反而限制模型,就不是好的 Harness。
[34:23] Token 效率、模型阶段与未来差异
[事实] 嘉宾认为当前 Agent 模型还处于早期,很多东西没有收敛,不必过早过度讨论 token efficiency。
[事实] 他认为使用者应围绕 SOTA 和次 SOTA 模型构建产品和工具。
[事实] 在他的判断中,Anthropic 是 SOTA,Kimi、MiniMax 等最新一代模型属于紧贴 SOTA 的梯队。
[推测] 他更关注任务成功和范式适配,而不是在早期阶段过分优化单次调用成本。
[35:39] 模型、上下文、工具的重要性排序
[事实] 嘉宾把模型排在第一位,因为他认为“模型才是 Agent”。
[事实] 他把上下文排在第二位,包括工作目录、操作系统、工具形式、skills、memory 和跨 Agent 交接。
[事实] 他把工具排在第三位,并认为强工具能显著扩展 Agent 能完成的任务。
[事实] 他举 GitHub MCP 与 GitHub CLI 的例子,认为 CLI 的成功率更高,因为 Linux/命令行语料在预训练中更充分,而 MCP 是较新的协议和抽象。
[37:45] CLI 相比 MCP 的优势
[事实] 嘉宾认为飞书 CLI 相比此前给 Agent 使用的插件,在组合性、灵活度和任务完成率上更高。
[事实] 他观察到越来越多系统开始开发自己的 CLI 给 Agent 使用,而不是只提供 MCP。
[事实] 他认为 Unix 体系已经存在很久,训练语料更多、更充分,因此今天可能不该再造更多协议和轮子。
[推测] 这强化了他对 Unix、Shell 和 CLI 作为 Agent 原生接口的偏好。
[38:40] Agent Harness 催生的创业方向
[事实] 主持人询问除了 K 系列之外,嘉宾还看好哪些 Agent Harness 相关方向或团队。
[事实] 嘉宾提到混合组网需求:Agent 可能运行在云服务器、Mac、Mac mini、路由器、NAS、手机等不同设备上,而这些设备未必都有公网 IP。
[事实] 他认为 Tailscale 类工具展示了统一组局域网的价值,但还不够 Agent native,未来可能需要新的混合组网形态。
[事实] 他还提到 Agent payment,因为 Agent 之间可能产生高频、碎片化、小额支付。
[40:20] 个性化模型训练与推理
[事实] 嘉宾认为未来不一定每个人都只调用相同的基座模型 API,个性化训练会变得重要。
[事实] 他看好类似 T-Sync 的方向,即通过集中 GPU 和高速互联降低个性化训练成本。
[事实] 他设想 API 请求可以携带用户 LoRA 信息,在基座模型上瞬时挂载个性化参数进行推理。
[事实] 他认为这与他们的工具链互补,因为 Harness 运行会产生大量轨迹数据,可用于分析、迭代和训练。
[42:03] Agent Infra 赛道与创业初心
[事实] 嘉宾认为 Agent Harness 赛道会比较激烈,但未来未必需要很多水平差异化方案。
[事实] 他判断好的 Harness 要同时与模型运行方式和模型进步方向自洽,因此结构设计上不会出现太多派系。
[事实] 他们更偏 Unix 和 Shell 路线,试图提供虚拟化、极轻量的数据结构层 Computer,而不是传统 Docker/Sandbox 路线。
[事实] 嘉宾说公司的 slogan 是“加速世界升级”,目标是服务未来大量运行在地球上的 Agents。
[44:58] Agent 未来、群体协作与零人公司
[事实] 嘉宾预测,当前 Agent 模型阶段可能还会持续几年,下一步会从单体 Agent 走向 Agent 群体协作。
[事实] 他认为未来不只是人管理 100 个 Agent,而是 Agent 自己管理和协调更多 Agent。
[事实] 他进一步设想 Agent 能做发明、驱动企业运行,并形成“零人公司”。
[事实] 主持人提到 YouYouAgent:创作者把 Agent 做出来后不再写代码或投钱,让它自己进化、筹钱买 token,并以超越 Claude Code 为目标。
[推测] “投资标的从公司变成 Agent”是节目中最激进的未来判断,也代表了嘉宾对 Agent 经济主体化的想象。
播客点评/总结
[推测] 本期的价值在于把 Agent Harness 从抽象热词拆成了具体工程问题:工具怎么给、上下文怎么保、记忆怎么更新、权限怎么管、多 Agent 怎么交接和编排。对于想理解 Claude Code 为什么强的人,这期提供了清晰的技术框架。
[推测] 亮点是嘉宾立场鲜明,反复强调“模型即 Agent”“更多上下文、更少控制”“CLI/Unix 优先”。这些观点不一定是行业最终答案,但能帮助听众理解当前 Agent 工程实践中一条重要路线。
[推测] 局限是讨论高度集中在嘉宾自己的技术哲学和创业方向上,对其他 Harness 路线的优点展开较少;部分未来判断,如零人公司、Agent payment、个性化 LoRA 推理,还处在预测和设想层面。
[推测] 这期更适合 AI 产品经理、Agent 开发者、AI infra 创业者,以及已经用过 Claude Code、Manus、MCP、CLI 工具并希望理解其底层设计差异的听众。