「1 亿 TOKEN 俱乐部」挤爆了,AI 的燃料不够了|对谈于文渊:阿里云百炼技术负责人
「1 亿 Token 俱乐部」挤爆了,AI 的燃料不够了:对谈于文渊
概览
本期围绕 AI 应用爆发后“Token 不够用”的现象展开,嘉宾于文渊认为,表面上是 Token 消耗激增,本质上是不够用的是更高性价比、更稳定、更弹性的算力。Cloud Code、Open Cloud 和 Agent 场景把 AI 从测试工具推向生产力工具,带来了按月翻倍级别的需求增长。
讨论的主线从百炼看到的用量增长、GPU 调度和 MaaS 平台差异化,延伸到企业是否应该自建模型服务、AI 编程的边界、国产算力供给、Neocloud 的机会,以及 AI 是否会成为类似水电煤的基础设施。
一个核心结论是:Token 数量本身有误导性,真正重要的是模型质量、推理成本、首包延时、生成速度、峰值调度和稳定性。于文渊反复强调,未来 AI 的基础设施竞争,不只是“有多少卡”,而是谁能把算力更高效地转化成可用 Token。
分段落总结
[00:32] AI Token 消耗开始爆炸式增长
[事实] 主持人提到,伴随 Cloud Code 和 Open Cloud 的流行,全球都在讨论 Token 不够用。 [事实] 于文渊说,百炼看到 Token 数按月翻倍增长,而且很多都是高质量、消耗大模型能力的 Token。 [事实] 他认为用户已经不再把 AI 当作测试工具或限量场景,而是融入生产力场景。 [推测] 这说明 AI 使用正在从尝鲜阶段进入真实业务消耗阶段,基础设施压力会持续上升。
[01:42] 云计算范式正在被 AI 改写
[事实] 于文渊认为,短期内很难预测下一个爆发场景,但三五年内,很多人力完成的事情都会用 AI 完成。 [事实] 他判断云计算的数据中心、调度系统、计算存储网络的使用方式,三五年后会和今天完全不一样。 [事实] 主持人追问云计算格局是否会重新洗牌,于文渊表示已经有洗牌趋势,但每个云厂商也都在自我变革。 [推测] AI 让云的核心用户可能从“人”变成“Agent”,因此云厂商需要重新定义产品形态和资源组织方式。
[04:29] 百炼最关注稳定、安全和算力利用率
[事实] 于文渊说,百炼第一关注的是稳定,安全也非常重要。 [事实] 他提到通义千问 3 发布后两个星期,峰值已经达到百炼历史上文本模型未见过的高度。 [事实] 即使阿里有激进投入算力的 CEO,他仍认为算力不够用,因为模型研发、客户服务和 Token 增长都在消耗资源。 [事实] 他强调百炼的重要使命是让每一块 GPU 不要有一秒钟闲下来,尽量发挥最大作用。
[06:52] “1 亿 Token 俱乐部”的门槛正在变低
[事实] 主持人提到有一个“1 亿 Token 俱乐部”,一天烧掉 1 亿 Token 才能加入。 [事实] 于文渊认为 Token 指标有误导性,小模型、Embedding 模型和会深度思考的大模型,其 Token 在算力、智能和水平上并不等价。 [事实] 他表示百炼每天烧掉 1 亿 Token 的用户在增加,重度个人 coding 用户的消耗也让 1 亿不再是很大的门槛。 [推测] 未来衡量 AI 使用规模,单看 Token 数会越来越不够,需要结合模型类型和服务质量指标。
[08:01] 平台更关心峰值、调度和服务质量
[事实] 于文渊说,除了 Token 数,百炼还关心峰值调用量、削峰填谷、GPU 调度、首包延时和生成速度。 [事实] 主持人提到国际化可以让不同时区用户轮流使用 GPU,于文渊表示 Token 出海是非常重要的事情。 [事实] 他认为阿里云和中国厂商的 AI 出海是大势所趋,但也需要克服地缘政治和合规问题。 [推测] 国际化不只是市场扩张,也可能成为提升算力利用率的一种基础设施策略。
[09:20] 真实业务正在用自然语言重构流程
[事实] 于文渊举例说,有水饮厂商在经销商群里接入机器人,经销商可以用自然语言说补货需求,系统理解商品和历史购买情况后完成补货。 [事实] 主持人认为这种方式更自然,不需要学习新系统,就像和真人沟通。 [事实] 于文渊表示,这肯定是一个自然而然的未来,很多行业角色都会被大模型深远影响。 [推测] 大模型的价值不只是聊天,而是把自然语言变成企业流程入口。
[10:22] MaaS 平台差异来自端到端能力
[事实] 于文渊认为,一个公司技术设施做得好不好,会影响 MaaS 产品好不好。 [事实] 他提到阿里云有长期 Infra 积累,也有通义实验室提供模型,还有平头哥芯片团队支持。 [事实] 他认为百炼的独特性在于模型、Infra、算力规模和自研能力可以端到端协同。 [事实] 他表示,千问 Model Card 上的分数,在百炼 API 上一定可以做到。
[12:21] 于文渊认为企业没有必要自建模型服务
[事实] 主持人问企业在什么情况下应该考虑自建,于文渊称这是“爆论”,表示他认为没有任何一个情况需要自建。 [事实] 他总结企业自建 GPU 的三个原因:成本可控、安全,以及灵活部署各种模型。 [事实] 他反而认为 MaaS 能更好解决这三个问题,包括推理优化、资源利用、安全机制和模型灵活性。 [事实] 他提到百炼在推进“机密推理”,让平台看不到模型文件和请求,端到端密钥在用户手里。
[15:10] 计算机学生仍应学习底层能力
[事实] 于文渊建议本科生继续学计算机。 [事实] 他引用一个说法:未来有两种人,一种是被计算机使用的人,一种是使用计算机的人。 [事实] 他认为即使 AI 和自动化作用越来越大,人也不能不知道从物理世界、电路门到芯片设计和生产中间如何发生。 [事实] 他建议学弟学妹不要让 AI 帮自己写太多代码,因为初学者缺少判断 AI 错误的经验。
[17:23] AI 编程适合提效,但不适合无脑替代
[事实] 主持人提到无脑补全代码的人比例在上升。 [事实] 于文渊说,做 code review 时如果一看就是 AI 生成的代码,他会很慌。 [事实] 他认为 vibe coding 做 prototype 没问题,但生产可用代码需要理解每一行的作用和副作用。 [事实] 他判断 mission critical 的代码暂时 AI 还不行,但 AI 一定能成为效率工具。
[19:20] Spec Coding 比简单提示词更可靠
[事实] 于文渊认为比较好的方式是 spec coding,也就是写非常清晰的需求文档或规范。 [事实] 他提到一篇关于让 AI 写文件系统的论文,认为如果 spec 写得足够清楚,模型可以写出底层高质量系统。 [事实] 他强调,人如果能用偏形式化的逻辑把想要的东西描述清楚,AI 很擅长做填空。 [事实] 他不认同用两三个提示词就能把复杂工程做好。
[20:23] 用 AI 生成代码比例当 KPI 很危险
[事实] 主持人提到有些企业把 AI 生成代码比例当作目标。 [事实] 于文渊认为这是很危险的提法,因为 AI 仍有算法能力限制。 [事实] 他指出,人和人合作中的很多知识传递是隐式的、过程性的,无法靠几句提示词讲清楚。 [事实] 他认为更应关注“一个人加 AI 能完成原来几个工程师的工作”,而不是“一个 AI 替掉几个工程师”。
[21:31] 越接近人的开放问题,越难被 AI 替代
[事实] 主持人提出生产要素、知识要素和过程要素的区分,认为程序员应把能力立在 AI 做不到的点上。 [事实] 于文渊认为,写操作系统内核、数据库内核、文件系统等封闭且可验证的问题,反而可能更容易被 AI 批量替代。 [事实] 他认为前端工程师或更接近产品和用户的工作,需要 know-how,可能更难被取代。 [事实] 他解释,数学竞赛和编程竞赛 AI 做得好,是因为问题足够清晰,结果可以定义。
[23:35] MaaS 系统工程是开放问题
[事实] 主持人问 MaaS 系统工程是开放问题还是封闭问题。 [事实] 于文渊认为它是开放问题,因为 AI、底层资源和算力情况变化都非常快。 [事实] 他表示这种情况下需要的是人的潜力,也就是应对变化的能力,而不只是已有知识。 [推测] MaaS 工程师的价值在于处理不确定性,而不是只解决已被明确定义的问题。
[24:01] 国产算力有信心,但供给缺口很现实
[事实] 于文渊认为英伟达供应或断供对中国 AI 的影响非常大。 [事实] 他对国产算力和自主可控有信心,认为中国有聪明工程师和工业基础。 [事实] 他把算力比作石油,问题不是中国能不能产石油,而是每天需要的供给和实际供给是否匹配。 [事实] 他认为只要能进来的算力供给,对中国只有好处没有坏处。
[25:20] 平头哥被评价为用得最顺手的国产芯片团队
[事实] 于文渊表示平头哥做得非常好,软件团队、硬件团队和落地能力都很强。 [事实] 他称百炼团队用平头哥芯片的体验最丝滑、最好用。 [事实] 对摩尔线程、沐曦等厂商,他表示自己没有用过。 [事实] 他再次强调,AI 发展更关键的是总量供给问题,而不是单个算力产品是否完美。
[26:48] Agent 和 AI 生成会继续烧掉大量 Token
[事实] 主持人请于文渊预测到 2026 年底哪些场景会烧掉大量 Token。 [事实] 于文渊说,现在没有什么 AI 能做到的事情会让他觉得意想不到。 [事实] 他认为 Agent 一定是今年最大增量之一,AI 生成也一定是增长来源之一。 [事实] 他不确定两者谁多谁少,并表示不同厂商可能不同。
[28:01] 百炼的价值是把算力高效转成 Token
[事实] 于文渊指出,千问 API 就是百炼 API。 [事实] 他认为 MaaS 的厚度体现在好的体验、低成本、好的模型效果和容量转化能力。 [事实] 他把 MaaS 描述成把算力转换成 Token 的系统,谁转得更高效、谁有更多算力,谁就更有优势。 [事实] 他表示百炼也支持千问之外的模型,包括中国开源模型,以及 minimax、kimi、DeepSeek 等模型服务。
[29:11] 更看好 AI 原生的 Neocloud
[事实] 于文渊认为 Neocloud 是一个很泛的概念,核心是为客户屏蔽复杂性。 [事实] 他不太看好单纯做资源转售、裸算力向上封装的 Neocloud。 [事实] 他更看好 AI 原生、能屏蔽硬件和复杂性的 MaaS 厂商,例如 Fireworks、Together 这类方向。 [事实] 他也提到围绕 Agent 的沙箱托管、浏览器、搜索、可观测性等基础设施会很有意思。
[30:15] AI 最终会成为基础设施级 Utility
[事实] 于文渊认为,MaaS 战局何时确定,取决于 AI 未来在社会中承担什么角色。 [事实] 他相信 AI 会成为类似水电煤、手机运营商、电信运营商、高速公路一样的基础设施级 utility。 [事实] 他认为 AI 的终局不一定是一个模型,而会包含多样性、复杂性、速度、效果和功能差异。 [事实] 主持人提出未来基础设施可能从“水电煤”变成“水电煤膜”,于文渊表示一定会这样,并认为 AI 会深远影响日常生活。
播客点评/总结
这期的价值在于,它不是从模型能力排行榜讨论 AI,而是从云厂商和 MaaS 平台的视角,解释 Token 爆炸背后的真实约束:算力供给、推理效率、调度系统、稳定性、延时和成本。对关心 AI 基础设施、云计算变局和企业模型部署的人来说,信息密度较高。
节目中最有启发的部分,是把 Token 数量从“炫耀指标”拉回到工程指标:不同模型的 Token 并不等价,真正关键的是如何把 GPU 高效转化为稳定、低成本、可用的智能服务。关于企业自建与 MaaS 的讨论也很直接,嘉宾清晰表达了平台化服务在成本、安全和灵活性上的立场。
局限在于,部分观点来自百炼负责人自身立场,尤其是“没有任何情况需要自建”的判断,带有明显平台方视角;关于竞品、国产芯片和 Neocloud 的评价也有一些边界,部分厂商嘉宾明确表示没有亲自使用过。
[推测] 这期更适合 AI 创业者、云计算从业者、工程负责人、模型应用团队和正在评估自建或调用 MaaS 的企业听;如果只是想了解普通 AI 工具使用技巧,可能会觉得基础设施和工程调度部分偏重。