「1 亿 TOKEN 俱乐部」挤爆了，AI 的燃料不够了｜对谈于文渊：阿里云百炼技术负责人

2026-03-29 · Show: 十字路口Crossing · 1909s · Source

「1 亿 Token 俱乐部」挤爆了，AI 的燃料不够了：对谈于文渊

概览

本期围绕 AI 应用爆发后“Token 不够用”的现象展开，嘉宾于文渊认为，表面上是 Token 消耗激增，本质上是不够用的是更高性价比、更稳定、更弹性的算力。Cloud Code、Open Cloud 和 Agent 场景把 AI 从测试工具推向生产力工具，带来了按月翻倍级别的需求增长。

讨论的主线从百炼看到的用量增长、GPU 调度和 MaaS 平台差异化，延伸到企业是否应该自建模型服务、AI 编程的边界、国产算力供给、Neocloud 的机会，以及 AI 是否会成为类似水电煤的基础设施。

一个核心结论是：Token 数量本身有误导性，真正重要的是模型质量、推理成本、首包延时、生成速度、峰值调度和稳定性。于文渊反复强调，未来 AI 的基础设施竞争，不只是“有多少卡”，而是谁能把算力更高效地转化成可用 Token。

分段落总结

[00:32] AI Token 消耗开始爆炸式增长

[事实] 主持人提到，伴随 Cloud Code 和 Open Cloud 的流行，全球都在讨论 Token 不够用。 [事实] 于文渊说，百炼看到 Token 数按月翻倍增长，而且很多都是高质量、消耗大模型能力的 Token。 [事实] 他认为用户已经不再把 AI 当作测试工具或限量场景，而是融入生产力场景。 [推测] 这说明 AI 使用正在从尝鲜阶段进入真实业务消耗阶段，基础设施压力会持续上升。

[01:42] 云计算范式正在被 AI 改写

[事实] 于文渊认为，短期内很难预测下一个爆发场景，但三五年内，很多人力完成的事情都会用 AI 完成。 [事实] 他判断云计算的数据中心、调度系统、计算存储网络的使用方式，三五年后会和今天完全不一样。 [事实] 主持人追问云计算格局是否会重新洗牌，于文渊表示已经有洗牌趋势，但每个云厂商也都在自我变革。 [推测] AI 让云的核心用户可能从“人”变成“Agent”，因此云厂商需要重新定义产品形态和资源组织方式。

[04:29] 百炼最关注稳定、安全和算力利用率

[事实] 于文渊说，百炼第一关注的是稳定，安全也非常重要。 [事实] 他提到通义千问 3 发布后两个星期，峰值已经达到百炼历史上文本模型未见过的高度。 [事实] 即使阿里有激进投入算力的 CEO，他仍认为算力不够用，因为模型研发、客户服务和 Token 增长都在消耗资源。 [事实] 他强调百炼的重要使命是让每一块 GPU 不要有一秒钟闲下来，尽量发挥最大作用。

[06:52] “1 亿 Token 俱乐部”的门槛正在变低

[事实] 主持人提到有一个“1 亿 Token 俱乐部”，一天烧掉 1 亿 Token 才能加入。 [事实] 于文渊认为 Token 指标有误导性，小模型、Embedding 模型和会深度思考的大模型，其 Token 在算力、智能和水平上并不等价。 [事实] 他表示百炼每天烧掉 1 亿 Token 的用户在增加，重度个人 coding 用户的消耗也让 1 亿不再是很大的门槛。 [推测] 未来衡量 AI 使用规模，单看 Token 数会越来越不够，需要结合模型类型和服务质量指标。

[08:01] 平台更关心峰值、调度和服务质量

[事实] 于文渊说，除了 Token 数，百炼还关心峰值调用量、削峰填谷、GPU 调度、首包延时和生成速度。 [事实] 主持人提到国际化可以让不同时区用户轮流使用 GPU，于文渊表示 Token 出海是非常重要的事情。 [事实] 他认为阿里云和中国厂商的 AI 出海是大势所趋，但也需要克服地缘政治和合规问题。 [推测] 国际化不只是市场扩张，也可能成为提升算力利用率的一种基础设施策略。

[09:20] 真实业务正在用自然语言重构流程

[事实] 于文渊举例说，有水饮厂商在经销商群里接入机器人，经销商可以用自然语言说补货需求，系统理解商品和历史购买情况后完成补货。 [事实] 主持人认为这种方式更自然，不需要学习新系统，就像和真人沟通。 [事实] 于文渊表示，这肯定是一个自然而然的未来，很多行业角色都会被大模型深远影响。 [推测] 大模型的价值不只是聊天，而是把自然语言变成企业流程入口。

[10:22] MaaS 平台差异来自端到端能力

[事实] 于文渊认为，一个公司技术设施做得好不好，会影响 MaaS 产品好不好。 [事实] 他提到阿里云有长期 Infra 积累，也有通义实验室提供模型，还有平头哥芯片团队支持。 [事实] 他认为百炼的独特性在于模型、Infra、算力规模和自研能力可以端到端协同。 [事实] 他表示，千问 Model Card 上的分数，在百炼 API 上一定可以做到。

[12:21] 于文渊认为企业没有必要自建模型服务

[事实] 主持人问企业在什么情况下应该考虑自建，于文渊称这是“爆论”，表示他认为没有任何一个情况需要自建。 [事实] 他总结企业自建 GPU 的三个原因：成本可控、安全，以及灵活部署各种模型。 [事实] 他反而认为 MaaS 能更好解决这三个问题，包括推理优化、资源利用、安全机制和模型灵活性。 [事实] 他提到百炼在推进“机密推理”，让平台看不到模型文件和请求，端到端密钥在用户手里。

[15:10] 计算机学生仍应学习底层能力

[事实] 于文渊建议本科生继续学计算机。 [事实] 他引用一个说法：未来有两种人，一种是被计算机使用的人，一种是使用计算机的人。 [事实] 他认为即使 AI 和自动化作用越来越大，人也不能不知道从物理世界、电路门到芯片设计和生产中间如何发生。 [事实] 他建议学弟学妹不要让 AI 帮自己写太多代码，因为初学者缺少判断 AI 错误的经验。

[17:23] AI 编程适合提效，但不适合无脑替代

[事实] 主持人提到无脑补全代码的人比例在上升。 [事实] 于文渊说，做 code review 时如果一看就是 AI 生成的代码，他会很慌。 [事实] 他认为 vibe coding 做 prototype 没问题，但生产可用代码需要理解每一行的作用和副作用。 [事实] 他判断 mission critical 的代码暂时 AI 还不行，但 AI 一定能成为效率工具。

[19:20] Spec Coding 比简单提示词更可靠

[事实] 于文渊认为比较好的方式是 spec coding，也就是写非常清晰的需求文档或规范。 [事实] 他提到一篇关于让 AI 写文件系统的论文，认为如果 spec 写得足够清楚，模型可以写出底层高质量系统。 [事实] 他强调，人如果能用偏形式化的逻辑把想要的东西描述清楚，AI 很擅长做填空。 [事实] 他不认同用两三个提示词就能把复杂工程做好。

[20:23] 用 AI 生成代码比例当 KPI 很危险

[事实] 主持人提到有些企业把 AI 生成代码比例当作目标。 [事实] 于文渊认为这是很危险的提法，因为 AI 仍有算法能力限制。 [事实] 他指出，人和人合作中的很多知识传递是隐式的、过程性的，无法靠几句提示词讲清楚。 [事实] 他认为更应关注“一个人加 AI 能完成原来几个工程师的工作”，而不是“一个 AI 替掉几个工程师”。

[21:31] 越接近人的开放问题，越难被 AI 替代

[事实] 主持人提出生产要素、知识要素和过程要素的区分，认为程序员应把能力立在 AI 做不到的点上。 [事实] 于文渊认为，写操作系统内核、数据库内核、文件系统等封闭且可验证的问题，反而可能更容易被 AI 批量替代。 [事实] 他认为前端工程师或更接近产品和用户的工作，需要 know-how，可能更难被取代。 [事实] 他解释，数学竞赛和编程竞赛 AI 做得好，是因为问题足够清晰，结果可以定义。

[23:35] MaaS 系统工程是开放问题

[事实] 主持人问 MaaS 系统工程是开放问题还是封闭问题。 [事实] 于文渊认为它是开放问题，因为 AI、底层资源和算力情况变化都非常快。 [事实] 他表示这种情况下需要的是人的潜力，也就是应对变化的能力，而不只是已有知识。 [推测] MaaS 工程师的价值在于处理不确定性，而不是只解决已被明确定义的问题。

[24:01] 国产算力有信心，但供给缺口很现实

[事实] 于文渊认为英伟达供应或断供对中国 AI 的影响非常大。 [事实] 他对国产算力和自主可控有信心，认为中国有聪明工程师和工业基础。 [事实] 他把算力比作石油，问题不是中国能不能产石油，而是每天需要的供给和实际供给是否匹配。 [事实] 他认为只要能进来的算力供给，对中国只有好处没有坏处。

[25:20] 平头哥被评价为用得最顺手的国产芯片团队

[事实] 于文渊表示平头哥做得非常好，软件团队、硬件团队和落地能力都很强。 [事实] 他称百炼团队用平头哥芯片的体验最丝滑、最好用。 [事实] 对摩尔线程、沐曦等厂商，他表示自己没有用过。 [事实] 他再次强调，AI 发展更关键的是总量供给问题，而不是单个算力产品是否完美。

[26:48] Agent 和 AI 生成会继续烧掉大量 Token

[事实] 主持人请于文渊预测到 2026 年底哪些场景会烧掉大量 Token。 [事实] 于文渊说，现在没有什么 AI 能做到的事情会让他觉得意想不到。 [事实] 他认为 Agent 一定是今年最大增量之一，AI 生成也一定是增长来源之一。 [事实] 他不确定两者谁多谁少，并表示不同厂商可能不同。

[28:01] 百炼的价值是把算力高效转成 Token

[事实] 于文渊指出，千问 API 就是百炼 API。 [事实] 他认为 MaaS 的厚度体现在好的体验、低成本、好的模型效果和容量转化能力。 [事实] 他把 MaaS 描述成把算力转换成 Token 的系统，谁转得更高效、谁有更多算力，谁就更有优势。 [事实] 他表示百炼也支持千问之外的模型，包括中国开源模型，以及 minimax、kimi、DeepSeek 等模型服务。

[29:11] 更看好 AI 原生的 Neocloud

[事实] 于文渊认为 Neocloud 是一个很泛的概念，核心是为客户屏蔽复杂性。 [事实] 他不太看好单纯做资源转售、裸算力向上封装的 Neocloud。 [事实] 他更看好 AI 原生、能屏蔽硬件和复杂性的 MaaS 厂商，例如 Fireworks、Together 这类方向。 [事实] 他也提到围绕 Agent 的沙箱托管、浏览器、搜索、可观测性等基础设施会很有意思。

[30:15] AI 最终会成为基础设施级 Utility

[事实] 于文渊认为，MaaS 战局何时确定，取决于 AI 未来在社会中承担什么角色。 [事实] 他相信 AI 会成为类似水电煤、手机运营商、电信运营商、高速公路一样的基础设施级 utility。 [事实] 他认为 AI 的终局不一定是一个模型，而会包含多样性、复杂性、速度、效果和功能差异。 [事实] 主持人提出未来基础设施可能从“水电煤”变成“水电煤膜”，于文渊表示一定会这样，并认为 AI 会深远影响日常生活。

播客点评/总结

这期的价值在于，它不是从模型能力排行榜讨论 AI，而是从云厂商和 MaaS 平台的视角，解释 Token 爆炸背后的真实约束：算力供给、推理效率、调度系统、稳定性、延时和成本。对关心 AI 基础设施、云计算变局和企业模型部署的人来说，信息密度较高。

节目中最有启发的部分，是把 Token 数量从“炫耀指标”拉回到工程指标：不同模型的 Token 并不等价，真正关键的是如何把 GPU 高效转化为稳定、低成本、可用的智能服务。关于企业自建与 MaaS 的讨论也很直接，嘉宾清晰表达了平台化服务在成本、安全和灵活性上的立场。

局限在于，部分观点来自百炼负责人自身立场，尤其是“没有任何情况需要自建”的判断，带有明显平台方视角；关于竞品、国产芯片和 Neocloud 的评价也有一些边界，部分厂商嘉宾明确表示没有亲自使用过。

[推测] 这期更适合 AI 创业者、云计算从业者、工程负责人、模型应用团队和正在评估自建或调用 MaaS 的企业听；如果只是想了解普通 AI 工具使用技巧，可能会觉得基础设施和工程调度部分偏重。