Episode 17: 向量模型工程师:AI 的隐藏瓶颈与新时代的信息迷宫

2026-06-03 · Show: 蜉蝣天地 Meanders · 7724s · Source

向量模型工程师:AI 的隐藏瓶颈与新时代的信息迷宫

概览

本期围绕一个核心落差展开:AI 看起来像能直接吞下世界、理解一切信息,但真实技术链路并不是这样。大语言模型擅长对话和生成,却不能天然完成海量材料中的可靠搜索、定位、综合和溯源。

嘉宾 N 同学从传统算法、NLP、词向量、BERT、GPT 一路讲到向量模型和 RAG。他反复强调,RAG 的难点不只是“把文档喂给 AI”,而是原始文档质量、切块、语义压缩、相关性定义、行业黑话、评估指标和场景调优共同构成的系统问题。

讨论最后落到个人使用 AI 的方法论:普通人不能把 AI 当许愿机,而要保护自己的判断力,学会拆任务、看计划、做评估、保留结构。AI 的价值不必建立在“取代一切”上,它也可以只是让一堆原本很难处理的工作稍微更容易一点。

分段落总结

[00:00] 开场:AI 无法天然吞下世界

[事实] 主持人指出,科幻电影里那种 AI 飞快浏览大量材料并直接总结的画面,并不是今天 AI 的真实工作方式。
[事实] 节目提出,当原始数据被大量保存下来之后,压力转向检索和综合。
[事实] 本期嘉宾 N 同学从事自然语言处理、RAG 底层和向量模型相关研究,其团队模型在排序和搜索相关榜单中多次取得 State of the Art。

[03:00] 嘉宾背景与算法代际

[事实] N 同学来自东北小镇,本科原学飞行器,后转入计算机方向,研究生开始做自然语言处理相关内容。
[事实] 嘉宾把传统算法竞赛中的“算法”描述为确定性步骤,重点是用更少计算得到确定输出。
[事实] 主持人对比了 DOS 时代“精确、死板”的计算机体验和今天 AI “半对半错、模糊回答”的体验。

[06:00] 确定性算法与现代模型

[事实] 嘉宾说 ACM 训练涉及集合论、图论和编码技巧,过程通常是白盒、透明、可回推的。
[事实] 传统算法并没有消失,只是和今天大规模深度学习处在不同方向上。
[推测] 这一段试图消除“旧算法时代完全被新 AI 时代替代”的简单叙事。

[09:00] 优化、权重与编程能力

[事实] 嘉宾解释,很多问题可以暴力枚举,但计算量会大到无法接受,算法的核心之一就是解决效率问题。
[事实] 他区分了确定性算法、蒙特卡罗方法、传统机器学习和依赖模型权重迭代逼近的现代深度学习。
[事实] 嘉宾认为,过去竞赛里的具体算法现在未必常用,但训练出的编程能力仍然有价值。

[12:00] 从飞行器到计算机

[事实] 嘉宾当初选飞行器专业部分原因是“不浪费分”,但在工程图学中发现自己空间想象能力很弱。
[事实] 他发现自己学习编程更轻松,理解速度也更快,于是转到计算机专业。
[推测] 这段把技术职业选择放回到个人能力偏好,而不是单纯的行业前景判断中。

[15:00] AI 写代码仍需要工程直觉

[事实] 嘉宾用递归、模拟题等例子说明,把想法转化为可执行代码仍是一门手艺。
[事实] 他认为 AI 写代码时,人仍要定义目标、阅读计划、纠正错误,否则很难判断它是否真正按意图执行。
[事实] 主持人说自己做 web coding 时常能感觉 AI 走错路,却不知道该从哪里干预。

[21:00] 经验主义、Scaling 与研究审美

[事实] 嘉宾和主持人谈到,深度学习里很多有效方法更像经验总结,而不是严格定理推导。
[事实] 嘉宾提到 bitter lesson:与其人为规定 AI 怎么做,不如设定目标和反馈,让系统通过算力和数据学习。
[事实] 他也承认研究者会有设计复杂精巧方法、体现人类智力优越感的冲动。

[27:00] NLP 与关键词搜索的起点

[事实] 嘉宾从自然语言处理的发展讲起,早期匹配主要依赖关键词重合和词频权重。
[事实] 主持人举例说,想找“关于爱情的论述”时,文本里可能根本不会出现“爱情”这个词。
[事实] 嘉宾补充,AI 代替的是搜索入口和总结方式,不等于直接替代搜索引擎本身的底层工作。

[30:00] Word2Vec 与语义空间

[事实] Word2Vec 把词转成几百到上千个数字组成的向量,用共现关系学习词义接近程度。
[事实] 嘉宾用“国王减皇后”和“男人减女人”的例子解释语义方向和距离。
[事实] 他指出,早期训练数据是千万词量级,而今天大模型训练语料已是更高数量级。

[36:00] 从特征工程到 BERT 和 Transformer

[事实] 早期系统会人为设计词性、词干、分词等特征,后来深度学习减少了这种人工特征工程。
[事实] Transformer 先在特定任务中显示出并行、可扩展等性质,后来成为通用结构。
[事实] BERT 通过遮住词再预测的预训练任务,学到上下文相关的词表示。

[42:00] GPT 加速统一,但没有消灭向量模型

[事实] 嘉宾入行时读到的第一篇重要论文是 Attention is All You Need,后来受苏神关于 BERT Whitening 的文章影响进入句子语义研究。
[事实] BERT 时代已经开始出现多任务、多领域统一的趋势,但 GPT 的出现极大加速了这个过程。
[事实] 嘉宾强调,GPT 时代对多数 NLP 任务改变很大,但向量模型仍需单独训练来完成文本匹配和检索。

[48:00] “相关性”没有统一定义

[事实] FAQ 场景通常匹配“问题和问题”,而搜索引擎更像匹配“问题和答案”。
[事实] 嘉宾指出,SEO 文本可能重复问题却没有有效内容,因此不同场景下“相关”的定义会互相冲突。
[事实] 聚类也可能按主题、情感或长度进行,不同目标会导致完全不同的相似性标准。

[54:00] RAG 与生成式检索

[事实] 嘉宾认为,至少这一代大模型不会直接取消向量模型,因为它不能高效地从海量文档中逐项搜索。
[事实] 有一种生成式检索路线,会给库中对象编码,让模型生成编号来找回内容。
[事实] 这种生成式检索通常不够通用,需要针对具体库训练,而且编码本身也可能依赖向量模型。

[57:00] RAG 的广义和狭义

[事实] 广义 RAG 是让大模型连接外部知识,通过检索结果辅助生成,减少幻觉。
[事实] 狭义 RAG 是企业知识清洗、切块、向量化、检索,再交给大模型回答的一套技术流程。
[事实] 嘉宾提到,模型内部知识也有常见知识和长尾知识之分,长尾知识更容易出错。

[60:00] 向量化、召回与重排

[事实] 企业文档会先被切成块,再送入向量模型生成向量;用户问题也会转成向量,用来找近似内容。
[事实] 大模型最终读的是被找回的原始文本,而不是向量本身。
[事实] 常见流程会先召回一批候选结果,再用专门的重排模型打分,选出更相关的文本给大模型。

[63:00] 企业文档和切块困境

[事实] 企业知识常分散在 PDF、Excel 等格式中,还包含行业黑话和不规整上下文。
[事实] 按 token 或标点切块会破坏语义连续性,尤其会丢掉书籍、章节和论证结构。
[事实] 主持人指出,RAG 为了回答局部参数问题,反而可能回答不好“这本书讲了什么”这种整体问题。

[66:00] 行业黑话、负样本与调优成本

[事实] 嘉宾说,用户通常不会写清楚任务 instructor,模型也就不知道当前相关性标准是什么。
[事实] 工厂型号、行业术语和细微编号差异可能对业务极重要,但通用模型未必学过。
[事实] 训练领域向量模型需要定义相关和不相关样本,尤其要构造 hard negative,这是一项专业工作。

[72:00] 长上下文不是万能替代

[事实] 嘉宾认为,大模型上下文窗口短期内不能无限扩张,工程成本和训练语料都会限制它。
[事实] 主持人和嘉宾都提到,多轮对话变长后模型会出现上下文腐烂,早期信息会变得含混。
[事实] 长上下文可以覆盖部分单本书阅读场景,但无法替代万亿级知识库检索。

[75:00] PDF、多模态向量与人类直觉错位

[事实] 主持人说 PDF 转文字会遇到乱码、位置标记、分栏、图注混排等问题。
[事实] 嘉宾提到,多模态向量模型可以把 PDF 页面当图片处理,部分场景下绕开 OCR。
[事实] 主持人说,agent 连章节切分这种人类觉得明显的结构都可能识别不好。

[78:00] 同一文档的多重读法

[事实] 主持人指出,同一份病历,医生、侦探和古文献研究者会带着完全不同的问题去读。
[事实] 当前通用 RAG 很难从大量文本中找出“恩将仇报”这类未被显式标注的故事模式。
[事实] 嘉宾认为,可以针对特定模式训练模型,但这通常会牺牲其他场景的通用能力。

[84:00] Agent、搜索工具与无用动作

[事实] 主持人喜欢观察 agent 的中间步骤,但也发现它会做很多明显无效的搜索。
[事实] 嘉宾指出,agent 目前能调用的搜索工具仍主要是关键词、联网搜索或已有知识库。
[事实] 他认为,如果向量工具能更好地为 agent 场景优化,就能减少机械式关键词尝试。

[87:00] Deep Research 与评估难题

[事实] 嘉宾说,代码场景进展快,是因为代码是否正确更容易验证。
[事实] Deep Research 可通过多跳问题训练搜索能力,但广泛研究报告的质量很难定义。
[事实] Rubric 可以把评估拆成多个点,但专家标准难以获取,也难以做到像代码测试一样清晰。

[90:00] 让 AI 按人的意图工作

[事实] 主持人通过元提示、结构化需求和明确材料类型,让 AI 更好地打捞有用信息。
[事实] 他认为,当前模型能力不足时,人需要把自己的意图拆成 AI 能执行的任务。
[事实] 嘉宾提到,知识图谱、文档关系维护、grep/find/include 等结构化方法仍在实际工具中发挥作用。

[96:00] 原始数据时代与个人知识库

[事实] 主持人用“问卷”方式让大量材料逐一回答固定问题,以获得可比较的结构化结果。
[事实] 节目讨论到录音笔和语音转文字可能把个人生活长期保存成原始数据。
[事实] 嘉宾认为,随着 AI 发展,人们会更愿意保留更多原始材料,等待未来工具更好地整理和利用。

[102:00] AI 时代的自我修养

[事实] 嘉宾分享,自己刚用代码 AI 时多开窗口、不断确认,结果判断质量下降,产出很多偏离方向的内容。
[事实] 他建议保护自己的判断力,认真看 AI 的 plan,把窗口数量控制在人脑能跟上的范围内。
[事实] 嘉宾强调,需求是否想清楚,仍然是 AI 无法替代人的部分。

[105:00] RAG 背锅与个性化期待

[事实] 主持人认为,AI 说话太像得力同事,反而可能掩盖真实的模糊和错误。
[事实] 嘉宾说,RAG 经常替大模型“背锅”,因为这一代 AI 本身并不擅长搜索。
[事实] 两人都期待 agent 未来能更好地把个人或企业意图翻译成工程实现,让 RAG 更定制化。

[108:00] 评估、下一代范式与现实感

[事实] 主持人尝试让无上下文的大模型评估 RAG 返回结果,认为这虽不可靠但勉强有效。
[事实] 嘉宾说,一旦有评估方式,改进方向就会清楚很多。
[事实] 嘉宾提到李昆等人研究的世界模型方向,试图让模型更高效地利用数据,但离真正 scale 还有距离。

[114:00] 工具价值与研究日常

[事实] 主持人举看病录音的例子,说 AI 不必取代医生,只要凸显对话中的言外之意就已很有价值。
[事实] 嘉宾把自己的工作抽象为定义问题、设计评测、造数据、改训练目标和做指标平衡。
[事实] 他认为 benchmark 分数有局限,但仍是判断改动是否有效的重要依据。

[120:00] 职业焦虑与科研乐趣

[事实] 嘉宾估计,狭义上研究通用文本/多模态向量模型的人可能是几百人量级。
[事实] 搜索、广告、推荐等更广泛领域也共享大量相似技术,但目标更偏具体业务优化。
[事实] 嘉宾承认偶尔会担心 auto research 等方向带来的替代,但科研中发现问题、验证想法本身仍给他成就感。

[126:00] 稀有时刻与结尾推荐

[事实] 嘉宾回忆研究生期间基于苏神论文做改进,通过数学分析和实验验证得到“弄明白一点东西”的感觉。
[事实] 他也提到读《1984》结尾时受到震撼,认为这种沉浸在强烈情绪中的 rare moments 很珍贵。
[事实] 节目最后,嘉宾推荐北京紫竹院公园作为想保存的地表人造物。

播客点评/总结

[推测] 本期最有价值的地方,是把“AI 为什么看起来很聪明却搜不好东西”讲成了一条完整技术链:从词向量、BERT、GPT 到 RAG、重排、长上下文和 agent,听众能理解瓶颈不是单点故障,而是整个信息处理系统的复杂性。

[推测] 节目的亮点在于技术解释和日常经验不断互相校准。客服、PDF、代码 AI、个人录音、婚姻咨询、医生对话这些例子,让向量模型这种底层技术不再只是工程师内部话题。

[推测] 局限是部分专业细节受访谈形式和嘉宾工作边界限制,只能讲到抽象层面;同时转录中存在一些术语误差,可能影响非技术听众对个别名词的把握。

[推测] 这期适合 AI 产品经理、知识库/RAG 实践者、内容创作者、重度 AI 用户,以及任何正在被“信息太多但 AI 又没那么神”困扰的人。