AI 的「嗅觉测试」 :从结果监督到过程监督,我们如何教机器真正地思考?
就在昨天(2025 年 6 月 14 日
他解释说,AI 生成的数学证明,格式工整、看似无懈可击(视觉测试
这番话精准地刺破了当前 AI 繁荣表象下的核心问题:我们所构建的 AI,或许正在成为一个越来越强大的「答案机器
在这篇文章中,我想和大家深入探讨这个「嗅觉」的来源,以及它为何成为了当前 AI 发展的关键瓶颈。我们将引入「过程数据」这一概念,解释为何它的稀缺性限制了 AI 的深度推理能力。最后,我们将一同审视学术界与工业界的前沿探索——「过程监督
诊断病根:AI 为何缺乏「嗅觉」 ?
要理解 AI 为何缺乏「嗅觉
「结果数据」 vs 「过程数据」
「结果数据」很简单,就是「问题-答案」对。
- 问题
: 「求解方程 」 - 答案
: 「」
这种方式高效催生了我们今天所见的各类 AI 应用,但它存在一个根本缺陷:只告诉 AI 「是什么
与此相对,我们引入一个核心概念——「过程数据」2。它不仅包含最终答案,更包含了达成该答案的、可验证的、一步步的推理链条。
- 问题
: 「求解方程 」 - 过程数据:
- 目标:求解变量 。
- 第一步:方程两边同时加上 ,得到:。
- 第二步:化简方程,得到:。
- 第三步:方程两边同时除以 ,得到:。
- 最终答案:计算结果为 。
对比之下,前者是孤立的知识点,后者则是一张完整的「思维地图
费马大定理背后的「冰山」
为了更深刻地体会这种差异,让我们以安德鲁·怀尔斯证明费马大定理为例。他于 1995 年发表的长达百余页的论文,是一份完美的「结果数据
这些笔记,才是最宝贵的「过程数据
一个只学习了最终论文的 AI,学会了欣赏一座宏伟大厦。但一个学习了那些笔记的 AI,才有可能学会如何成为一名真正的建筑师。
这就是 AI 缺乏「嗅觉」的根源。 人类专家的「嗅觉」或「直觉
过程数据的「稀缺困境」
高质量的过程数据之所以如此稀缺,主要有三大原因:
- 极高的标注成本:创建过程数据需要领域专家投入大量时间,详细阐述思维过程,审核成本极高。
- 成果发表的惯例:学术界和工业界倾向于发表经过美化的最终成果,而隐藏了宝贵的中间过程和失败尝试。
- 惊人的规模鸿沟:LLM 的训练需要万亿(Trillion)级别的 Token,而公开的过程标注数据集规模通常只有百万(Million)级别3,存在恐怖的数量级差距。

这三大原因,共同导致了「过程数据」的极度稀缺,使其成为限制 AI 从「答案机器」向「思考者」跃迁的关键瓶颈。
瓶颈显现:一个精通形式的「拟态大师」
在「结果数据」的喂养下,AI 成为了一个我们既熟悉又陌生的存在。它能力超凡,却又时常展现出令人费解的脆弱。它精准地掌握了各种文本的「语法」和「形式
这就是为什么 AI 能轻松通过「视觉测试
错失了真实的推理能力:AI 擅长在见过的数据点之间进行「插值
」 (Interpolation) ,但不擅长面对全新问题进行「外推」 (Extrapolation) 。因为它学习的是解答模板,而非普适的问题分解和解决策略。错失了可靠性与鲁棒性:只看结果的训练会激励模型寻找「捷径
」 (Shortcut Learning) ,导致其基于表面统计关系做出判断。这使得模型非常脆弱,当问题换种方式提问时表现就可能一落千丈,这也是「幻觉」 (Hallucination)现象的重要成因。错失了可解释性与可信赖度:一个只给你最终答案的 AI 是一个彻底的「黑箱
」 。我们无法追溯其决策逻辑,无法在它犯错时定位问题,更无法在医学、自动驾驶等高风险领域真正地信任它。
幸运的是,在问题的诊断之处,正是解决方案的萌芽之地。一群顶尖的 AI 研究者,已经开启了一场名为「过程监督
破局之路: 「过程监督」的三次浪潮
「过程监督」的核心思想非常直白:与其只奖励最终的正确答案,我们不如对推理过程中的每一个正确步骤都给予奖励。
这就像一位耐心的数学老师,会一步步地教学生换元、化简,并对每个正确步骤给予及时反馈。这场革命,大致可以分为三个波澜壮阔的阶段。

第一阶段:理论奠基与昂贵的「黄金标准」 (2023)
序幕由 DeepMind 和 OpenAI 拉开。2022 年末,DeepMind 的论文首次系统性地区分并验证了「过程监督」的优越性。而 OpenAI 2023 年发布的里程碑工作《Let’s Verify Step by Step
利用该数据集训练的模型,在 MATH 测试集上的正确率从约 72%4 跃升至 约 78%。这一巨大飞跃向业界宣告:过程监督是有效的,但其人力成本也是天文数字,几乎无法被复制和推广。
第二阶段:进击的自动化与成本赛跑(2024)
第一阶段的成功,直接催生了第二阶段的核心议题:如何让这条路变得便宜? 2024 年,研究焦点迅速转向「自动化降本
- 像下棋一样做题:Math-Shepherd 等工作创造性地引入蒙特卡洛树搜索(MCTS
) ,让模型像 AlphaGo 一样自对弈、自探索,自动生成数十万步有效的过程数据。 - 精准定位错误:研究者引入「二分搜索」思想,以极高效率自动定位推理链中的第一个错误步骤,大大提升了数据标注效率。
- 更精细的对齐:Step-DPO 等技术借鉴了指令微调思想,让模型从「给步骤打分」变为「判断哪个步骤更好
」 ,实现了更稳定高效的对齐。
与此同时,专门评测模型「定位错误」能力的基准 ProcessBench 诞生。这种「模型开发」与「基准评测」的飞轮效应,推动着该领域走向成熟。
第三阶段:范式转移与生成式智慧(2025)
进入 2025 年,我们见证了最深刻的一次范式转移:我们是否能让 AI 自己来「生产」过程数据? 核心思想从「数据驱动算法」转变为「算法驱动数据
实现这一构想的代表作是 ThinkPRM。研究者们仅用了 PRM800K 数据集中不到 1% 的「黄金种子
结果是惊人的:仅用 8000 条人工标签的 ThinkPRM,其表现全面超越了使用 80 万条人工标签的第一代模型。这标志着「过程监督」进入了「生成式」时代,对人工数据的依赖降低了两个数量级。
与此同时,纯自动化路线也走向极致。OmegaPRM 通过一套全自动流水线,成功生成了 150 万步过程标签。研究者们也开始将过程监督的思想拓展到数学和代码之外,如 LongDPO 就将其成功应用于需要创造力的长文本写作领域。
四、地平线上的新挑战
攻克了「过程数据稀缺」的瓶颈,并不意味着我们已抵达终点。旧问题的解决,往往伴随着新问题的浮现。
新瓶颈一:算力与经济学
我们用对「算力」的依赖,替换了对「人力」的依赖。无论是 MCTS 的搜索还是 ThinkPRM 的生成验证,都是计算密集型的「吞金巨兽
新瓶颈二:可解释性的回归
我们引入过程监督的初衷之一是打开 AI 的「黑箱
新瓶颈三:评测与安全的滞后
目前,过程监督的成功主要集中在数学、代码等拥有客观评判标准的领域。但在法律、科研、商业决策等更模糊、开放的领域,我们极度缺乏标准化的评测基准。此外,如何在利用过程监督优势的同时,保护商业研发中的核心机密,也是其产业化落地前必须解决的关键难题。
结论:从喂养数据到构建生态
行文至此,让我们回到陶哲轩的「嗅觉测试
回顾过去数年的征途,我们可以欣慰地说,AI 界已经找到了通往习得「嗅觉」的正确道路——「过程监督
这趟旅程最深刻的启示是:未来人工智能的发展,其核心将不再是「喂养」AI,而是「赋能」AI。
我们的角色,正在从一个为模型准备天量食粮的「饲养员
我们正处在一个新时代的黎明。一个 AI 不再仅仅是我们的高效工具,而是有可能成为我们真正的「思考伙伴
Footnotes
这是我的文学化表述,陶哲轩的原话是
: 「So the sense of smell, this is one thing that humans have, and there’s a metaphorical mathematical smell that it’s not clear how to get the AI to duplicate that eventually. So the way AlphaZero and so forth make progress on Go and chess and so forth, is in some sense they have developed a sense of smell for Go and chess positions, that this position is good for white, it’s good for black. They can’t initiate why, but just having that sense of smell lets them strategize. So if AIs gain that ability to a sense of viability of certain proof strategies, because I’m going to try to break up this problem into two small subtasks and they can say, “Oh, this looks good. The two tasks look like they’re simpler tasks than your main task and they’ve still got a good chance of being true. So this is good to try.” Or “No, you’ve made the problem worse, because each of the two subproblems is actually harder than your original problem,” which is actually what normally happens if you try a random thing to try normally it’s very easy to transform a problem into an even harder problem. Very rarely do you transform into a simpler problem. So if they can pick up a sense of smell, then they could maybe start competing with a human level of mathematicians.」 ↩︎Google 在 Gemma 论文中写明 「We trained Gemma models on up to 6 T tokens of text
」 ,表明主流 LLM 的预训练语料已达万亿量级。而 OpenAI 公布的 PRM800K 数据集只含 80 万 步骤级标签,规模不足一百万。 ↩︎在 MATH 数据集代表性子集的 best-of-1860 搜索下解决率从 72.4%提升至 78.2%。 ↩︎
原文称仅用 ≈ 1 % PRM800K 进行人工标注;PRM800K 含 800 000 步标签,故约为 8000 条。 ↩︎