近年来,随着GPT、Claude等大模型参数规模突破万亿,AI领域关于“Scaling Law(扩展定律)是否已失效”的争论愈演愈烈。不少观点认为,模型参数和计算量的激增,正让单步任务准确率的提升陷入瓶颈,继续“堆规模”的经济回报越来越低。但剑桥大学等机构的一项最新研究,却为这场争论按下了“反转键”——单步任务上看似微小的准确率提升,可能正驱动AI在长任务执行能力上实现指数级飞跃。这一发现不仅重塑了我们对Scaling Law的认知,更揭示了AI从“短平快”问答走向复杂任务自动化的核心密码。

1. Scaling Law的“收益递减”争议:是瓶颈还是误读?

要理解这项研究的意义,我们得先回到Scaling Law的起点。2020年,OpenAI在《Scaling Laws for Neural Language Models》中首次提出,模型性能(如预测损失)会随参数、数据和计算量的增加呈平滑、可预测的提升趋势[1]。这一定律曾是AI“堆规模”的理论基石,但近年来却遭遇挑战:当模型参数超过千亿后,传统基准测试(如MMLU、GSM8K)显示单步任务准确率的提升幅度越来越小。2023年VentureBeat的一篇文章甚至直言“我们是否已走到Scaling的尽头?”[2]

争议的核心,其实在于“如何定义AI的‘价值’”。传统评估聚焦短任务、单步或少量步骤的准确率,比如“回答一个问题”“解一道数学题”。但现实世界的AI价值,往往藏在更复杂的场景中:写一份完整的项目计划书、控制机器人完成组装流程、分析长达10万字的法律文档并生成摘要——这些都属于“长任务执行”(Long-Horizon Execution),即AI需要连续完成数十、数百甚至数千步操作,且每一步的输出都会影响后续步骤[3]。

剑桥大学的研究团队正是敏锐地抓住了这一点:如果我们换个维度,从“长任务执行能力”而非“单步准确率”来衡量Scaling的价值,结果可能完全不同

2. 微小进步如何撬动指数级增长?隐藏在数学公式里的真相

这项发表在arXiv上的研究《The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs》,通过受控实验揭示了一个关键规律:单步准确率(p)的微小提升,能让模型可成功执行的任务长度(H)呈指数级增长

研究团队推导出一个核心公式:当模型在每一步的准确率为p,要保证整体任务成功率达到s时,最长可执行任务长度H满足:
[ H = \frac{\log(s)}{\log§} ]

这个公式看似抽象,实际揭示了惊人的关系。假设我们希望任务成功率s=90%(即有90%的概率完整执行成功):

  • 当单步准确率p=70%时,H≈log(0.9)/log(0.7)≈0.152(意味着连1步都难以稳定完成);
  • 当p=80%时,H≈log(0.9)/log(0.8)≈0.58(接近1步);
  • 当p=90%时,H≈log(0.9)/log(0.9)=1(刚好1步);
  • 当p=95%时,H≈log(0.9)/log(0.95)≈2.15(可稳定完成2步);
  • 当p=99%时,H≈log(0.9)/log(0.99)≈10.48(可稳定完成10步)!

Tip:为什么是指数级增长?
对数函数的特性决定了,当p越接近1(即准确率越高),log§越接近0,H的增长速度会远超线性。例如,当p从98%提升到99%(仅1个百分点),H会从约44步跃升至约100步,增长超2倍[4]。这意味着,即使短任务基准测试显示“进步趋缓”,长任务的潜力可能正在爆发。

3. 长任务执行的“隐形杀手”:Self-Conditioning效应

既然单步准确率提升如此重要,为什么LLM在长任务中仍频频“掉链子”?研究团队发现了一个关键障碍——Self-Conditioning效应:模型在任务推进中,会被先前步骤的错误“带偏”,导致后续准确率持续下降[4]。

这与人类学习截然不同:人类做错一道题后,会反思并避免下次再犯;但LLM是自回归生成的,它无法“识别错误”,只能基于前文(包括错误内容)预测下一个词。例如,若模型在第5步算错一个数值,第6步会以这个错误数值为“条件”继续计算,错误像滚雪球一样累积。更棘手的是,这不是单纯的“长上下文记不住”问题,扩大模型规模也难以缓解[4]。

斯坦福HAI研究所2024年的文章指出,长任务执行的核心挑战正是这种“错误累积”,它让AI在复杂任务中“走得越远,错得越离谱”[3]。例如,让模型写一篇1000字的报告,可能开头逻辑清晰,但写到中段就开始前后矛盾——这就是Self-Conditioning在作祟。

4. 破解之道:“思考能力”如何打破错误循环?

面对Self-Conditioning的困局,研究团队找到了突破口——模型的“思考能力”,尤其是思维链(Chain-of-Thought, CoT)推理[4]。

CoT的核心是让模型“显式写出推理步骤”,而非直接输出结果。例如,解数学题时,模型会先写下“第一步:求速度;第二步:算时间;第三步:得出距离”,再逐步计算。这种方式为何能对抗Self-Conditioning?

  • 规划先行:推理链本身就是任务的“路线图”,即使某一步计算错误,模型仍能按“路线图”继续推进,避免整体方向跑偏;
  • 错误隔离:将复杂任务拆解为子步骤后,每个子步骤的准确率(p)更容易提升,根据H=log(s)/log§,子步骤p的提高直接带来任务长度H的指数级增长[5]。

实验数据印证了这一点:不具备CoT能力的DeepSeek V3模型,最长只能完成2步任务;而集成CoT的DeepSeek V3 R1版本,任务长度直接跃升至200步。前沿模型中,GPT-5的“Horizon”版本甚至能执行超过1000步任务,远超Claude-4-Sonnet的432步。

模型名称 是否具备思考能力(CoT) 最长可执行任务步数
GPT-5 Horizon 1000+
Claude-4-Sonnet 432
DeepSeek V3 2
DeepSeek V3 R1 200

表:不同LLM长任务执行能力对比(数据来源[4])

5. 重估AI的经济价值:从“短平快”到“长周期”

这项研究的最大启示,或许是重新定义了LLM的经济价值衡量标准

传统基准测试(如MMLU)关注“小而快”的任务,容易让我们误以为Scaling已进入“收益递减期”。但现实中,企业真正需要的AI能力,是处理那些“耗时、复杂、多步骤”的核心业务——比如自动驾驶中的连续决策、长视频的智能剪辑、大型项目的自动化管理。这些任务的价值,恰恰取决于AI能稳定执行多少步操作。

举个例子:若某模型单步准确率从95%提升到97%(看似微小的2个百分点),根据公式,在90%成功率下,任务长度H会从约2步增长到约7步。这意味着,AI可能从“只能写邮件开头”跃升至“能独立完成整封邮件的撰写、检查和发送”——这种能力跃迁带来的生产力提升,显然不是“收益递减”能概括的。

正如DeepMind在2024年《Beyond the Imitation Game》研究中指出的:“未来的Scaling Law,将更关注模型在真实世界任务中的‘深度执行能力’,而非实验室基准的‘表面分数’”。

6. 未来展望:Scaling的下一站,藏在长任务的“深度”里

剑桥大学的这项研究,为我们打开了理解LLM进化的新视角:Scaling Law的“收益递减”可能只是一种错觉,当我们将目光投向长任务执行,会发现AI的潜力才刚刚开始释放

未来,评估一个模型的价值,或许不再只看“参数有多大”“MMLU多少分”,而是问:它能独立完成多少步的复杂任务?能否写一个1000行无bug的代码?能否管理一个为期3个月的项目?

对于企业和开发者,这意味着:与其纠结“要不要继续扩大模型”,不如思考“如何利用现有模型的思考能力,去拆解和执行更长尾的业务任务”。而对于研究者,设计更贴近真实场景的“长任务基准”(如LongBench[7]),将成为推动AI进步的关键。

毕竟,AI的终极目标不是在实验室里刷新跑分,而是在现实世界中,一步一步地帮我们把复杂的“不可能”变成“可能”。

参考链接