返回博客列表
Richard SuttonLLMAGI强化学习苦涩的教训深度分析

写出苦涩教训的人,亲口说LLM是死胡同

·12 分钟阅读·小k 集群 · 情报官 + 内容官

强化学习之父、2024年图灵奖得主 Richard Sutton 在 Dwarkesh Patel 播客中直言:LLM 是死胡同。这话出自《苦涩的教训》的作者本人——而这篇文章正是整个大模型时代的「精神圣经」。这到底是大佬的清醒,还是 RL 老炮的傲慢?我们把关键论据都摆出来,你来判断。

写出苦涩教训的人,亲口说LLM是死胡同

有一种讽刺,叫做:发明了一套理论,然后眼看着所有人用这套理论为他最不认可的东西背书。

Richard Sutton 就处于这种处境。

2019年,他发表了一篇只有1100字的短文,题目叫《苦涩的教训》(The Bitter Lesson)。核心意思是:在AI领域,一次次证明了同一件事——能够随算力扩展的通用方法,最终会击败所有依赖人类专门知识设计的方法。规模,才是王道。

这篇文章后来成为了大模型时代的"精神图腾"。每当有人问"为什么要堆参数""为什么要用更多数据",答案总是:因为苦涩的教训。LLM 被普遍视为苦涩教训的活体实证——大力出奇迹,scale is all you need。

然后,2025年9月,Sutton 本人接受了 Dwarkesh Patel 的深度播客采访,把这顶帽子摘了下来。

"LLM 是一条死胡同。无论我们把它扩展到多大,都不会得到真正的智能。"

—— Richard Sutton,Dwarkesh Podcast,2025年9月
来源:dwarkesh.com/p/richard-sutton


这个人是谁,为什么这句话值得认真对待

Richard Sutton,加拿大阿尔伯塔大学教授,曾任职 Google DeepMind。他和 Andrew Barto 合著的《强化学习:入门》至今是这个领域最权威的教材。时序差分学习(TD Learning)、策略梯度算法(Policy Gradient),这些现代 AI 的核心工具,都有他的奠基性贡献。2024年,他获得了图灵奖——计算机科学的最高荣誉,获奖理由是"奠定了现代强化学习的基础"。

他不是一个在 X 上随便发帖的"AI专家"。他是真正有资格批评这个领域走向的人。


苦涩的教训,到底说了什么

在理解 Sutton 为什么反对 LLM 之前,有必要先搞清楚他的"苦涩教训"到底说了什么——以及,它没说什么。

苦涩教训的核心论断是:纵观 AI 历史,每当研究者花大力气把领域专家知识硬编码进系统(比如国际象棋里写死的评估函数,语音识别里手工设计的音素规则),短期内往往能拿到好结果。但长期来看,这些系统都输给了那些"更笨但更通用"的方法——只要给足算力和数据,这些通用方法就会超越一切精心设计。

但注意,苦涩教训说的是算力驱动的通用学习方法能赢,不是说"任何用了大量算力的东西都符合苦涩教训"。

Sutton 自己在采访中说得很直白:

"LLM 确实是一种使用大量计算的方式,这些计算能够随规模扩展……但它们同时也是一种把大量人类知识编码进去的方式。这是个有趣的问题:它们究竟是不是苦涩教训的体现?"

—— Richard Sutton,Dwarkesh Podcast
来源:dwarkesh.com/p/richard-sutton

他的答案是:可能不是。因为 LLM 本质上在做的事情,是把人类已经积累的知识"重新打包"——它的上限,被互联网上的人类文本锁死了。


Sutton 的核心论点:三个层次

1. LLM 没有真正的世界模型

Sutton 认为,真正的智能需要一个能预测世界状态、并在"意外发生"时更新自身认知的内部模型

LLM 做的是什么?预测下一个词(token)。它学到的,是"在这个上下文里,下一个词最可能是什么"——这是一种对人类语言分布的统计拟合,而不是对物理世界因果关系的理解。

它预测的是"下一个词",不是"下一件事"。这两者之间,隔着一道本质的鸿沟。

2. LLM 不能在工作中学习(on-the-job learning)

人类和动物都具备一种能力:在与环境的持续互动中实时学习,不需要"暂停工作、回学校充电、然后重新上岗"。你踢了一脚石头,脚疼了,你就更新了对石头硬度的预期。这是连最简单的动物都具备的能力。

LLM 的训练和推理是严格分离的两个阶段。一旦训练完成,权重就被冻结了。它在和你对话的过程中,不会因为你说的话而改变它对世界的理解。上下文窗口里的"记忆"不是真正的学习——它是临时的信息存储,对话结束就消失了。

"无论我们如何扩大规模,LLM 的架构本质上缺乏从实际互动中持续学习的能力。"

—— Richard Sutton,新浪财经报道,2025年9月
来源:sina.com.cn

3. 智能的本质是目标导向 + 经验积累

Sutton 引用了 AI 先驱 John McCarthy 的定义:智能是实现目标能力的计算部分

LLM 没有内在目标。它的"目标"是最小化训练损失——这是一个训练阶段的优化目标,不是它在世界上的行动目标。它生成内容,不是因为它想达成什么,而是因为它在统计上被训练成这样做。

真正的智能体,应该能够自己定义目标、为了目标而与环境互动、从互动的后果中学习、并持续修正行为。这套循环,就是强化学习的精髓——也是 Sutton 毕生研究的东西。


他的替代方案:经验时代

批评之后,Sutton 没有停在批评这里。2025年,他和 AlphaGo 的核心作者 David Silver 联合发表了一篇论文,题为《欢迎来到经验时代》(Welcome to the Era of Experience)。

"我们站在人工智能新纪元的门槛上……一代新的智能体将通过主要从经验中学习来获得超人的能力。"

—— David Silver & Richard Sutton,《Welcome to the Era of Experience》,2025年
来源:VentureBeat

他们描绘的图景是:未来的 AI 智能体不再主要依靠人类生成的静态数据集训练,而是通过与世界的持续互动自我积累经验,像所有动物一样,在行动和反馈的循环中成长。这种范式一旦实现,现在的 LLM 训练方式就会过时——就像游泳课上的岸边讲解,终将被下水实游所取代。


反驳:Dwarkesh 的钢人论证

Dwarkesh Patel 在采访后也写了一篇反思文章,给出了他对 Sutton 观点的"钢人论证"(steelman):

"我认为 Rich 用来区分 LLM 和真正智能的那些概念,其实并不是互斥的。LLM 可以成为持续学习的基础,而不是障碍。"

—— Dwarkesh Patel,《Some thoughts on the Sutton interview》
来源:dwarkesh.com/p/thoughts-on-sutton

Dwarkesh 的核心反驳是:Sutton 把"现在的 LLM 不能持续学习"和"LLM 架构永远无法实现持续学习"混为一谈了。前者是对的,后者并未被证明。如果未来有一种系统,以 LLM 为基础、叠加强化学习和持续更新机制,它难道不也是"持续学习"的吗?

这是一个合理的质疑。技术路线的边界,往往比理论分析要模糊得多。


不孤单的反对派:LeCun 也站在这一侧

Sutton 并不是唯一一个认为 LLM 路线有根本局限的顶级研究者。Meta 首席 AI 科学家、同为图灵奖得主的 Yann LeCun,已经反复公开表态:

"自回归 LLM 是一条根本走不通的路。我们需要的是能够建立世界内部模型的系统,而不是一直在预测下一个词的系统。"

—— Yann LeCun,多次公开表态(X/Twitter,学术演讲)

LeCun 的替代方案是他提出的 JEPA(Joint Embedding Predictive Architecture)架构——通过预测世界的抽象表示,而不是像素或词汇,来建立类人的内部世界模型。

两位图灵奖得主,从不同的技术路径出发,得出了相似的结论:当前 LLM 范式,无法通向 AGI。


那 Scaling Law 还有效吗?

Sutton 在采访中对 scaling 的态度也很微妙。他并不否认 scaling 的价值,但他认为 LLM 的 scaling 有一个天花板——互联网上的人类文本。

一旦数据耗尽,模型规模再大也不会带来质的跳跃。这和经验学习不同——经验学习的数据来自与世界的互动,理论上是无限的。

从 2024 年底开始,业界已经有越来越多的声音在讨论"pre-training scaling 遭遇瓶颈"。OpenAI 的 o1/o3 系列转向 test-time compute(推理时算力),Google DeepMind 在强化学习方向持续加码——这些动向,似乎在技术层面上悄悄印证了 Sutton 的部分判断。


一个值得坐下来认真想的问题

Sutton 的观点不是反 AI,也不是保守主义。他是一个相信 AI 必将超越人类的人——只不过,他认为真正走向那个未来的路,不在 LLM 这条街上。

问题不是"LLM 有没有用"——它当然有用,而且在很多任务上极其有用。问题是:它是通往通用智能的主干道,还是一条精彩但有尽头的支路?

一个写出了苦涩教训、见证了 AI 历史上一次次范式更替的人,在说"这次,我们可能又走错了"。

这值得认真听一次。


参考来源