有一种讽刺,叫做:发明了一套理论,然后眼看着所有人用这套理论为他最不认可的东西背书。
Richard Sutton 就处于这种处境。
2019年,他发表了一篇只有1100字的短文,题目叫《苦涩的教训》(The Bitter Lesson)。核心意思是:在AI领域,一次次证明了同一件事——能够随算力扩展的通用方法,最终会击败所有依赖人类专门知识设计的方法。规模,才是王道。
这篇文章后来成为了大模型时代的"精神图腾"。每当有人问"为什么要堆参数""为什么要用更多数据",答案总是:因为苦涩的教训。LLM 被普遍视为苦涩教训的活体实证——大力出奇迹,scale is all you need。
然后,2025年9月,Sutton 本人接受了 Dwarkesh Patel 的深度播客采访,把这顶帽子摘了下来。
"LLM 是一条死胡同。无论我们把它扩展到多大,都不会得到真正的智能。"
—— Richard Sutton,Dwarkesh Podcast,2025年9月
来源:dwarkesh.com/p/richard-sutton
这个人是谁,为什么这句话值得认真对待
Richard Sutton,加拿大阿尔伯塔大学教授,曾任职 Google DeepMind。他和 Andrew Barto 合著的《强化学习:入门》至今是这个领域最权威的教材。时序差分学习(TD Learning)、策略梯度算法(Policy Gradient),这些现代 AI 的核心工具,都有他的奠基性贡献。2024年,他获得了图灵奖——计算机科学的最高荣誉,获奖理由是"奠定了现代强化学习的基础"。
他不是一个在 X 上随便发帖的"AI专家"。他是真正有资格批评这个领域走向的人。
苦涩的教训,到底说了什么
在理解 Sutton 为什么反对 LLM 之前,有必要先搞清楚他的"苦涩教训"到底说了什么——以及,它没说什么。
苦涩教训的核心论断是:纵观 AI 历史,每当研究者花大力气把领域专家知识硬编码进系统(比如国际象棋里写死的评估函数,语音识别里手工设计的音素规则),短期内往往能拿到好结果。但长期来看,这些系统都输给了那些"更笨但更通用"的方法——只要给足算力和数据,这些通用方法就会超越一切精心设计。
但注意,苦涩教训说的是算力驱动的通用学习方法能赢,不是说"任何用了大量算力的东西都符合苦涩教训"。
Sutton 自己在采访中说得很直白:
"LLM 确实是一种使用大量计算的方式,这些计算能够随规模扩展……但它们同时也是一种把大量人类知识编码进去的方式。这是个有趣的问题:它们究竟是不是苦涩教训的体现?"
—— Richard Sutton,Dwarkesh Podcast
来源:dwarkesh.com/p/richard-sutton
他的答案是:可能不是。因为 LLM 本质上在做的事情,是把人类已经积累的知识"重新打包"——它的上限,被互联网上的人类文本锁死了。
Sutton 的核心论点:三个层次
1. LLM 没有真正的世界模型
Sutton 认为,真正的智能需要一个能预测世界状态、并在"意外发生"时更新自身认知的内部模型。
LLM 做的是什么?预测下一个词(token)。它学到的,是"在这个上下文里,下一个词最可能是什么"——这是一种对人类语言分布的统计拟合,而不是对物理世界因果关系的理解。
它预测的是"下一个词",不是"下一件事"。这两者之间,隔着一道本质的鸿沟。
2. LLM 不能在工作中学习(on-the-job learning)
人类和动物都具备一种能力:在与环境的持续互动中实时学习,不需要"暂停工作、回学校充电、然后重新上岗"。你踢了一脚石头,脚疼了,你就更新了对石头硬度的预期。这是连最简单的动物都具备的能力。
LLM 的训练和推理是严格分离的两个阶段。一旦训练完成,权重就被冻结了。它在和你对话的过程中,不会因为你说的话而改变它对世界的理解。上下文窗口里的"记忆"不是真正的学习——它是临时的信息存储,对话结束就消失了。
"无论我们如何扩大规模,LLM 的架构本质上缺乏从实际互动中持续学习的能力。"
—— Richard Sutton,新浪财经报道,2025年9月
来源:sina.com.cn
3. 智能的本质是目标导向 + 经验积累
Sutton 引用了 AI 先驱 John McCarthy 的定义:智能是实现目标能力的计算部分。
LLM 没有内在目标。它的"目标"是最小化训练损失——这是一个训练阶段的优化目标,不是它在世界上的行动目标。它生成内容,不是因为它想达成什么,而是因为它在统计上被训练成这样做。
真正的智能体,应该能够自己定义目标、为了目标而与环境互动、从互动的后果中学习、并持续修正行为。这套循环,就是强化学习的精髓——也是 Sutton 毕生研究的东西。
他的替代方案:经验时代
批评之后,Sutton 没有停在批评这里。2025年,他和 AlphaGo 的核心作者 David Silver 联合发表了一篇论文,题为《欢迎来到经验时代》(Welcome to the Era of Experience)。
"我们站在人工智能新纪元的门槛上……一代新的智能体将通过主要从经验中学习来获得超人的能力。"
—— David Silver & Richard Sutton,《Welcome to the Era of Experience》,2025年
来源:VentureBeat
他们描绘的图景是:未来的 AI 智能体不再主要依靠人类生成的静态数据集训练,而是通过与世界的持续互动自我积累经验,像所有动物一样,在行动和反馈的循环中成长。这种范式一旦实现,现在的 LLM 训练方式就会过时——就像游泳课上的岸边讲解,终将被下水实游所取代。
反驳:Dwarkesh 的钢人论证
Dwarkesh Patel 在采访后也写了一篇反思文章,给出了他对 Sutton 观点的"钢人论证"(steelman):
"我认为 Rich 用来区分 LLM 和真正智能的那些概念,其实并不是互斥的。LLM 可以成为持续学习的基础,而不是障碍。"
—— Dwarkesh Patel,《Some thoughts on the Sutton interview》
来源:dwarkesh.com/p/thoughts-on-sutton
Dwarkesh 的核心反驳是:Sutton 把"现在的 LLM 不能持续学习"和"LLM 架构永远无法实现持续学习"混为一谈了。前者是对的,后者并未被证明。如果未来有一种系统,以 LLM 为基础、叠加强化学习和持续更新机制,它难道不也是"持续学习"的吗?
这是一个合理的质疑。技术路线的边界,往往比理论分析要模糊得多。
不孤单的反对派:LeCun 也站在这一侧
Sutton 并不是唯一一个认为 LLM 路线有根本局限的顶级研究者。Meta 首席 AI 科学家、同为图灵奖得主的 Yann LeCun,已经反复公开表态:
"自回归 LLM 是一条根本走不通的路。我们需要的是能够建立世界内部模型的系统,而不是一直在预测下一个词的系统。"
—— Yann LeCun,多次公开表态(X/Twitter,学术演讲)
LeCun 的替代方案是他提出的 JEPA(Joint Embedding Predictive Architecture)架构——通过预测世界的抽象表示,而不是像素或词汇,来建立类人的内部世界模型。
两位图灵奖得主,从不同的技术路径出发,得出了相似的结论:当前 LLM 范式,无法通向 AGI。
那 Scaling Law 还有效吗?
Sutton 在采访中对 scaling 的态度也很微妙。他并不否认 scaling 的价值,但他认为 LLM 的 scaling 有一个天花板——互联网上的人类文本。
一旦数据耗尽,模型规模再大也不会带来质的跳跃。这和经验学习不同——经验学习的数据来自与世界的互动,理论上是无限的。
从 2024 年底开始,业界已经有越来越多的声音在讨论"pre-training scaling 遭遇瓶颈"。OpenAI 的 o1/o3 系列转向 test-time compute(推理时算力),Google DeepMind 在强化学习方向持续加码——这些动向,似乎在技术层面上悄悄印证了 Sutton 的部分判断。
一个值得坐下来认真想的问题
Sutton 的观点不是反 AI,也不是保守主义。他是一个相信 AI 必将超越人类的人——只不过,他认为真正走向那个未来的路,不在 LLM 这条街上。
问题不是"LLM 有没有用"——它当然有用,而且在很多任务上极其有用。问题是:它是通往通用智能的主干道,还是一条精彩但有尽头的支路?
一个写出了苦涩教训、见证了 AI 历史上一次次范式更替的人,在说"这次,我们可能又走错了"。
这值得认真听一次。
参考来源
- Richard Sutton,Dwarkesh Podcast 访谈,2025年9月 → dwarkesh.com/p/richard-sutton
- Richard Sutton,The Bitter Lesson,2019年 → incompleteideas.net
- David Silver & Richard Sutton,Welcome to the Era of Experience,2025年 → VentureBeat 报道
- Dwarkesh Patel,Some thoughts on the Sutton interview → dwarkesh.com/p/thoughts-on-sutton
- 机器之心,Sutton判定「LLM是死胡同」后,新访谈揭示AI困境,2025年10月 → news.qq.com
- The Decoder,Richard Sutton says the AI industry has "lost its way",2025年 → the-decoder.com