AndrejKarpathy深度解读强化学习之父为何说大模型违背了苦涩教训
「苦涩教训」的作者,其实并不认可大模型对「苦涩教训」的实践。
见前文: 强化学习之父:大语言模型走错了路,不符合「苦涩教训」精神
而刚刚,Andrej Karpathy 也发表了一篇长文深度解读了 Sutton 与 Dwarkesh 这场火药味十足的播客对话。




<<< 左右滑动见更多 >>>
Andrej 指出, 火药味的核心在于:
「苦涩教训」已经成为大模型研究圈的「圣经」,但它的作者 Sutton 本人,却认为大模型根本不符合这个原则。
大模型「圣经」被作者打脸了
Karpathy 先是指出了一个有趣的现象:
在前沿大模型研究圈里,「苦涩教训」(The Bitter Lesson)已经成了判断研究方向的金标准。
研究者们经常会问: 这个方法够不够「bitter lesson pilled」?
(意思是能否随着算力增加而自动变强)
而这个词似乎已经成了判断一个想法是否值得追求的指标替身。
大家的基本假设是:大模型当然是高度「bitter lesson pilled」的,看看那些扩展定律,只要把算力放在横轴上,数字就一路向上向右。
但苦涩教训之父 Sutton 直接一盆冷水泼了下来: 大模型根本不符合「苦涩教训」。
为什么呢?
因为本质上,大模型的训练也正是在巨大的人类数据集上而来——
这些数据既是 人类生成的 ,又是 有限的 。
当数据耗尽后怎么办?
如何避免人类偏见?

所以,被苦涩教训作者打脸的大模型研究者们,也是整尴尬了……
怎么讲,这有点像是耶稣突出出现在一个闪闪发光的大教堂里,随口说了句「 兄弟们,基督教不是真的 」……
这,倒算是真正的苦药了
图灵的「儿童机器」vs 今天的大模型
在某种程度上,Dwarkesh(代表大模型研究者的观点)和 Sutton 有些鸡同鸭讲,因为 Sutton 脑海中有着完全不同的架构,而大模型违背了其中许多原则。
Sutton 自称「古典主义者」,他追求的是 Alan Turing 最初的愿景:
建造一个「儿童机器」——一个能够通过与世界动态交互来学习的系统。
这个系统里:
没有 模仿互联网网页的巨大预训练阶段
没有 监督微调
只有 通过强化学习与世界的交互
Sutton 特别指出了一个微妙但重要的点: 动物王国中不存在监督微调。
这是个细微的观点,但 Sutton 在强烈的意义上是对的:动物当然会观察示范,但它们的行为不会被其他动物直接强制/「遥控」
另一个重要观点是,即使你把预训练仅仅当作强化学习前的先验初始化,Sutton 认为这种方法也被人类偏见污染,从根本上偏离了正轨。
就像 AlphaZero(从未见过人类棋谱)打败 AlphaGo(从人类棋谱初始化)一样。
在 Sutton 的世界观里,所有的一切都是通过强化学习与世界交互,奖励函数部分是环境特定的,但也有内在动机,比如「乐趣」、「好奇心」,以及与世界模型预测质量相关的奖励。
而且智能体默认总是在测试时学习,它不是训练一次然后部署。
总的来说,Sutton 更感兴趣的是我们与动物王国的 共同点 ,而不是差异。
“如果我们理解了松鼠,我们就差不多完成了。”
Karpathy 的思考
面对 Sutton 的批评,Karpathy 给出了自己的看法。
首先,他认为 Sutton 是播客的绝佳嘉宾,AI 领域保持思想熵很重要,不是每个人都在开发下一个局部迭代的大模型。
AI 已经经历了太多次主导方法的离散转换,不能失去这种多样性。
他也认为 Sutton 对大模型不符合「苦涩教训」的批评并非不当。
前沿大模型现在是高度复杂的人工制品,在所有阶段都涉及大量人类因素——
基础(预训练数据)全是人类文本,微调数据是人类策划的,强化学习环境混合由人类工程师调整。
我们实际上没有一个真正的、单一的、干净的、真正符合「苦涩教训」的「转动曲柄」算法,可以释放到世界上看它仅从经验中自动学习。
若是这样的算法存在,找到它当然会是 AI 的重大突破。
通常有两个「示例证明」来论证这种可能性:
第一个是 AlphaZero
完全从零开始学习围棋,没有任何人类监督。但围棋显然是如此简单、封闭的环境,很难看到在现实混乱中的类似表述。Karpathy 说:「我爱围棋,但从算法和分类上讲,它本质上是井字棋的更难版本。」
第二个例子是动物
比如松鼠。但 Karpathy 个人对此也相当犹豫,因为动物通过与我们在工业中实际可用的完全不同的计算过程和约束而产生。
动物大脑远非出生时看起来的空白板:
很多被归因于「学习」的东西更多是「成熟」
即使明显是「学习」而非成熟的,也更多是在某种明显强大且预存在的东西之上的「微调」
举例: 小斑马出生后几十分钟内就能在草原上奔跑并跟随母亲。
这是一个高度复杂的感觉运动任务,Karpathy 认为这绝不可能是从零开始、白板一块实现的。
如果小斑马像强化学习策略在初始化时那样随机痉挛肌肉,它根本走不了多远。
动物的大脑及其数十亿参数在其 DNA 的 ATCG 中有强大的初始化编码,通过进化过程中的「外循环」优化训练。
类似地,我们的 AI 现在也有具有数十亿参数的神经网络。这些参数需要自己丰富的、高信息密度的监督信号。
我们不会重新运行进化。但我们确实有成山的互联网文档。
是的,这基本上是在动物王国中基本缺失的监督学习。
但这是一种实际收集足够的软约束来约束数十亿参数的方法,试图达到你不是从零开始的点。
简而言之:预训练是我们糟糕的进化。
这是冷启动问题的一个候选解决方案,随后在看起来更正确的任务上进行微调,例如在强化学习框架内,就像最先进的前沿大模型实验室现在普遍做的那样。
召唤鬼魂 vs 构建动物
Karpathy 认为,从动物那里获得灵感仍然是值得的。他认为大模型智能体在算法上缺少多个可以从动物智能中改编的强大想法。
他仍然认为「苦涩教训」是正确的,但更多地将其视为柏拉图式的追求目标,而不一定是在现实世界中实际达到的。
坦率地说,今天的前沿大模型研究不是在构建动物。而是在召唤鬼魂。
你可以把鬼魂想象成可能智能空间中根本不同的点。
它们被人性混淆。被人类彻底工程化。它们是这些不完美的复制品,一种人类文档的统计蒸馏,上面撒了一些调料。
它们不是柏拉图式的「bitter lesson pilled」,但它们可能是「实际上的 bitter lesson pilled」,至少与之前的许多相比。
随着时间的推移,我们可能可以进一步将我们的鬼魂越来越多地微调到动物的方向;这不是根本的不兼容,而是智能空间中的初始化问题。
但它们也很可能进一步分化,最终永久不同,不像动物,但仍然非常有帮助并真正改变世界。
鬼魂之于动物,可能就像飞机之于鸟。
动物仍是灵感源泉
总的来说,Karpathy 认为这个播客是 Sutton 对前沿大模型研究者的扎实「真话」,他们可能在开发模式上过于倾斜。
我们可能仍然不够「bitter lesson pilled」,除了详尽的基准构建和基准最大化之外,还有很大可能存在更强大的想法和范式。
动物可能是一个很好的灵感来源:
内在动机、乐趣、好奇心、赋权、多智能体自我对弈、文化。发挥你的想象力。
Karpathy 还分享了一个有趣的实验:他把完整的播客文字稿、「苦涩教训」博文和自己的完整帖子都复制粘贴给了 ChatGPT。
有趣的部分是,你可以分叉对话上下文,提出任何问题并在聊天中将其带向任何方向。
最后,附上 Subbarao Kambhampati 的观点:
正确的解析视角是「当你有世界模型时模仿」vs「模仿就是你的世界模型」。前者是接受建议;后者导致货物崇拜。
我们在自己对世界的亲身体验之上模仿/接受建议;我们的世界模型是两者的复合。LLM 没有独立的亲身体验。
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/77.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论