AttentionisNOTallyouneed这个去Transformer的玩意直
大家好!就在今天早上
我刚翻开社交媒体
就瞅见一条 震撼科技圈的消息 :
有开发者用区区8块GPU,就训练出
一个 完全不用Transformer注意力 的
72B大模型,性能竟超越GPT 3.5?!
往下瞅,发现这是PicoCreator团队
宣布发布的 Qwerky-72B 模型
他们不仅训练了72B版,还有32B版
这可不是小打小闹玩儿过家家
而是动了真格的
直接向「注意力是万能的」宗派宣战
还被开发者称为
「 迄今为止最大的非Transformer注意力架构模型 」
两个大模型在多项评测中不仅
完全不输同尺寸transformer
在某些测试中甚至胜出一筹!
先来看看他们的战绩到底咋样:
在ARC挑战赛上,Qwerky-72B达到 63.82%
比Qwen2.5-72B-Instruct的63.23%还高
在Winogrande上,差距更明显:
Qwerky拿下 79.56% ,而Qwen只有76.32%
这分数可不是随便挑个软柿子来捏的
可都是 AI理解力和推理能力 的硬指标啊
这是怎么一回事呢?
他们到底用了什么黑科技?
原来,这个模型用了 RWKV架构
不同于目前AI界的主流架构Transformer
它的计算复杂度不是平方级增长的
而是 线性增长 ,也就是说
模型处理长文本时不像传统模型
又费算力又吃显存,效率高多了!
我寻思,这发现可不得了啊
来瞧瞧他们是咋做到的👇
团队的做法其实挺有创意的:
说来也有点鸡贼,
他们没从零开始
而是拿了现成的Qwen 2.5模型作为「师父」
然后使出了「偷天换日」的骚操作:
冻结了FFN层 (前馈神经网络)
删掉了QKV注意力机制
换上了RWKV架构
仅用不到5亿token微调了一下
这操作,简直就像把汽车引擎的一半
拆了换上自行车链条,结果车子
不但能跑,还跑得贼快!
就这样
就把模型整出来了!
但这里有个技术细节需要说明
具体来讲,他们的训练过程分几个阶段:
单独训练RWKV层,参考原始模型的各块输出
整体训练RWKV层,对标原模型的logits
解冻并训练所有层(包括FFN和RWKV)
扩展上下文长度继续训练
这种 分阶段、渐进式 的训练方法
让他们能在 MI300 GPU 上完成训练
每块GPU需要用上 全部192GB VRAM !
这结果让人直挠头,因为按理说
5亿token根本不够训练这么大的模型
尤其是他们把AI脑袋的1/3都删了重建
可模型在 ARC和Winogrande等基准测试 上
竟然还表现超出预期?!
对比一下,正经训练得用几千亿token
这边小小几亿就搞定,怎么想都不对劲
来看具体的 基准测试数据对比 :
任务
指标
Qwerky-72B
Qwen2.5-72B
arc_challenge
acc_norm
0.6382
0.6323
arc_easy
acc_norm
0.8443
0.8329
lambada_openai
acc
0.7539
0.7506
winogrande
acc
0.7956
0.7632
hellaswag
acc_norm
0.8573
0.8736
mmlu
acc
0.7746
0.8338
在 8项测试中 ,Qwerky模型赢了4项
输了2项,平了2项,这成绩真不赖!

Sunny Sanyal(@SunnySanyal9)对这现象表示认同:
这种结果支持了我们的假设,即注意力机制会退化,而MLP(多层感知机)在绝大多数层中会占主导地位。
团队认为,这说明模型的 知识和智能
大部分不在那些花里胡哨的注意力层
而是藏在普通的 FFN/MLP层 里面
说白了,注意力可能只是个
帮AI 记忆和聚焦的工具而已
更技术性地说,当我们看RWKV架构时
它的 核心公式 其实很不一样
传统Transformer的注意力是:
Attention(Q,K,V) = softmax(QK^T/√d)·V
而RWKV则用了 类似RNN的递归方式
通过时间混合(Time-mixing)和
通道混合(Channel-mixing)实现
就是用矩阵乘法 模拟注意力效果
但避开了二次方的计算复杂度!
Image
Dacine Amelia(@AmeliaDacine)更是指出:
确实。「行业」走上了一条低效且死胡同的路。此外,AGI将首先在8个GPU上出现。你击中了一些关键洞见。
行家们纷纷表示惊叹,毕竟自从
2017年那篇《Attention Is All You Need》
发表以来,大家都认定Transformer
是唯一通向高级AI的康庄大道
现在看来, 这条路可能不是独一份 ?
另外值得一提的是,两个模型都支持
32768个token的上下文长度
这远超主流商业模型如GPT-3.5
而且由于线性复杂度的特性
处理长文本时更有优势
Image
Sunny甚至又补充了更多证据:
这已经超出了GPT2规模,这里有更多来自LlaMA模型的证据。在1T个词元上训练的13B模型,几乎所有后期层都崩溃成了单列注意力。我很乐意交流🙂
他还贴出了一张研究图表
显示LLaMA模型的后期注意力层
实际上退化成了 单列注意力模式
这与PicoCreator的发现高度一致!
不少人也提出了实际应用的疑问
线性模型的 推理成本真有那么低 ?
看图就知道,传统Transformer
随着文本长度增加,复杂度是平方级增长
而RWKV则是线性增长
直白点说, 长文本处理便宜太多 !
具体到数字上,当文本长度达到 100K 时
线性模型的计算量仅是传统模型的 1%
处理 1M 长度文本时差距更是惊人
可能达到 100倍以上 的效率差异!
我寻思,这对企业来说
意味着 服务器成本断崖式下降
一台服务器能同时处理的请求
可能从之前的几十个变几百个
对用户来说,也许就是 体验更流畅
等待时间从几秒变成毫秒级
这不香吗?
为啥以前没人这么干呢?
你还别说,其实RWKV并不是新东西
在大模型风头正盛的这几年
一直有人在默默推进这项技术
只是没那么受关注罢了
RWKV已经迭代到第7版 了
平均每6个月发布一个大版本
这次的Qwerky模型就基于RWKV架构
但采用了更有效的训练方法
Ely Rabani(@radsci)就评论道:
我一直很喜欢RWKV的方法,无论是在设计原则上,还是因为RWKV-4-Raven在当时与GPT-3.5相比表现已经很好;很高兴看到有新的动力。
我还注意到,Qubitum(@qubitium) 在问:
你能运行gsm8k或gsm8k铂金基准测试吗?我很想看看数学知识是否也被保留下来。
这问题戳到关键了,因为
传统认为 数学推理是注意力的强项
如果线性模型能玩转数学题
那可真得颠覆我们对AI架构的认知
要知道, GSM8K 是测试模型
解决小学和初中数学应用题能力的基准
包含约8.5K个高质量数学问题
而 GSM8K铂金版 则更为复杂
能在这上面表现好的模型
数学推理能力通常很强
Mar Canet Solà(@mcanet)则关心硬件问题:
运行它需要的最低规格GPU是什么,或者推理需要多少VRAM内存?
这也是实操中的大问题
毕竟现在大家手头GPU都紧张
能用更少资源跑更大模型,谁不爱?
对此,PicoCreator团队表示
得益于线性计算特性
Qwerky-72B 在推理时的资源需求
远低于同等规模的Transformer模型
一块中端GPU就能轻松应对
不需要像运行Llama-70B那样
必须上A100或H100这种高端显卡
Luís Martins(@luis_hacm)的评论也很有意思:
这对LLM意味着什么?你认为架构可以不那么僵化,最重要的是数据吗?这种效率提升应该非常有意思。
我寻思,这事也给AI 研究领域带来了新的启示:
(Transformer) 「注意力或许并非你所需要的一切」!
线性模型的东风要来了?
Alex Skryl(@skryl_alex) 也指出:
@picocreator @3blue1brown在这方面提供了帮助
看来这领域已经有大V开始感兴趣
并深入研究了
更有趣的是,PicoCreator还提到
他们正与@jefrankle和@srush_nlp讨论
要参与那个著名的AI打赌:
到2027年1月1日,Transformer类模型
是否仍将在NLP大多数基准任务中
保持最先进位置?
网址: isattentionallyouneed.com
现在距离这个赌约结束还有
647天11小时22分10秒
而线性模型已经开始展现出挑战能力
不少人表达了对这种新方法的怀疑
比如Igor Silva(@igor9silva)就称:
(高度怀疑但寄予厚望)
m(@Must_af_a)则问道:
计算是一回事,但你如何获得数据来达到o4 mini的准确性?
这些质疑都很合理,毕竟
推翻主流范式从来不是易事
还有一位用户问到:
这是QwQ微调还是从头训练的?
PicoCreator解释说这是基于
Qwen-72B 和 QwQ-32B 模型转换的
「QwQ」是阿里开源的模型系列
而这种转换方法也使得
Qwerky继承了原模型的多语言能力
虽然不像原生RWKV支持100多种语言
但也能处理 约30种语言
PicoCreator给出了自信回应:
他们会用这种把FFN/MLP当作
可复用构建块 的新方法
更快地迭代验证RWKV架构的改进
(以前他们大约6个月一个版本)
对于想尝鲜的开发者,两个模型已在
Hugging Face 和 Featherless.ai 平台上线
链接分别是:
https://huggingface.co/featherless-ai/Qwerky-72B
https://featherless.ai/models/featherless-ai/Qwerky-72B
如果Qwerky系列模型的表现
真如他们宣称那么好
那未来也许我们会看到
更多RWKV或类似架构的模型崛起
也许有一天,我们会感慨:
「嘿,原来注意力真不是你需要的一切」
然后回头看,这8块GPU训练的实验
或许就是那个转折点呢?
👇
👇
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/227.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论