AttentionisNOTallyouneed这个去Transformer的玩意直

大家好!就在今天早上

我刚翻开社交媒体

就瞅见一条 震撼科技圈的消息 :

有开发者用区区8块GPU,就训练出

一个 完全不用Transformer注意力 的

72B大模型,性能竟超越GPT 3.5?!

往下瞅,发现这是PicoCreator团队

宣布发布的 Qwerky-72B 模型

AttentionisNOTallyouneed这个去Transformer的玩意直-2

他们不仅训练了72B版,还有32B版

这可不是小打小闹玩儿过家家

而是动了真格的

直接向「注意力是万能的」宗派宣战

还被开发者称为

「 迄今为止最大的非Transformer注意力架构模型 」

两个大模型在多项评测中不仅

完全不输同尺寸transformer

在某些测试中甚至胜出一筹!

先来看看他们的战绩到底咋样:

AttentionisNOTallyouneed这个去Transformer的玩意直-3

在ARC挑战赛上,Qwerky-72B达到 63.82%

比Qwen2.5-72B-Instruct的63.23%还高

在Winogrande上,差距更明显:

Qwerky拿下 79.56% ,而Qwen只有76.32%

这分数可不是随便挑个软柿子来捏的

可都是 AI理解力和推理能力 的硬指标啊

这是怎么一回事呢?

他们到底用了什么黑科技?

原来,这个模型用了 RWKV架构

不同于目前AI界的主流架构Transformer

它的计算复杂度不是平方级增长的

而是 线性增长 ,也就是说

模型处理长文本时不像传统模型

又费算力又吃显存,效率高多了!

我寻思,这发现可不得了啊

来瞧瞧他们是咋做到的👇

AttentionisNOTallyouneed这个去Transformer的玩意直-4

团队的做法其实挺有创意的:

说来也有点鸡贼,

他们没从零开始

而是拿了现成的Qwen 2.5模型作为「师父」

然后使出了「偷天换日」的骚操作:

冻结了FFN层 (前馈神经网络)

删掉了QKV注意力机制

换上了RWKV架构

仅用不到5亿token微调了一下

这操作,简直就像把汽车引擎的一半

拆了换上自行车链条,结果车子

不但能跑,还跑得贼快!

就这样

就把模型整出来了!

AttentionisNOTallyouneed这个去Transformer的玩意直-5

但这里有个技术细节需要说明

具体来讲,他们的训练过程分几个阶段:

单独训练RWKV层,参考原始模型的各块输出

整体训练RWKV层,对标原模型的logits

解冻并训练所有层(包括FFN和RWKV)

扩展上下文长度继续训练

这种 分阶段、渐进式 的训练方法

让他们能在 MI300 GPU 上完成训练

每块GPU需要用上 全部192GB VRAM !

AttentionisNOTallyouneed这个去Transformer的玩意直-6

这结果让人直挠头,因为按理说

5亿token根本不够训练这么大的模型

尤其是他们把AI脑袋的1/3都删了重建

可模型在 ARC和Winogrande等基准测试 上

竟然还表现超出预期?!

对比一下,正经训练得用几千亿token

这边小小几亿就搞定,怎么想都不对劲

来看具体的 基准测试数据对比 :

任务

指标

Qwerky-72B

Qwen2.5-72B

arc_challenge

acc_norm

0.6382

0.6323

arc_easy

acc_norm

0.8443

0.8329

lambada_openai

acc

0.7539

0.7506

winogrande

acc

0.7956

0.7632

hellaswag

acc_norm

0.8573

0.8736

mmlu

acc

0.7746

0.8338

在 8项测试中 ,Qwerky模型赢了4项

输了2项,平了2项,这成绩真不赖!

AttentionisNOTallyouneed这个去Transformer的玩意直-7

Sunny Sanyal(@SunnySanyal9)对这现象表示认同:

这种结果支持了我们的假设,即注意力机制会退化,而MLP(多层感知机)在绝大多数层中会占主导地位。

团队认为,这说明模型的 知识和智能

大部分不在那些花里胡哨的注意力层

而是藏在普通的 FFN/MLP层 里面

说白了,注意力可能只是个

帮AI 记忆和聚焦的工具而已

更技术性地说,当我们看RWKV架构时

它的 核心公式 其实很不一样

传统Transformer的注意力是:

Attention(Q,K,V) = softmax(QK^T/√d)·V

而RWKV则用了 类似RNN的递归方式

通过时间混合(Time-mixing)和

通道混合(Channel-mixing)实现

就是用矩阵乘法 模拟注意力效果

但避开了二次方的计算复杂度!

AttentionisNOTallyouneed这个去Transformer的玩意直-8

Image

Dacine Amelia(@AmeliaDacine)更是指出:

确实。「行业」走上了一条低效且死胡同的路。此外,AGI将首先在8个GPU上出现。你击中了一些关键洞见。

行家们纷纷表示惊叹,毕竟自从

2017年那篇《Attention Is All You Need》

发表以来,大家都认定Transformer

是唯一通向高级AI的康庄大道

现在看来, 这条路可能不是独一份 ?

另外值得一提的是,两个模型都支持

32768个token的上下文长度

这远超主流商业模型如GPT-3.5

而且由于线性复杂度的特性

处理长文本时更有优势

AttentionisNOTallyouneed这个去Transformer的玩意直-9

Image

Sunny甚至又补充了更多证据:

这已经超出了GPT2规模,这里有更多来自LlaMA模型的证据。在1T个词元上训练的13B模型,几乎所有后期层都崩溃成了单列注意力。我很乐意交流🙂

他还贴出了一张研究图表

显示LLaMA模型的后期注意力层

实际上退化成了 单列注意力模式

这与PicoCreator的发现高度一致!

不少人也提出了实际应用的疑问

线性模型的 推理成本真有那么低 ?

看图就知道,传统Transformer

随着文本长度增加,复杂度是平方级增长

而RWKV则是线性增长

直白点说, 长文本处理便宜太多 !

具体到数字上,当文本长度达到 100K 时

线性模型的计算量仅是传统模型的 1%

处理 1M 长度文本时差距更是惊人

可能达到 100倍以上 的效率差异!

我寻思,这对企业来说

意味着 服务器成本断崖式下降

一台服务器能同时处理的请求

可能从之前的几十个变几百个

对用户来说,也许就是 体验更流畅

等待时间从几秒变成毫秒级

这不香吗?

为啥以前没人这么干呢?

你还别说,其实RWKV并不是新东西

在大模型风头正盛的这几年

一直有人在默默推进这项技术

只是没那么受关注罢了

RWKV已经迭代到第7版 了

平均每6个月发布一个大版本

这次的Qwerky模型就基于RWKV架构

但采用了更有效的训练方法

Ely Rabani(@radsci)就评论道:

我一直很喜欢RWKV的方法,无论是在设计原则上,还是因为RWKV-4-Raven在当时与GPT-3.5相比表现已经很好;很高兴看到有新的动力。

我还注意到,Qubitum(@qubitium) 在问:

你能运行gsm8k或gsm8k铂金基准测试吗?我很想看看数学知识是否也被保留下来。

这问题戳到关键了,因为

传统认为 数学推理是注意力的强项

如果线性模型能玩转数学题

那可真得颠覆我们对AI架构的认知

要知道, GSM8K 是测试模型

解决小学和初中数学应用题能力的基准

包含约8.5K个高质量数学问题

而 GSM8K铂金版 则更为复杂

能在这上面表现好的模型

数学推理能力通常很强

Mar Canet Solà(@mcanet)则关心硬件问题:

运行它需要的最低规格GPU是什么,或者推理需要多少VRAM内存?

这也是实操中的大问题

毕竟现在大家手头GPU都紧张

能用更少资源跑更大模型,谁不爱?

对此,PicoCreator团队表示

得益于线性计算特性

Qwerky-72B 在推理时的资源需求

远低于同等规模的Transformer模型

一块中端GPU就能轻松应对

不需要像运行Llama-70B那样

必须上A100或H100这种高端显卡

Luís Martins(@luis_hacm)的评论也很有意思:

这对LLM意味着什么?你认为架构可以不那么僵化,最重要的是数据吗?这种效率提升应该非常有意思。

我寻思,这事也给AI 研究领域带来了新的启示:

(Transformer) 「注意力或许并非你所需要的一切」!

线性模型的东风要来了?

Alex Skryl(@skryl_alex) 也指出:

@picocreator @3blue1brown在这方面提供了帮助

看来这领域已经有大V开始感兴趣

并深入研究了

更有趣的是,PicoCreator还提到

他们正与@jefrankle和@srush_nlp讨论

要参与那个著名的AI打赌:

到2027年1月1日,Transformer类模型

是否仍将在NLP大多数基准任务中

保持最先进位置?

网址: isattentionallyouneed.com

现在距离这个赌约结束还有

647天11小时22分10秒

而线性模型已经开始展现出挑战能力

不少人表达了对这种新方法的怀疑

比如Igor Silva(@igor9silva)就称:

(高度怀疑但寄予厚望)

m(@Must_af_a)则问道:

计算是一回事,但你如何获得数据来达到o4 mini的准确性?

这些质疑都很合理,毕竟

推翻主流范式从来不是易事

还有一位用户问到:

这是QwQ微调还是从头训练的?

PicoCreator解释说这是基于

Qwen-72B 和 QwQ-32B 模型转换的

「QwQ」是阿里开源的模型系列

而这种转换方法也使得

Qwerky继承了原模型的多语言能力

虽然不像原生RWKV支持100多种语言

但也能处理 约30种语言

PicoCreator给出了自信回应:

他们会用这种把FFN/MLP当作

可复用构建块 的新方法

更快地迭代验证RWKV架构的改进

(以前他们大约6个月一个版本)

对于想尝鲜的开发者,两个模型已在

Hugging Face 和 Featherless.ai 平台上线

链接分别是:

https://huggingface.co/featherless-ai/Qwerky-72B

https://featherless.ai/models/featherless-ai/Qwerky-72B

如果Qwerky系列模型的表现

真如他们宣称那么好

那未来也许我们会看到

更多RWKV或类似架构的模型崛起

也许有一天,我们会感慨:

「嘿,原来注意力真不是你需要的一切」

然后回头看,这8块GPU训练的实验

或许就是那个转折点呢?

👇

👇

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/227.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>