AttentionisNOTallyouneed这个去Transformer的玩意直

shadowrocket • 2026年1月24日 am8:16 • shadowrocket, Shadowrocket下载, Shadowrocket官网, Shadowrocket节点, 小火箭

大家好！就在今天早上

我刚翻开社交媒体

就瞅见一条震撼科技圈的消息：

有开发者用区区8块GPU，就训练出

一个完全不用Transformer注意力的

72B大模型，性能竟超越GPT 3.5？！

往下瞅，发现这是PicoCreator团队

宣布发布的 Qwerky-72B 模型

他们不仅训练了72B版，还有32B版

这可不是小打小闹玩儿过家家

而是动了真格的

直接向「注意力是万能的」宗派宣战

还被开发者称为

「迄今为止最大的非Transformer注意力架构模型」

两个大模型在多项评测中不仅

完全不输同尺寸transformer

在某些测试中甚至胜出一筹！

先来看看他们的战绩到底咋样：

在ARC挑战赛上，Qwerky-72B达到 63.82%

比Qwen2.5-72B-Instruct的63.23%还高

在Winogrande上，差距更明显：

Qwerky拿下 79.56% ，而Qwen只有76.32%

这分数可不是随便挑个软柿子来捏的

可都是 AI理解力和推理能力的硬指标啊

这是怎么一回事呢？

他们到底用了什么黑科技？

原来，这个模型用了 RWKV架构

不同于目前AI界的主流架构Transformer

它的计算复杂度不是平方级增长的

而是线性增长，也就是说

模型处理长文本时不像传统模型

又费算力又吃显存，效率高多了！

我寻思，这发现可不得了啊

来瞧瞧他们是咋做到的👇

团队的做法其实挺有创意的：

说来也有点鸡贼，

他们没从零开始

而是拿了现成的Qwen 2.5模型作为「师父」

然后使出了「偷天换日」的骚操作：

冻结了FFN层（前馈神经网络）

删掉了QKV注意力机制

换上了RWKV架构

仅用不到5亿token微调了一下

这操作，简直就像把汽车引擎的一半

拆了换上自行车链条，结果车子

不但能跑，还跑得贼快！

就这样

就把模型整出来了！

但这里有个技术细节需要说明

具体来讲，他们的训练过程分几个阶段：

单独训练RWKV层，参考原始模型的各块输出

整体训练RWKV层，对标原模型的logits

解冻并训练所有层（包括FFN和RWKV）

扩展上下文长度继续训练

这种分阶段、渐进式的训练方法

让他们能在 MI300 GPU 上完成训练

每块GPU需要用上全部192GB VRAM ！

这结果让人直挠头，因为按理说

5亿token根本不够训练这么大的模型

尤其是他们把AI脑袋的1/3都删了重建

可模型在 ARC和Winogrande等基准测试上

竟然还表现超出预期？！

对比一下，正经训练得用几千亿token

这边小小几亿就搞定，怎么想都不对劲

来看具体的基准测试数据对比：

任务

指标

Qwerky-72B

Qwen2.5-72B

arc_challenge

acc_norm

0.6382

0.6323

arc_easy

acc_norm

0.8443

0.8329

lambada_openai

acc

0.7539

0.7506

winogrande

acc

0.7956

0.7632

hellaswag

acc_norm

0.8573

0.8736

mmlu

acc

0.7746

0.8338

在 8项测试中，Qwerky模型赢了4项

输了2项，平了2项，这成绩真不赖！

Sunny Sanyal(@SunnySanyal9)对这现象表示认同:

这种结果支持了我们的假设，即注意力机制会退化，而MLP（多层感知机）在绝大多数层中会占主导地位。

团队认为，这说明模型的知识和智能

大部分不在那些花里胡哨的注意力层

而是藏在普通的 FFN/MLP层里面

说白了，注意力可能只是个

帮AI 记忆和聚焦的工具而已

更技术性地说，当我们看RWKV架构时

它的核心公式其实很不一样

传统Transformer的注意力是：

Attention(Q,K,V) = softmax(QK^T/√d)·V

而RWKV则用了类似RNN的递归方式

通过时间混合（Time-mixing）和

通道混合（Channel-mixing）实现

就是用矩阵乘法模拟注意力效果

但避开了二次方的计算复杂度！

Image

Dacine Amelia(@AmeliaDacine)更是指出：

确实。「行业」走上了一条低效且死胡同的路。此外，AGI将首先在8个GPU上出现。你击中了一些关键洞见。

行家们纷纷表示惊叹，毕竟自从

2017年那篇《Attention Is All You Need》

发表以来，大家都认定Transformer

是唯一通向高级AI的康庄大道

现在看来，这条路可能不是独一份？

另外值得一提的是，两个模型都支持

32768个token的上下文长度

这远超主流商业模型如GPT-3.5

而且由于线性复杂度的特性

处理长文本时更有优势

Image

Sunny甚至又补充了更多证据：

这已经超出了GPT2规模，这里有更多来自LlaMA模型的证据。在1T个词元上训练的13B模型，几乎所有后期层都崩溃成了单列注意力。我很乐意交流🙂

他还贴出了一张研究图表

显示LLaMA模型的后期注意力层

实际上退化成了单列注意力模式

这与PicoCreator的发现高度一致！

不少人也提出了实际应用的疑问

线性模型的推理成本真有那么低？

看图就知道，传统Transformer

随着文本长度增加，复杂度是平方级增长

而RWKV则是线性增长

直白点说，长文本处理便宜太多！

具体到数字上，当文本长度达到 100K 时

线性模型的计算量仅是传统模型的 1%

处理 1M 长度文本时差距更是惊人

可能达到 100倍以上的效率差异！

我寻思，这对企业来说

意味着服务器成本断崖式下降

一台服务器能同时处理的请求

可能从之前的几十个变几百个

对用户来说，也许就是体验更流畅

等待时间从几秒变成毫秒级

这不香吗？

为啥以前没人这么干呢？

你还别说，其实RWKV并不是新东西

在大模型风头正盛的这几年

一直有人在默默推进这项技术

只是没那么受关注罢了

RWKV已经迭代到第7版了

平均每6个月发布一个大版本

这次的Qwerky模型就基于RWKV架构

但采用了更有效的训练方法

Ely Rabani(@radsci)就评论道：

我一直很喜欢RWKV的方法，无论是在设计原则上，还是因为RWKV-4-Raven在当时与GPT-3.5相比表现已经很好；很高兴看到有新的动力。

我还注意到，Qubitum(@qubitium) 在问：

你能运行gsm8k或gsm8k铂金基准测试吗？我很想看看数学知识是否也被保留下来。

这问题戳到关键了，因为

传统认为数学推理是注意力的强项

如果线性模型能玩转数学题

那可真得颠覆我们对AI架构的认知

要知道， GSM8K 是测试模型

解决小学和初中数学应用题能力的基准

包含约8.5K个高质量数学问题

而 GSM8K铂金版则更为复杂

能在这上面表现好的模型

数学推理能力通常很强

Mar Canet Solà(@mcanet)则关心硬件问题：

运行它需要的最低规格GPU是什么，或者推理需要多少VRAM内存？

这也是实操中的大问题

毕竟现在大家手头GPU都紧张

能用更少资源跑更大模型，谁不爱？

对此，PicoCreator团队表示

得益于线性计算特性

Qwerky-72B 在推理时的资源需求

远低于同等规模的Transformer模型

一块中端GPU就能轻松应对

不需要像运行Llama-70B那样

必须上A100或H100这种高端显卡

Luís Martins(@luis_hacm)的评论也很有意思：

这对LLM意味着什么？你认为架构可以不那么僵化，最重要的是数据吗？这种效率提升应该非常有意思。

我寻思，这事也给AI 研究领域带来了新的启示：

（Transformer）「注意力或许并非你所需要的一切」！

线性模型的东风要来了？

Alex Skryl(@skryl_alex) 也指出：

@picocreator @3blue1brown在这方面提供了帮助

看来这领域已经有大V开始感兴趣

并深入研究了

更有趣的是，PicoCreator还提到

他们正与@jefrankle和@srush_nlp讨论

要参与那个著名的AI打赌：

到2027年1月1日，Transformer类模型

是否仍将在NLP大多数基准任务中

保持最先进位置？

网址： isattentionallyouneed.com

现在距离这个赌约结束还有

647天11小时22分10秒

而线性模型已经开始展现出挑战能力

不少人表达了对这种新方法的怀疑

比如Igor Silva(@igor9silva)就称：

(高度怀疑但寄予厚望)

m(@Must_af_a)则问道：

计算是一回事，但你如何获得数据来达到o4 mini的准确性？

这些质疑都很合理，毕竟

推翻主流范式从来不是易事

还有一位用户问到：

这是QwQ微调还是从头训练的？

PicoCreator解释说这是基于

Qwen-72B 和 QwQ-32B 模型转换的

「QwQ」是阿里开源的模型系列

而这种转换方法也使得

Qwerky继承了原模型的多语言能力

虽然不像原生RWKV支持100多种语言

但也能处理约30种语言

PicoCreator给出了自信回应：

他们会用这种把FFN/MLP当作

可复用构建块的新方法

更快地迭代验证RWKV架构的改进

（以前他们大约6个月一个版本）

对于想尝鲜的开发者，两个模型已在

Hugging Face 和 Featherless.ai 平台上线

链接分别是：

https://huggingface.co/featherless-ai/Qwerky-72B

https://featherless.ai/models/featherless-ai/Qwerky-72B

如果Qwerky系列模型的表现

真如他们宣称那么好

那未来也许我们会看到

更多RWKV或类似架构的模型崛起

也许有一天，我们会感慨：

「嘿，原来注意力真不是你需要的一切」

然后回头看，这8块GPU训练的实验

或许就是那个转折点呢？

👇

版权声明：
作者：shadowrocket
链接：https://www.shadowrocket9.top/227.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

shadowrocket Shadowrocket下载 shadowrocket官网 Shadowrocket节点小火箭

二维码

重磅Gemini20全家桶发布Flash免费用Pro会写代码还有一个便宜货

< <上一篇

OpenAI如何用Codex在28天内极速打造安卓版Sora

下一篇>>

搜索内容

AttentionisNOTallyouneed这个去Transformer的玩意直

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

AttentionisNOTallyouneed这个去Transformer的玩意直

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点