外卖公司也能搞AI
昨天凌晨,美团悄悄开源了LongCat-Flash-Chat:一个560B参数的MoE大模型。

我甚至怀疑美团就是想先吓唬一下国外友人们的。
因为那点儿,我们许多人都睡了,但国外网友们才刚起啊。(其实 ,我还没睡……
而许多人在看到这消息后,都直接懵了。

EdDiboi (@EdDiberd) 第一个就满脑子疑惑:
外卖公司怎么就发布起大语言模型了?

Affaan Mustafa (@affaanmustafa) 更是有点懵:
兄弟你们到底是谁啊,从哪冒出来的?

Omi ✦ (@0miChrome) 也问:
你们是突然冒出来的吗,凭空出现?

这公司虽然老外们不知道,但我们自然是知道的——这是一家我们的衣食住行几乎已经离不开了的公司。

而其实如果仔细品品「 外卖 」这两字,你就会发现,AI或许早已是它命中注定的东西。
下面,我们还是先来看看模型技术报告中的相关细节。
这个LongCat-Flash-Chat 模型虽然总参数不小,但每个token只激活18.6B-31.3B参数,推理速度更是超过100 tokens/秒。
在官方公布的各项基准测试中,LongCat-Flash表现出色:
基准测试
GPT-4.1
Claude4 Sonnet
Gemini2.5 Flash
LongCat-Flash
通用领域
MMLU
89.64
91.75
86.33
89.71
ArenaHard-V2
61.50
62.10
77.00
86.50
CEval
79.53
86.63
78.78
90.44
指令遵循
IFEval
85.58
88.35
83.92
89.65
COLLIE
50.00
51.22
48.60
57.10
Meeseeks-zh
41.54
35.07
34.84
43.03
数学推理
MATH500
90.60
93.80
98.40
96.40
AIME25
32.00
37.00
67.33
61.25
代码能力
LiveCodeBench
39.21
45.59
39.65
48.02
SWE-Bench-Verified
48.60
68.00
40.60
60.40
TerminalBench
28.40
40.74
12.35
39.51
特别值得注意的是,LongCat-Flash在 TerminalBench 和 TauBench 等智能体任务上达到了SOTA水平。
而模型最有意思的是它的 零计算专家(Zero-Computation Experts) 设计:
这个MOE 模型足足有768个专家,而其中256个是「零专家」,且它们什么都不做,直接返回输入。路由器可以根据token的难易程度,决定调用多少个真正的FFN专家。
遇到简单的token就少算点,遇到复杂的就多算点。 全让模型自己决定每个token需要多少算力 。
训练曲线中也显示,模型确实学会了这样的行为: 平均保持约8个FFN专家,标准差达到3,不同token得到不同的计算量。
为了控制总算力消耗,团队用 PID控制器来管理专家偏置 。
每个专家有一个可学习的偏置参数,像PID控制器一样实时调整,确保全局平均激活的FFN专家数量保持在目标值。
LongCat在层间设计了 快捷连接(Shortcut-connected MoE) ,让前一个块的dense FFN与当前MoE的dispatch和combine并行运行。
通信等待被隐藏在实际计算中,实验表明损失曲线不变——
这是一个质量中性的加速。
推理时,这种设计支持Single Batch Overlap,NVLink的张量并行流量和RDMA的专家并行流量同时运行,理想情况下TPOT几乎减半。
投机解码使用单个dense MTP头,在预训练后期添加,以更少的头参数实现约90%的接受率。多头潜在注意力强力压缩KV,减少KV I/O和存储。
低秩内容路径和旋转路径的两条注意力路径的初始向量大小不同,导致初始化时幅度不匹配。
简单的每路径缩放因子将它们带到相同范围,使注意力分数在不同宽度下保持稳定。
细粒度专家将每个专家分成m个更小的专家,在求和的MoE输出上使用单个标量恢复原始方差,保持早期训练平滑。
超参数迁移 从小型代理模型获取设置,只重新缩放随宽度变化的部分。
模型增长 将训练好的半深度检查点堆叠到全深度,让大模型从更好的区域开始。路由器稳定性通过监控负载均衡损失与语言损失之间的梯度比率来维持。
每一层堆叠2个多头潜在注意力块和一个MoE前馈网络,从第一个注意力到MoE添加快捷连接,让dense FFN计算在token被分派和组合时运行。
模型将每个token路由到从512个FFN加256个零计算专家中选出的12个专家,产生了每个token 18.6B-31.3B的激活参数,平均约27B。
照旧,我测了两道模型基本能力的硬核测试题:
第一题,自然还是这个:
我有70块钱,我借给小明五十块钱,他又用这五十块在我这里买了五十块钱的水果。第二天我借给小明30块钱,小明用这30块钱买了30块钱的牛奶,小明还欠我多少钱?请先推理,最后给出结论

不曾想,这次居然轻松答对了……(上次它并 没答对啊)
好吧,就当上次是因为太晚它困了
(请试试你的LongChat 能答对吗?
第二题(也是个极易出错的典型题):
请按执行顺序排序:1穿鞋,2剪脚指甲,3系鞋带,4穿袜子
LongCat也轻松答对: 2→4→1→3 。

并还给出了相关解释。
需要注意的是,LongCat 中文名为「龙猫」,是一种动物( 宫崎骏老爷子也有部电影以此取名)。
以及,还有一个冷知识:LLM 领域里的经典论文chinchilla,也正是龙猫的一种 。
看完,网友们也是好评如潮。
Teknium (e/λ) (@Teknium1) 给予肯定:
很棒的工作,恭喜!
Vedant Dere (@derevedant0104) 给出总结:
下一代架构突破:零计算专家、快捷连接MoE、MLA的缩放相关性、专家初始化的方差补偿、多Token预测、超参数迁移、模型增长初始化,还有更多
Mathias Jonsson (@mathiasjonss) 惊叹:
难以置信的快,很棒的工作
整体看下来,LongCat 并 不是只又一个MoE模型的简单复刻。
从零计算专家到PID控制器,从快捷连接到方差对齐,LongCat的每个设计都在解决实际问题。
它并不追求参数规模的虚荣指标,而是真正在思考如何让每个token得到恰到好处的计算。
这就是美团选择的路:
让模型自己决定什么时候该努力,什么时候可以偷懒。

图片由 AI 辅助制作
事实上,美团的业务场景对AI有着极高的要求——
外卖配送、酒店预订、旅游推荐、价格策略 等等,无一不是与民生息息相关的服务,容不得半点差池。
美团想要做大做强,自然离不开AI。

而要在美团的业务中使用AI,自然不能有幻觉。
懂业务,从业务中生长,是美团AI 的基本要求,也是最高要求 ,才能做到从生活出发,解决好真实问题。
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/103.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论