刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分
美团,这家外卖公司,又开源了!
刚刚,美团发布了 LongCat-Flash-Omni,一个 560B 参数(激活 27B)的开源全模态 MoE 模型。

模型在多个基准测试中拿下了 SOTA,甚至在部分指标上超越了 Gemini-2.5-Flash(见下)。
这个 全模态 的意思,就是既 能语音对话( 龙猫 APP 里已可用),还能视频通话(APP 里 coming soon):

我也第一时间让龙猫与 ChatGPT 来了个成语接龙大战,来直观感受一下:
两个 AI 就这样你一句我一句……接下去了……打得难解又难分。
而我一个没注意,这俩货不知打了多少个回合,且已经进行到道别阶段了,但这个道别呢……怎么讲,就像是两位热恋中的 AI 即将煲完 电话粥,却谁都不允许先挂电话的那个人是自己:
一只耳聪目明的猫
名为「 龙猫 」,自然得模如其名了。
想必人人都有过撸猫的经历:当你跟猫对话时,它不仅能听懂你说的话,还能看懂你展示的图片、视频,甚至能理解你哼的音乐的情绪。
LongCat-Flash-Omni 最大的亮点是 真正的全模态能力 ,它能同时处理文本、图像、音频、视频,而且还能实时进行音视频交互。

好比宫崎骏动画里的龙猫,虽然体型庞大,但感知敏锐,能察觉到最细微的变化。
所以美团的龙猫,自然也得是全模态的猫。
技术创新
美团采用了 Shortcut-connected MoE 架构,配合零计算专家(zero-computation experts)设计。
这个设计很巧妙,就像高速公路上的 ETC 通道,让信息处理更高效,避免了「堵车」。
更重要的是,美团还提出了 早期融合训练范式 (Early-Fusion Training),能确保模型在获得多模态能力的同时,不会在单一模态上「 偏科 」。
而不是先语言训练,然后再后加上视觉或音频能力。这就像培养全能运动员,不能因为练游泳就忘了跑步,每天都要练一起练,而不是先练两年游泳,然后再去学跑步。
这样的一体化架构,让这只「龙猫」实现了完全端到端的设计:视觉与音频编码器作为多模态感知器,LLM 直接处理输入并生成文本与语音 token,再通过轻量级音频解码器重建为自然语音波形。

所有模块均基于高效流式推理设计,视觉编码器、音频编解码器均为轻量级组件,参数量仅约 6 亿。
另一个技术突破是大规模与低延迟的平衡。
虽然总参数达 560B,但依托创新的 ScMoE 架构,结合「 分块式音视频特征交织机制 」,模型支持 128K tokens 上下文窗口及超 8 分钟音视频交互,在多模态长时记忆、多轮对话、时序推理等能力上具备显著优势。

而在训练上,美团采用了渐进式融合 + 全模态 DPO 的方式解决了「 多模能力断层 」问题。
面对不同模态数据分布的显著异质性,LongCat-Flash-Omni 采用渐进式早期多模融合训练策略,配合全模态 DPO,逐步融入文本、音频、视频等模态,确保全模态性能强劲且无任何单模态性能退化。
多项 SOTA
在基准测试中,LongCat-Flash-Omni 表现相当亮眼:
OmniBench :61.4%,领先开源模型
音频理解 :74.8%,超过多数竞品
VoiceBench :88.7%,接近人类水平
TempCompass :82.2%,时序理解能力突出
MuirBench :77.1%,多图理解表现优异
特别值得一提的是,在多个关键指标上,它甚至超越了 Gemini-2.5-Flash(非思考模式)。

比如在 RefCOCO 上达到 92.3%(Gemini 71.9%),在 VideoMME 音频测试中取得 78.2 分(Gemini 78.5)。
网友热议

网友 MakerMatters? 称:
又一个中国的最先进模型,这次来自一家名为美团的外卖公司。没听错,就是做外卖的。在送餐之余,他们的消息机器人在创造积极的客户体验方面显然非常出色,比起像 Uber 那样的要好得多。Uber 的机器人似乎无论如何都不太愿意退款。不管怎样,美团的团队目前已经接近技术前沿,而且看起来毫不退缩。

EdDiboi(@EdDiberd) 调侃道:
没想到中国版 DoorDash (国外版外卖公司)也能一个接一个地发布模型
对此网友 Teortaxes 解释道,这家中国外卖公司可是大有来路,年营收高达数百亿美元,员工人数也超过 Meta,是那种可以把前沿模型开发当成副业来搞的巨头公司。
Zephyr 甚至点名小扎: 快来学着点抄作业了。
Andrew Nosenko 🇺🇦 🇦🇺(@noseratio) 期待什么时候能用上 API:
听起来很棒,但对我们普通人来说,评估音频能力相当困难。你们有 API 可以调用吗?

Himanshu Kumar(@codewithimanshu) 赞叹:
太令人印象深刻了,美团!看起来 AI 交互的未来已经到来了,不是吗?

Winter(@Cordyceps44) 也是大方送出点赞:
LongCat 是更好的 AI 模型之一
更有许多网友大方送上祝福,表示恭喜:

不过,虽然国外网友们点赞了美团 龙猫,但龙猫却不是人人都可以轻易就能用上的…… 比如这位用错了网址的网友称无法访问龙猫官网:

区别是:longcat.ai 是海外版不需要备案的,longcat.chat 则是备案了的域名。 这就是没仔细看官方推文了:

不过 APP 倒似乎真不容易下载,我就发现 APP 似乎只上架了中国区 App Store,得切换回来才能搜索到。

来自英国的网友 Janek Mann(@janekm) 无奈地说:
很遗憾 APP 在英国不能用!希望你们尽快改变这一点,英国有很多中国人呢。
好吧,这也算是让国外网友们又一次体会到了想用而不能的痛苦了
部署使用
不过,虽然官网不好访问,但模型已经完全开源了,自己部署也是能随意用的。
LongCat-Flash-Omni 支持通过 SGLang 部署运行,不过由于是 560B 的大模型,部署还是需要一点点的硬件实力了 🤏 。
安装依赖
conda create -n longcat python=3.10conda activate longcat
安装 SGLang (暂时使用开发分支)
git clone -b longcat_omni_v0.5.3.post3 https://github.com/XiaoBin1992/sglang.gitpushd sglangpip install -e "python"popd
安装 LongCat-Flash-Omni demo
git clone https://github.com/meituan-longcat/LongCat-Flash-Omnipushd LongCat-Flash-Omnigit submodule update --init --recursivepip install -r requirements.txtpopd
单节点推理 (需要 8×H20-141G 或类似配置)
python3 longcat_omni_demo.py --tp-size 8 --ep-size 8 --model-path /path/to/model --output-dir output
多节点推理 (需要 16×H800-80G 或类似配置)
python3 longcat_omni_demo.py --tp-size 16 --ep-size 16 --nodes 2 --node-rank $NODE_RANK --dist-init-addr $MASTER_IP:5000 --model-path /path/to/model --output-dir output
开源 vs 闭源
在美团又一次扔出新模型 LongCat-Flash-Omni 之际,或许是时候再来回顾一下此前 Anthropic CEO Dario Amodei 关于开源模型的言论:
Dario 在采访中声称,开源在 AI 领域的作用与其他领域不同,因为 我们看不到模型内部 ,而且 最终还是要在云端托管 ,所以开源是个 伪命题 。
Dario Amodei:
我认为,开源在 AI 领域并不像在其他领域那样奏效。主要原因是,在传统的开源中,你可以看到源代码;但在这里,我们无法真正看到模型的内部结构。因此,人们通常称之为“开放权重”(open weights)而不是“开源”(open source),以示区分。可问题在于,开源的很多优势——比如让很多人共同协作、实现持续累积改进——在 AI 模型上其实并不能以同样的方式发挥作用。
所以我一直认为“开源”是个伪命题。当我看到一个新模型发布时,我并不在意它是否开源。比如谈到 DeepSeek,我认为它是不是开源根本不重要。我会问的是:这个模型好吗?在关键任务上,它是否比我们更强?这才是我唯一关心的。
实际上,这一点无论如何都没太大区别。因为最终你都得在云端运行这些模型。云端的服务商负责推理(inference)。这些模型非常庞大,推理过程也很困难。
当我思考竞争时,我关注的是哪些模型在我们关心的任务上表现出色。我认为“开源”其实是一个干扰话题。
它也不是免费的。你仍然需要运行推理,并且还得有人让推理变得足够高效。
我想说的是,Dario 只说对了前一半:
确实,除了 Andrew Karpathy 的 nanochat,可以说几乎所有的 LLM 都称不上是绝对意义上的开源模型,因为数据并没有开源,训练代码也没有开源。
从这个角度上来说,Dario 的前一半言论可算是有些道理。
但他后一半的内容,则简直就是大错特错了!
要知道,闭源模型可以随心所欲地修改,用户甚至不知道它变了(比如之前的 Claude 降智事件);可以随时下架,用户毫无办法(比如 GPT-4o 跑路事件)。
而开源模型只要有人存储和分享权重,就能永远存在。用户可以微调开源模型,并拥有微调后模型的权重(比如此次的龙猫)。
可以说: 开源对人类的自由和隐私至关重要。
而且,不容忽视的是:开源模型背后的公司为整个 AI 发展做出了巨大贡献。
事实上,当人们发现本地模型越来越有用,不再需要大规模基础设施和付费会员时,那些完全依赖闭源的公司自然会感到焦虑。比如 airbnb CEO 就公开声称,其公司已经大量使用了中国开源模型并正在全面切量到开源模型。
当然,原因也是在于,开源模型的能力正在快速且无限接受闭源模型们:
这也解释了为什么 Anthropic 至今没有发布任何开源模型,以及这位 冠冕堂皇的 CEO 能 言之凿凿 地发出这般错误言论的原因。其中,既有源自对开源模型能力提升的恐惧,又有为了维护公司的估值而进行的自我思维体操。
虽然如 Yann LeCun 所言,不是中美之争,而是开闭源之争。但显然,中国模型公司,正在模型开源的道路上引领并绝尘。
比如 Cursor 新推出的 composer1 模型和 Windsurf 的新模型:

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/63.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论