刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分

美团,这家外卖公司,又开源了!

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-2

刚刚,美团发布了 LongCat-Flash-Omni,一个 560B 参数(激活 27B)的开源全模态 MoE 模型。

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-3

模型在多个基准测试中拿下了 SOTA,甚至在部分指标上超越了 Gemini-2.5-Flash(见下)。

这个 全模态 的意思,就是既 能语音对话( 龙猫 APP 里已可用),还能视频通话(APP 里 coming soon):

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-4

我也第一时间让龙猫与 ChatGPT 来了个成语接龙大战,来直观感受一下:

两个 AI 就这样你一句我一句……接下去了……打得难解又难分。

而我一个没注意,这俩货不知打了多少个回合,且已经进行到道别阶段了,但这个道别呢……怎么讲,就像是两位热恋中的 AI 即将煲完 电话粥,却谁都不允许先挂电话的那个人是自己:

一只耳聪目明的猫

名为「 龙猫 」,自然得模如其名了。

想必人人都有过撸猫的经历:当你跟猫对话时,它不仅能听懂你说的话,还能看懂你展示的图片、视频,甚至能理解你哼的音乐的情绪。

LongCat-Flash-Omni 最大的亮点是 真正的全模态能力 ,它能同时处理文本、图像、音频、视频,而且还能实时进行音视频交互。

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-5

好比宫崎骏动画里的龙猫,虽然体型庞大,但感知敏锐,能察觉到最细微的变化。

所以美团的龙猫,自然也得是全模态的猫。

技术创新

美团采用了 Shortcut-connected MoE 架构,配合零计算专家(zero-computation experts)设计。

这个设计很巧妙,就像高速公路上的 ETC 通道,让信息处理更高效,避免了「堵车」。

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-6

更重要的是,美团还提出了 早期融合训练范式 (Early-Fusion Training),能确保模型在获得多模态能力的同时,不会在单一模态上「 偏科 」。

而不是先语言训练,然后再后加上视觉或音频能力。这就像培养全能运动员,不能因为练游泳就忘了跑步,每天都要练一起练,而不是先练两年游泳,然后再去学跑步。

这样的一体化架构,让这只「龙猫」实现了完全端到端的设计:视觉与音频编码器作为多模态感知器,LLM 直接处理输入并生成文本与语音 token,再通过轻量级音频解码器重建为自然语音波形。

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-7

所有模块均基于高效流式推理设计,视觉编码器、音频编解码器均为轻量级组件,参数量仅约 6 亿。

另一个技术突破是大规模与低延迟的平衡。

虽然总参数达 560B,但依托创新的 ScMoE 架构,结合「 分块式音视频特征交织机制 」,模型支持 128K tokens 上下文窗口及超 8 分钟音视频交互,在多模态长时记忆、多轮对话、时序推理等能力上具备显著优势。

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-8

而在训练上,美团采用了渐进式融合 + 全模态 DPO 的方式解决了「 多模能力断层 」问题。

面对不同模态数据分布的显著异质性,LongCat-Flash-Omni 采用渐进式早期多模融合训练策略,配合全模态 DPO,逐步融入文本、音频、视频等模态,确保全模态性能强劲且无任何单模态性能退化。

多项 SOTA

在基准测试中,LongCat-Flash-Omni 表现相当亮眼:

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-9

OmniBench :61.4%,领先开源模型

音频理解 :74.8%,超过多数竞品

VoiceBench :88.7%,接近人类水平

TempCompass :82.2%,时序理解能力突出

MuirBench :77.1%,多图理解表现优异

特别值得一提的是,在多个关键指标上,它甚至超越了 Gemini-2.5-Flash(非思考模式)。

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-10

比如在 RefCOCO 上达到 92.3%(Gemini 71.9%),在 VideoMME 音频测试中取得 78.2 分(Gemini 78.5)。

网友热议

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-11

网友 MakerMatters? 称:

又一个中国的最先进模型,这次来自一家名为美团的外卖公司。没听错,就是做外卖的。在送餐之余,他们的消息机器人在创造积极的客户体验方面显然非常出色,比起像 Uber 那样的要好得多。Uber 的机器人似乎无论如何都不太愿意退款。不管怎样,美团的团队目前已经接近技术前沿,而且看起来毫不退缩。

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-12

EdDiboi(@EdDiberd) 调侃道:

没想到中国版 DoorDash (国外版外卖公司)也能一个接一个地发布模型

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-13

对此网友 Teortaxes 解释道,这家中国外卖公司可是大有来路,年营收高达数百亿美元,员工人数也超过 Meta,是那种可以把前沿模型开发当成副业来搞的巨头公司。

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-14

Zephyr 甚至点名小扎: 快来学着点抄作业了。

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-15

Andrew Nosenko 🇺🇦 🇦🇺(@noseratio) 期待什么时候能用上 API:

听起来很棒,但对我们普通人来说,评估音频能力相当困难。你们有 API 可以调用吗?

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-16

Himanshu Kumar(@codewithimanshu) 赞叹:

太令人印象深刻了,美团!看起来 AI 交互的未来已经到来了,不是吗?

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-17

Winter(@Cordyceps44) 也是大方送出点赞:

LongCat 是更好的 AI 模型之一

更有许多网友大方送上祝福,表示恭喜:

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-18

不过,虽然国外网友们点赞了美团 龙猫,但龙猫却不是人人都可以轻易就能用上的…… 比如这位用错了网址的网友称无法访问龙猫官网:

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-19

区别是:longcat.ai 是海外版不需要备案的,longcat.chat 则是备案了的域名。 这就是没仔细看官方推文了:

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-20

不过 APP 倒似乎真不容易下载,我就发现 APP 似乎只上架了中国区 App Store,得切换回来才能搜索到。

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-21

来自英国的网友 Janek Mann(@janekm) 无奈地说:

很遗憾 APP 在英国不能用!希望你们尽快改变这一点,英国有很多中国人呢。

好吧,这也算是让国外网友们又一次体会到了想用而不能的痛苦了 刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-22

部署使用

不过,虽然官网不好访问,但模型已经完全开源了,自己部署也是能随意用的。

LongCat-Flash-Omni 支持通过 SGLang 部署运行,不过由于是 560B 的大模型,部署还是需要一点点的硬件实力了 🤏 。

安装依赖

conda create -n longcat python=3.10conda activate longcat

安装 SGLang (暂时使用开发分支)

git clone -b longcat_omni_v0.5.3.post3 https://github.com/XiaoBin1992/sglang.gitpushd sglangpip install -e "python"popd

安装 LongCat-Flash-Omni demo

git clone https://github.com/meituan-longcat/LongCat-Flash-Omnipushd LongCat-Flash-Omnigit submodule update --init --recursivepip install -r requirements.txtpopd

单节点推理 (需要 8×H20-141G 或类似配置)

python3 longcat_omni_demo.py   --tp-size 8   --ep-size 8   --model-path /path/to/model   --output-dir output

多节点推理 (需要 16×H800-80G 或类似配置)

python3 longcat_omni_demo.py   --tp-size 16   --ep-size 16   --nodes 2   --node-rank $NODE_RANK   --dist-init-addr $MASTER_IP:5000   --model-path /path/to/model   --output-dir output

开源 vs 闭源

在美团又一次扔出新模型 LongCat-Flash-Omni 之际,或许是时候再来回顾一下此前 Anthropic CEO Dario Amodei 关于开源模型的言论:

Dario 在采访中声称,开源在 AI 领域的作用与其他领域不同,因为 我们看不到模型内部 ,而且 最终还是要在云端托管 ,所以开源是个 伪命题 。

Dario Amodei:

我认为,开源在 AI 领域并不像在其他领域那样奏效。主要原因是,在传统的开源中,你可以看到源代码;但在这里,我们无法真正看到模型的内部结构。因此,人们通常称之为“开放权重”(open weights)而不是“开源”(open source),以示区分。可问题在于,开源的很多优势——比如让很多人共同协作、实现持续累积改进——在 AI 模型上其实并不能以同样的方式发挥作用。

所以我一直认为“开源”是个伪命题。当我看到一个新模型发布时,我并不在意它是否开源。比如谈到 DeepSeek,我认为它是不是开源根本不重要。我会问的是:这个模型好吗?在关键任务上,它是否比我们更强?这才是我唯一关心的。

实际上,这一点无论如何都没太大区别。因为最终你都得在云端运行这些模型。云端的服务商负责推理(inference)。这些模型非常庞大,推理过程也很困难。

当我思考竞争时,我关注的是哪些模型在我们关心的任务上表现出色。我认为“开源”其实是一个干扰话题。

它也不是免费的。你仍然需要运行推理,并且还得有人让推理变得足够高效。

我想说的是,Dario 只说对了前一半:

确实,除了 Andrew Karpathy 的 nanochat,可以说几乎所有的 LLM 都称不上是绝对意义上的开源模型,因为数据并没有开源,训练代码也没有开源。

从这个角度上来说,Dario 的前一半言论可算是有些道理。

但他后一半的内容,则简直就是大错特错了!

要知道,闭源模型可以随心所欲地修改,用户甚至不知道它变了(比如之前的 Claude 降智事件);可以随时下架,用户毫无办法(比如 GPT-4o 跑路事件)。

而开源模型只要有人存储和分享权重,就能永远存在。用户可以微调开源模型,并拥有微调后模型的权重(比如此次的龙猫)。

可以说: 开源对人类的自由和隐私至关重要。

而且,不容忽视的是:开源模型背后的公司为整个 AI 发展做出了巨大贡献。

事实上,当人们发现本地模型越来越有用,不再需要大规模基础设施和付费会员时,那些完全依赖闭源的公司自然会感到焦虑。比如 airbnb CEO 就公开声称,其公司已经大量使用了中国开源模型并正在全面切量到开源模型。

当然,原因也是在于,开源模型的能力正在快速且无限接受闭源模型们:

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-23

这也解释了为什么 Anthropic 至今没有发布任何开源模型,以及这位 冠冕堂皇的 CEO 能 言之凿凿 地发出这般错误言论的原因。其中,既有源自对开源模型能力提升的恐惧,又有为了维护公司的估值而进行的自我思维体操。

虽然如 Yann LeCun 所言,不是中美之争,而是开闭源之争。但显然,中国模型公司,正在模型开源的道路上引领并绝尘。

比如 Cursor 新推出的 composer1 模型和 Windsurf 的新模型:

刚刚美团开源全模态龙猫模型和ChatGPT大战100回合打得难解难分-24

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/63.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>