刚刚美团开源SOTA推理模型LongCatFlashThinking性能逼近GPT5
刚刚,美团宣布高效推理模型 LongCat-Flash-Thinking 正式发布。

新模型在保持龙猫模型一贯「 快 」特点的同时,在逻辑、数学、代码、智能体等多个领域的推理任务中,也达到了全球开源模型的最先进水平(SOTA)。
甚至,部分任务性能已经接近闭源模型 GPT5-Thinking。

LongCat-Flash-Thinking 增强了智能体自主调用工具的能力,并扩展了形式化定理证明能力, 成为国内首个同时具备「深度思考+工具调用」与「非形式化+形式化」推理能力相结合的大语言模型 。
目前,LongCat-Flash-Thinking 已经在 HuggingFace、GitHub 全面开源,并可在官网直接体验。
又快又省
为了解决强化学习领域混合训练的稳定性问题,美团 LongCat 团队设计了一种 领域并行方案 ,将 STEM、代码和智能体任务的优化过程解耦。

这一方法采用了多领域并行训练再融合的先进策略,实现模型能力的均衡提升,综合性能达到帕累托最优(Pareto-optimal)。

新模型以 异步弹性共卡系统 (Dynamic Orchestration for Asynchronous Rollout)为训练基石,该系统通过弹性共卡调度(Elastic Colocation)与多版本异步流水线(Multi-Version Asynchronous Pipeline)设计, 在实现相较于同步 RL 训练框架三倍提速的同时,确保了每条样本的策略一致性 。

系统进一步实现了高效的 KV 缓存复用,能够支撑万卡规模集群的稳定运行。

美团 LongCat 团队还设计了全新的「 双路径推理框架 」以提升模型的智能体能力。
该框架能够自主筛选最优查询样本,并通过自动化流程将智能体推理与工具使用相结合,使模型能够智能识别并调用外部工具(如代码执行器、API 等),从而高效解决复杂任务。

基于 AIME25 实测数据,LongCat-Flash-Thinking 在该框架下展现出更高效的智能体工具调用能力, 在确保 90% 准确率的前提下,相较于不使用工具调用节省了 64.5% 的 Tokens (从 19653 到 6965),显著优化了推理过程的资源利用率。
为了克服当前开源通用大型语言模型在形式化证明任务中的不足,团队还针对形式化推理设计了一套全新的基于专家迭代框架的数据合成方法。
该流程利用集成了 Lean4 服务器的专家迭代框架,生成经过严格验证的证明过程,系统性地增强了模型的形式化推理能力,提高了其在学术和工程应用中的可靠性。
专注高复杂度任务
在本月1号,美团开源了 LongCat-Flash-Chat 模型,且一经发布就凭「 快 」的特点引发了关注,被称为「 最快的大参数模型 」。

而此次放出的 LongCat-Flash-Thinking 模型自然也继承了「 快 」的特点,并且还在逻辑、数学、代码、智能体等评测中刷新了纪录,show 出「理科学霸」的新特质:

通用推理能力 :模型在需要结构化逻辑的任务中表现突出,在 ARC-AGI 基准测试中以 50.3 分超过 OpenAI o3、Gemini-2.5 Pro 等闭源模型 ,表现出优异的通用推理能力。

数学能力 :数学推理跻身到全球顶尖模型行列。在 HMMT 和 AIME 中超越 OpenAI o3 ,解决复杂多步骤问题的能力可见一斑。

代码能力 :编程领域展现出了开源 SOTA 的性能。 LiveCodeBench 以 79.4 分超越其他开源模型,与 GPT-5 表现相当 ,高难度编程竞赛问题不在话下。在 OJBench 中拿下 40.7 分,接近 Gemini-2.5 Pro 。

智能体能力 :复杂工具增强型推理同样出色。在 τ²-Bench 中以 74 分刷新开源 SOTA ,SWE-Bench、BFCL V3 和 VitaBench 等基准测试排名靠前。

ATP 形式推理能力 :模型在生成结构化证明和形式化数学推理任务中优势明显。 MiniF2F-test 的 pass@1 获得 67.6 高分,领先所有模型 ,pass@8 和 pass@32 上同样保持着领先。
社区反响
国外网友们看到这家 不知从哪冒出来的外卖公司 此次发布的SOTA 模型,也是纷纷表示惊呆了。
有网友称:
这太令人印象深刻了!美团团队的出色工作!

cedric 惊叹:
哇,离 GPT-5 Thinking 不远了


Mr. Ånand 和Florian S 等一众网友也是大呼: 疯狂。
HuggingFace 的VB 表示: 非常酷的发布,恭喜!

Prathmesh 则表示美团出手过于大方了:
该死的 GPT-5 级别 MIT 许可证

Today in AI 分析道:
LongCat-Flash-Thinking 的 64.5% token 减少和原生工具使用显著提升了企业 AI 智能体效率。这直接影响了复杂自动化工作流的运营成本和延迟,这是大规模 LLM 部署的关键因素。
甚至,Lucas Beyer 还扔出了一个long cat 的直译小游戏:
还要看看相关的 https://longcat.wtf/ 页面!
游戏长这样:

你若闲着无聊,可以去看看到 100 分后会发生什么
API 平台免费开放
而就在前不久,美团还推出了 AI 模型 API 平台。并且, 每天的免费送 tokens 量也从 10 万暴力提升到了 500 万/天!
可以说是,相当大方了!

你需要做的,就是填个申请表即可(手慢无哦)。
申请网址: https://longcat.chat/platform/usage
小技巧:使用场景 字要多 , 认 真 写 , 好好写 , 真诚地写 ,这样更容易通过。
如果你对500 万token 没什么概念,可以看我 200$ 的 claude code 的日常用量(忽略我最近的偷懒):

也就是说,排除掉偶尔的暴力操作,对我们大部分人来说,其实免费的龙猫就够用了。
别忘了,LongCat-Flash-Thinking 还非常地省token(前面有说,后面也有例子,上 图里的LongCat 就是我用 Claude Code + 龙猫模型的实测消耗 )。
以及需要注意的是,额度会在每天凌晨自动刷新,前一天没用完的会清零,不会累积到第二天继续用。
不过,如果你用超了不够用……我找了一圈,平台目前应该是还处于公测阶段,暂不支持付费购买额度。
双接口兼容设计
LongCat API 的一大亮点是 同时兼容 OpenAI 和 Anthropic 两种主流 API 格式 。
我们几乎不需要修改现有代码,只需要更换一下 base URL 就能直接接入自己项目中使用。
OpenAI 格式接入:
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(linefrom openai import OpenAIclient = OpenAI( api_key="YOUR_APP_KEY", base_url="https://api.longcat.chat/openai")response = client.chat.completions.create( model="LongCat-Flash-Chat", messages=[ {"role": "user", "content": "Hello!"} ], max_tokens=1000)
Anthropic 格式接入:
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(linefrom anthropic import Anthropicclient = Anthropic( api_key="Authorization: Bearer YOUR_APP_KEY", base_url="https://api.longcat.chat/anthropic/", default_headers={ "Content-Type": "application/json", "Authorization": "Bearer YOUR_APP_KEY", })response = client.messages.create( model="LongCat-Flash-Chat", max_tokens=1000, messages=[ {"role": "user", "content": "Hello!"} ])
自然,你也可以在Claude Code 中轻松使用,命令如下:
ounter(lineounter(lineounter(lineexport ANTHROPIC_BASE_URL=https://api.longcat.chat/anthropicexport ANTHROPIC_AUTH_TOKEN=<YOUR_API_KEY>claude --dangerously-skip-permissions --model LongCat-Flash-Chat
实测案例
我先是让 Claude Code 用龙猫模型给自己写了个新模型的介绍页面:

结果如下:

称得上是信息全面,非常满足要求了。
如果你好奇龙猫怎么没用那充满AI 味的蓝紫渐变色,那就仔细看一下我的prompt
然后,我又给 LongCat-Flash-Thinking 祭出了那道会让无数号称 SOTA 模型跌倒的数学题:
我有 70 块钱,我借给小明五十块钱,他又用这五十块在我这里买了五十块钱的水果。第二天我借给小明 30 块钱,小明用这 30 块钱买了 30 块钱的牛奶,小明还欠我多少钱?
上次的非思考模型就在这里摔倒了(多次重试偶尔也能回答正确)。
开启思考模式的 LongCat-Flash-Thinking 在接到指令后,开始了飞速思考:

最后,给出了正确答案:
小明总共欠您 80 元。
计算过程:
第一次借款:您借给小明 50 元 → 欠款 +50 元
第二次借款:您借给小明 30 元 → 欠款 +30 元
小明用借来的钱购买水果和牛奶属于消费行为,不影响债务总额
累计欠款 = 50 + 30 = 80 元
简直又快又稳,有点美团外卖的那感觉了。
部署方案
美团提供了多种部署方式,已经在 SGLang 和 vLLM 中实现了基本适配。
聊天模板配置
第一轮对话的前缀格式:
ounter(lineounter(lineounter(lineounter(lineounter(line# 基本格式"[Round 0] USER:{query} /think_on ASSISTANT:"# 带系统提示词"SYSTEM:{system_prompt} [Round 0] USER:{query} /think_on ASSISTANT:"
多轮对话格式:
ounter(lineounter(lineounter(line"SYSTEM:{system_prompt} [Round 0] USER:{query} /think_on ASSISTANT:{response}... [Round N-1] USER:{query} /think_on ASSISTANT:{response} [Round N] USER:{query} /think_on ASSISTANT:"
数学推理优化
处理数学问题时,建议使用特定的指令:
ounter(lineounter(line"[Round 0] USER:{problem}Please reason step by step, and put your final answer within \boxed{}. /think_on ASSISTANT:"
形式推理支持
支持自动定理证明(ATP)等形式推理任务:
ounter(lineounter(lineounter(lineounter(line"[Round 0] USER:Think about and solve the following problem step by step in Lean 4.# Problem:{problem}# Formal statement:{formal_statement} /think_on ASSISTANT:"
美团的 AI 之路
美团在 AI 赛道上同样保持着靠谱扎实肯干的作风,并结合美团生态场景和数据,逐渐做出了一个又快又会「干活」的模型。
整体看来,美团此次的开源模型虽还不是全面 SOTA,但初次见面,便已令人印象深刻。
而这家拥有两个「AI」的「WAIMAI」公司,AI 显然并不只是个噱头,而是正在基于底层自研模型来构建上层的超级应用。
最近推出的小美,我用来下 虽然 仍不够完善,但显然已经是一个很好尝试,迈出了一大步。

而美团的业务场景对 AI 有着极高的要求,外卖配送、酒店预订、旅游推荐、价格策略等等,无一不是与民生息息相关的服务,容不得半点差池。

美团想要做大做强,自然离不开 AI。
懂业务,从业务中生长,是美团 AI 的基本要求,也是最高要求,才能做到从生活出发,解决好真实问题。
这事,还真得美团自己来。
[1]
模型下载: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/88.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论