KimiK2Thinking最强思考模型附实测
能最终找到真相的, 往往不是沉思者,而是探索者。
昨晚 , Moonshot AI 宣布发布 Kimi K2 Thinking:
早前的思考模型,就像关在黑屋子里的哲学家,无论思考多深刻、推理多严密,都无法知道屋外正在发生什么。这种「思考」在本质上,我愿称之为 内耗型思考 ——在自己的认知边界内反复推演,却无法突破信息的牢笼。
不同于传统的 内耗 型推理模型,K2 Thinking 实现了 真正的边思考边行动 :它能连续执行 200-300 轮工具调用,一边推理一边搜索,一边编程一边验证。
真相不在脑海里,在大千世界之中。
来,上展示!这是一道博士级别的数学题 :

K2 Thinking 模型通过 23 次交替的推理和工具调用, 最终,给出了正确答案。
更重要的是: 这是目前最强的开源思考模型 。
超越 GPT-5
在人类最后的考试(HLE)上,K2 Thinking 拿下 44.9% 的成绩,超越 GPT-5 的 41.7%。
BrowseComp 达到 60.2% ,领先 GPT-5 的 54.9%,更是把 Claude Sonnet 4.5 (Thinking) 的 24.1% 远远甩在身后。
在 BrowseComp 中,人类平均只能达到 29.2%。K2 Thinking 的 60.2% 意味着,它在复杂信息搜索和推理上 已经远超人类水平 。
在 Seal-0(真实世界信息收集)上,K2 Thinking 以 56.3% 的成绩同样领先 GPT-5 的 51.4% 和 Claude 的 53.4%。
编程能力同样出色:SWE-Multilingual 上达到 61.1% ,超过 GPT-5 的 55.3%;LiveCodeBench V6 的 83.1% 更是大幅领先 Claude 的 64.0%。
这是开源模型首次,在多个关键指标上全面超越闭源巨头。
注意:不只是开源SOTA、国产SOTA,而是在 HLE、BrowseComp 等榜单全面超过闭源顶级模型 GPT-5 和 Claude Sonnet 4.5,即是世界级的SOTA。
真正的首次,开源领先闭源! (……字的颜色快不够用了
唯一不足是……
如果非要说 K2 Thinking 模型有什么不足,那就是, 背后的公司估值严重不足……

来看几个数据:
训练成本约 460 万美元 。 据 CNBC 报道的消息人士,Kimi K2 Thinking 训练开销约 $4.6M (约合 460 万美元)。在“能边思考边行动”的前沿模型里,这个数字,显然过于“朴素”,让老外贱笑了(见 CNBC)。
体量对比(估值) : Moonshot 的最新公开估值约 33 亿美元 ;而 OpenAI 约 5000 亿美元 、 Anthropic 约 1830 亿美元 。粗算下来,Moonshot 估值不到 OpenAI 的 1%,也仅为 Anthropic 的 ~1.8% 左右。
一句话说: 小体量 + 低预算 ,在高难基准上掰倒了闭源高估值巨头。
是 OpenAI 和 Anthropic 泡沫太高,还是 Moonshot 估值严重不足呢?这个,就得你自行判断了……
海外开发者再次沸腾
看到 K2 Thinking 模型的发布,全球网友都彻底按捺不住了,纷纷留言点赞。

Rohan paul ( @Rohanpaul_ai ) 表示:
世界上最强大的代理模型现已开源
注意:说的不是开源中最强的模型,而是说最强的模型开源了!

Muratcan Koylan(@deedydas) 称 Kimi 此次可谓是直接封神:
K2 Thinking 模型能完成几乎不可能完成的任务。

硅谷著名投资人 Deedy 也发文指出:
今天是人工智能的转折点:中国开源模型排名第一。

其他也是一边倒的网友点赞,请一色好评:


甚至就连友商智谱也大方前来送上祝福:

会思考的 Agent 架构
K2 Thinking 最大的突破在于「测试时扩展」(Test-Time Scaling)——不仅扩展思考 Token,还扩展工具调用轮次。
模型采用 混合专家架构(MoE) :
总参数: 1T
激活参数: 32B
层数:61 层(含 1 层密集层)
注意力隐藏维度:7168
专家数量:384 个
每个 Token 选择 8 个专家
上下文窗口: 256K
注意力机制:MLA
激活函数:SwiGLU
词汇表大小:160K
这种架构让它能在解决问题的过程中不断思考和调整策略。并通过 可多达数百次的交替的推理和工具调用 最终解出答案。
比人类更会搜索
在 BrowseComp 测试中,K2 Thinking 展现了什么叫「刨根问底」。
通过「思考 → 搜索 → 浏览 → 思考 → 编程」的动态循环,K2 Thinking 能持续提出假设、验证证据、推理分析,最终构建出逻辑一致的答案。

当工具执行结果导致输入超过上下文限制时,模型会智能地隐藏之前的工具输出,继续保持推理的连贯性。
而 256K 的上下文窗口 ,则让它能处理海量信息而不会遗忘关键细节。
原生 INT4 量化
K2 Thinking 采用量化感知训练(QAT),在后训练阶段对 MoE 组件应用 INT4 权重量化。
这带来了约 2 倍的生成速度提升 ,同时保持了 SOTA 性能。
所有的基准测试成绩都是在 INT4 精度下取得的,也就是说你不需要顶级硬件也能运行这个强大的模型。
INT4 对推理硬件的兼容性更强, 对国产加速计算芯片也更加友好 。
部署使用
部署示例代码:
简单对话:
def simple_chat(client: openai.OpenAI, model_name: str): messages = [ {"role": "system", "content": "You are Kimi, an AI assistant created by Moonshot AI."}, {"role": "user", "content": [{"type": "text", "text": "which one is bigger, 9.11 or 9.9? think carefully."}]}, ] response = client.chat.completions.create( model=model_name, messages=messages, stream=False, temperature=1.0, # 推荐温度设置 max_tokens=4096 ) print(f"k2 answer: {response.choices[0].message.content}") print("=====below is reasoning content======") print(f"reasoning content: {response.choices[0].message.reasoning_content}")
工具调用示例:
# 工具实现def get_weather(city: str) -> dict: return {"weather": "Sunny"}# 工具定义tools = [{ "type": "function", "function": { "name": "get_weather", "description": "Retrieve current weather information.", "parameters": { "type": "object", "required": ["city"], "properties": { "city": {"type": "string", "description": "Name of the city"} } } }}]# 执行工具调用def tool_call_with_client(client: OpenAI, model_name: str): messages = [ {"role": "system", "content": "You are Kimi, an AI assistant created by Moonshot AI."}, {"role": "user", "content": "What's the weather like in Beijing today?"} ] completion = client.chat.completions.create( model=model_name, messages=messages, temperature=1.0, tools=tools, tool_choice="auto" ) # 处理工具调用结果...
部署方式:
vLLM
SGLang
KTransformers
API 访问:
platform.moonshot.ai(OpenAI/Anthropic 兼容接口,除了 Kimi Cli,Claude Code, Codex 都可以接起来了)
输入:4 元/百万 Token
输出:16 元/百万 Token
Turbo API:100 Token/s,输入 8 元/百万 Token
开源许可证上,模型采用的是 Modified MIT License,即代码和模型权重都可以自由使用和修改。
实测
评分这么高,说了这么多,网友也赞了这么多, 最后还是得看实操。 我也用 K2 Thinking 和最强模型做了些对比测试。
先说一下用到的工具,这里有意思的是,Anthropic 和 Moonshot 目前都推出了命令行工具,我也就让他们各自用自家的的家伙来干活:Claude Code + Sonnet 4.5 vs Kimi Cli + K2 Thinking.


实测一:谁更懂 Three.js?
我先让 K2 Thinking 和 Claude 来一场硬核较量,我准备了两个 Three.js 挑战,看看谁能输出更优雅的代码。
第一轮: 3D 水族箱挑战 🐠
这是一个略有难度 的需求,prompt 如下:
实现一个写实风格的 3D 水族箱,要求有三种不同 AI 行为的鱼群、真实的水体光照、焦散效果、投食互动……
Claude 输出效果:

Kimi输出效果:

从结果来看——
Claude Code:代码结构清晰,注释详细,但鱼好像不太想受浴缸的限制,开始了皆若空游无所依的跳动式逃离。
如果通过进一步的提示词约束,应该能效果更好。
而 Kimi CLI (K2 Thinking) 的完成过程确实如官方所言:
一边写代码一边搜索 Three.js 文档,一边检查错误,最后输出的赛博鱼群看起来也比较自然。

第二轮: 语义空间可视化 🧠
这一轮的挑战就更有些抽象了,需要让“大语言模型的高维语义向量空间”以人类可感知的形式出现。要求模型生成一个可交互的 3D 语义空间可视化 :
展示词语在三维空间中的分布与聚类;
点击节点后自动连线至最相似的若干词;
支持“第一人称视角”在词云中穿梭浏览;
这一任务的难点在于它是一个 复合型挑战 ,同时考验模型在多个层面的理解与生成能力:
语义层理解 : 模型需要准确把握“向量空间”与“相似度”的抽象概念,理解词语间关系的高维本质。
空间映射推理 : 将高维嵌入压缩至 3D 坐标的同时,保持语义邻近性与分布合理性,需要模型具备一定的数学与几何直觉。
可视化生成与代码推理 : 涉及 Three.js 的场景搭建、事件监听、动态渲染与物理交互逻辑,是对模型前端工程化理解的综合考验。
Claude 输出效果:

kimi 输出效果:

这轮的表现:
Claude Code 一次性生成了完整代码,逻辑严谨,确实可以直接拿来做课堂教学了,和上课一样有些无聊。
Kimi CLI (K2 Thinking) 则又一次通过多轮推理,先是实现了基础功能,然后又在迭代中自主地加了个粒子尾迹效果,但从视觉效果来看,倒是确实挺酷炫的
对比下来,两个工具各有千秋:
Claude Code 就像个经验丰富的 E 人老司机,代码高效,该有的都有,稳得一批。适合需要快速出活,大开大阖的场景。
Kimi K2 Thinking 则更像个细腻的 I 人程序员校招生,会不停地思考“还能怎么优化”,虽然慢了点,但最终效果经常让你惊喜——它真的会去查文档、测试边界情况,甚至主动考虑性能优化。
而值得一提的是,K2 在生成水族箱代码时,竟然还考虑到了“鱼吃饱了会游得慢一点”这样的细节(我都没要求!)。

上面的完整的对比实验代码、提示词、运行效果,我都整理好了,有兴趣的朋友可以体验下:
GitHub 仓库链接:
https://github.com/qwwzdyj/VectorSpace-Explorer
并且我也扔到 yourware 上部署了可以直接看 (对我而言,youware 可能唯一有点用的地方了) :
向量:
https://youware.app/project/jda4kdg1q5
https://youware.app/project/vs2u3dlgu2
水族馆:
https://youware.app/project/14cek9gtc6
https://youware.app/project/wmsbniei65
我决定
测完,我决定:
是时候退掉 Claude 200 美元的 Max 会员了!

当然,还会是保留个 100$ 的,我自然得是 全都要!
让 Claude 快速出原型,用 Kimi K2 Thinking 做深度优化,再结合 Codex 补补漏,多个 工具配合使用,三个臭皮匠都能抵一个诸葛亮,而有这三在手,我有种将要天下无敌的错觉
唯一让我担心的是,如果我想用 Kimi 来花掉从 Claude 这里省下来的 100$,是不是要没时间睡觉了……
[1]
技术博客: https://moonshotai.github.io/Kimi-K2/thinking.html
[2]
API 平台: https://platform.moonshot.ai/
[3]
Hugging Face: https://huggingface.co/moonshotai
[4]
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/61.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论