KimiK2Thinking最强思考模型附实测

能最终找到真相的, 往往不是沉思者,而是探索者。

昨晚 , Moonshot AI 宣布发布 Kimi K2 Thinking:

KimiK2Thinking最强思考模型附实测-2

早前的思考模型,就像关在黑屋子里的哲学家,无论思考多深刻、推理多严密,都无法知道屋外正在发生什么。这种「思考」在本质上,我愿称之为 内耗型思考 ——在自己的认知边界内反复推演,却无法突破信息的牢笼。

不同于传统的 内耗 型推理模型,K2 Thinking 实现了 真正的边思考边行动 :它能连续执行 200-300 轮工具调用,一边推理一边搜索,一边编程一边验证。

真相不在脑海里,在大千世界之中。

来,上展示!这是一道博士级别的数学题 :

KimiK2Thinking最强思考模型附实测-3

K2 Thinking 模型通过 23 次交替的推理和工具调用, 最终,给出了正确答案。

更重要的是: 这是目前最强的开源思考模型 。

超越 GPT-5

KimiK2Thinking最强思考模型附实测-4

在人类最后的考试(HLE)上,K2 Thinking 拿下 44.9% 的成绩,超越 GPT-5 的 41.7%。

BrowseComp 达到 60.2% ,领先 GPT-5 的 54.9%,更是把 Claude Sonnet 4.5 (Thinking) 的 24.1% 远远甩在身后。

在 BrowseComp 中,人类平均只能达到 29.2%。K2 Thinking 的 60.2% 意味着,它在复杂信息搜索和推理上 已经远超人类水平 。

在 Seal-0(真实世界信息收集)上,K2 Thinking 以 56.3% 的成绩同样领先 GPT-5 的 51.4% 和 Claude 的 53.4%。

编程能力同样出色:SWE-Multilingual 上达到 61.1% ,超过 GPT-5 的 55.3%;LiveCodeBench V6 的 83.1% 更是大幅领先 Claude 的 64.0%。

这是开源模型首次,在多个关键指标上全面超越闭源巨头。

注意:不只是开源SOTA、国产SOTA,而是在 HLE、BrowseComp 等榜单全面超过闭源顶级模型 GPT-5 和 Claude Sonnet 4.5,即是世界级的SOTA。

真正的首次,开源领先闭源! (……字的颜色快不够用了

唯一不足是……

如果非要说 K2 Thinking 模型有什么不足,那就是, 背后的公司估值严重不足…… KimiK2Thinking最强思考模型附实测-5

KimiK2Thinking最强思考模型附实测-6

来看几个数据:

训练成本约 460 万美元 。 据 CNBC 报道的消息人士,Kimi K2 Thinking 训练开销约 $4.6M (约合 460 万美元)。在“能边思考边行动”的前沿模型里,这个数字,显然过于“朴素”,让老外贱笑了(见 CNBC)。

KimiK2Thinking最强思考模型附实测-7

体量对比(估值) : Moonshot 的最新公开估值约 33 亿美元 ;而 OpenAI 约 5000 亿美元 、 Anthropic 约 1830 亿美元 。粗算下来,Moonshot 估值不到 OpenAI 的 1%,也仅为 Anthropic 的 ~1.8% 左右。

一句话说: 小体量 + 低预算 ,在高难基准上掰倒了闭源高估值巨头。

是 OpenAI 和 Anthropic 泡沫太高,还是 Moonshot 估值严重不足呢?这个,就得你自行判断了……

海外开发者再次沸腾

看到 K2 Thinking 模型的发布,全球网友都彻底按捺不住了,纷纷留言点赞。

KimiK2Thinking最强思考模型附实测-8

Rohan paul ( @Rohanpaul_ai ) 表示:

世界上最强大的代理模型现已开源

注意:说的不是开源中最强的模型,而是说最强的模型开源了!

KimiK2Thinking最强思考模型附实测-9

Muratcan Koylan(@deedydas) 称 Kimi 此次可谓是直接封神:

K2 Thinking 模型能完成几乎不可能完成的任务。

KimiK2Thinking最强思考模型附实测-10

硅谷著名投资人 Deedy 也发文指出:

今天是人工智能的转折点:中国开源模型排名第一。

KimiK2Thinking最强思考模型附实测-11

其他也是一边倒的网友点赞,请一色好评:

KimiK2Thinking最强思考模型附实测-12

KimiK2Thinking最强思考模型附实测-13

甚至就连友商智谱也大方前来送上祝福:

KimiK2Thinking最强思考模型附实测-14

会思考的 Agent 架构

K2 Thinking 最大的突破在于「测试时扩展」(Test-Time Scaling)——不仅扩展思考 Token,还扩展工具调用轮次。

模型采用 混合专家架构(MoE) :

总参数: 1T

激活参数: 32B

层数:61 层(含 1 层密集层)

注意力隐藏维度:7168

专家数量:384 个

每个 Token 选择 8 个专家

上下文窗口: 256K

注意力机制:MLA

激活函数:SwiGLU

词汇表大小:160K

这种架构让它能在解决问题的过程中不断思考和调整策略。并通过 可多达数百次的交替的推理和工具调用 最终解出答案。

比人类更会搜索

在 BrowseComp 测试中,K2 Thinking 展现了什么叫「刨根问底」。

通过「思考 → 搜索 → 浏览 → 思考 → 编程」的动态循环,K2 Thinking 能持续提出假设、验证证据、推理分析,最终构建出逻辑一致的答案。

KimiK2Thinking最强思考模型附实测-15

当工具执行结果导致输入超过上下文限制时,模型会智能地隐藏之前的工具输出,继续保持推理的连贯性。

而 256K 的上下文窗口 ,则让它能处理海量信息而不会遗忘关键细节。

原生 INT4 量化

K2 Thinking 采用量化感知训练(QAT),在后训练阶段对 MoE 组件应用 INT4 权重量化。

这带来了约 2 倍的生成速度提升 ,同时保持了 SOTA 性能。

所有的基准测试成绩都是在 INT4 精度下取得的,也就是说你不需要顶级硬件也能运行这个强大的模型。

INT4 对推理硬件的兼容性更强, 对国产加速计算芯片也更加友好 。

部署使用

部署示例代码:

简单对话:

def simple_chat(client: openai.OpenAI, model_name: str):    messages = [        {"role": "system", "content": "You are Kimi, an AI assistant created by Moonshot AI."},        {"role": "user", "content": [{"type": "text", "text": "which one is bigger, 9.11 or 9.9? think carefully."}]},    ]    response = client.chat.completions.create(        model=model_name,        messages=messages,        stream=False,        temperature=1.0,  # 推荐温度设置        max_tokens=4096    )    print(f"k2 answer: {response.choices[0].message.content}")    print("=====below is reasoning content======")    print(f"reasoning content: {response.choices[0].message.reasoning_content}")

工具调用示例:

# 工具实现def get_weather(city: str) -> dict:    return {"weather": "Sunny"}# 工具定义tools = [{    "type": "function",    "function": {        "name": "get_weather",        "description": "Retrieve current weather information.",        "parameters": {            "type": "object",            "required": ["city"],            "properties": {                "city": {"type": "string", "description": "Name of the city"}            }        }    }}]# 执行工具调用def tool_call_with_client(client: OpenAI, model_name: str):    messages = [        {"role": "system", "content": "You are Kimi, an AI assistant created by Moonshot AI."},        {"role": "user", "content": "What's the weather like in Beijing today?"}    ]    completion = client.chat.completions.create(        model=model_name,        messages=messages,        temperature=1.0,        tools=tools,        tool_choice="auto"    )    # 处理工具调用结果...

部署方式:

vLLM

SGLang

KTransformers

API 访问:

platform.moonshot.ai(OpenAI/Anthropic 兼容接口,除了 Kimi Cli,Claude Code, Codex 都可以接起来了)

输入:4 元/百万 Token

输出:16 元/百万 Token

Turbo API:100 Token/s,输入 8 元/百万 Token

KimiK2Thinking最强思考模型附实测-16

开源许可证上,模型采用的是 Modified MIT License,即代码和模型权重都可以自由使用和修改。

实测

评分这么高,说了这么多,网友也赞了这么多, 最后还是得看实操。 我也用 K2 Thinking 和最强模型做了些对比测试。

先说一下用到的工具,这里有意思的是,Anthropic 和 Moonshot 目前都推出了命令行工具,我也就让他们各自用自家的的家伙来干活:Claude Code + Sonnet 4.5 vs Kimi Cli + K2 Thinking.

KimiK2Thinking最强思考模型附实测-17

KimiK2Thinking最强思考模型附实测-18

实测一:谁更懂 Three.js?

我先让 K2 Thinking 和 Claude 来一场硬核较量,我准备了两个 Three.js 挑战,看看谁能输出更优雅的代码。

第一轮: 3D 水族箱挑战 🐠

这是一个略有难度 的需求,prompt 如下:

实现一个写实风格的 3D 水族箱,要求有三种不同 AI 行为的鱼群、真实的水体光照、焦散效果、投食互动……

Claude 输出效果:

KimiK2Thinking最强思考模型附实测-19

Kimi输出效果:

KimiK2Thinking最强思考模型附实测-20

从结果来看——

Claude Code:代码结构清晰,注释详细,但鱼好像不太想受浴缸的限制,开始了皆若空游无所依的跳动式逃离。

如果通过进一步的提示词约束,应该能效果更好。

而 Kimi CLI (K2 Thinking) 的完成过程确实如官方所言:

一边写代码一边搜索 Three.js 文档,一边检查错误,最后输出的赛博鱼群看起来也比较自然。

KimiK2Thinking最强思考模型附实测-21

第二轮: 语义空间可视化 🧠

这一轮的挑战就更有些抽象了,需要让“大语言模型的高维语义向量空间”以人类可感知的形式出现。要求模型生成一个可交互的 3D 语义空间可视化 :

展示词语在三维空间中的分布与聚类;

点击节点后自动连线至最相似的若干词;

支持“第一人称视角”在词云中穿梭浏览;

这一任务的难点在于它是一个 复合型挑战 ,同时考验模型在多个层面的理解与生成能力:

语义层理解 : 模型需要准确把握“向量空间”与“相似度”的抽象概念,理解词语间关系的高维本质。

空间映射推理 : 将高维嵌入压缩至 3D 坐标的同时,保持语义邻近性与分布合理性,需要模型具备一定的数学与几何直觉。

可视化生成与代码推理 : 涉及 Three.js 的场景搭建、事件监听、动态渲染与物理交互逻辑,是对模型前端工程化理解的综合考验。

Claude 输出效果:

KimiK2Thinking最强思考模型附实测-22

kimi 输出效果:

KimiK2Thinking最强思考模型附实测-23

这轮的表现:

Claude Code 一次性生成了完整代码,逻辑严谨,确实可以直接拿来做课堂教学了,和上课一样有些无聊。

Kimi CLI (K2 Thinking) 则又一次通过多轮推理,先是实现了基础功能,然后又在迭代中自主地加了个粒子尾迹效果,但从视觉效果来看,倒是确实挺酷炫的

KimiK2Thinking最强思考模型附实测-24

对比下来,两个工具各有千秋:

Claude Code 就像个经验丰富的 E 人老司机,代码高效,该有的都有,稳得一批。适合需要快速出活,大开大阖的场景。

Kimi K2 Thinking 则更像个细腻的 I 人程序员校招生,会不停地思考“还能怎么优化”,虽然慢了点,但最终效果经常让你惊喜——它真的会去查文档、测试边界情况,甚至主动考虑性能优化。

而值得一提的是,K2 在生成水族箱代码时,竟然还考虑到了“鱼吃饱了会游得慢一点”这样的细节(我都没要求!)。

KimiK2Thinking最强思考模型附实测-25

上面的完整的对比实验代码、提示词、运行效果,我都整理好了,有兴趣的朋友可以体验下:

GitHub 仓库链接:

https://github.com/qwwzdyj/VectorSpace-Explorer

并且我也扔到 yourware 上部署了可以直接看 (对我而言,youware 可能唯一有点用的地方了) :

向量:

https://youware.app/project/jda4kdg1q5

https://youware.app/project/vs2u3dlgu2

水族馆:

https://youware.app/project/14cek9gtc6

https://youware.app/project/wmsbniei65

我决定

测完,我决定:

是时候退掉 Claude 200 美元的 Max 会员了!

KimiK2Thinking最强思考模型附实测-26

当然,还会是保留个 100$ 的,我自然得是 全都要!

让 Claude 快速出原型,用 Kimi K2 Thinking 做深度优化,再结合 Codex 补补漏,多个    工具配合使用,三个臭皮匠都能抵一个诸葛亮,而有这三在手,我有种将要天下无敌的错觉 KimiK2Thinking最强思考模型附实测-27

唯一让我担心的是,如果我想用 Kimi 来花掉从 Claude 这里省下来的 100$,是不是要没时间睡觉了……

[1]

技术博客: https://moonshotai.github.io/Kimi-K2/thinking.html

[2]

API 平台: https://platform.moonshot.ai/

[3]

Hugging Face: https://huggingface.co/moonshotai

[4]

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/61.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>