KimiK2Thinking最强思考模型附实测

shadowrocket • 2026年2月14日 am8:01 • shadowrocket, Shadowrocket下载, Shadowrocket官网, Shadowrocket节点, 小火箭

能最终找到真相的，往往不是沉思者，而是探索者。

昨晚， Moonshot AI 宣布发布 Kimi K2 Thinking：

早前的思考模型，就像关在黑屋子里的哲学家，无论思考多深刻、推理多严密，都无法知道屋外正在发生什么。这种「思考」在本质上，我愿称之为内耗型思考 ——在自己的认知边界内反复推演，却无法突破信息的牢笼。

不同于传统的内耗型推理模型，K2 Thinking 实现了真正的边思考边行动：它能连续执行 200-300 轮工具调用，一边推理一边搜索，一边编程一边验证。

真相不在脑海里，在大千世界之中。

来，上展示！这是一道博士级别的数学题：

K2 Thinking 模型通过 23 次交替的推理和工具调用，最终，给出了正确答案。

更重要的是：这是目前最强的开源思考模型。

超越 GPT-5

在人类最后的考试（HLE）上，K2 Thinking 拿下 44.9% 的成绩，超越 GPT-5 的 41.7%。

BrowseComp 达到 60.2% ，领先 GPT-5 的 54.9%，更是把 Claude Sonnet 4.5 (Thinking) 的 24.1% 远远甩在身后。

在 BrowseComp 中，人类平均只能达到 29.2%。K2 Thinking 的 60.2% 意味着，它在复杂信息搜索和推理上已经远超人类水平。

在 Seal-0（真实世界信息收集）上，K2 Thinking 以 56.3% 的成绩同样领先 GPT-5 的 51.4% 和 Claude 的 53.4%。

编程能力同样出色：SWE-Multilingual 上达到 61.1% ，超过 GPT-5 的 55.3%；LiveCodeBench V6 的 83.1% 更是大幅领先 Claude 的 64.0%。

这是开源模型首次，在多个关键指标上全面超越闭源巨头。

注意：不只是开源SOTA、国产SOTA，而是在 HLE、BrowseComp 等榜单全面超过闭源顶级模型 GPT-5 和 Claude Sonnet 4.5，即是世界级的SOTA。

真正的首次，开源领先闭源！（……字的颜色快不够用了

唯一不足是……

如果非要说 K2 Thinking 模型有什么不足，那就是，背后的公司估值严重不足……

来看几个数据：

训练成本约 460 万美元。据 CNBC 报道的消息人士，Kimi K2 Thinking 训练开销约 $4.6M （约合 460 万美元）。在“能边思考边行动”的前沿模型里，这个数字，显然过于“朴素”，让老外贱笑了（见 CNBC）。

体量对比（估值）： Moonshot 的最新公开估值约 33 亿美元；而 OpenAI 约 5000 亿美元、 Anthropic 约 1830 亿美元。粗算下来，Moonshot 估值不到 OpenAI 的 1%，也仅为 Anthropic 的 ~1.8% 左右。

一句话说：小体量 + 低预算，在高难基准上掰倒了闭源高估值巨头。

是 OpenAI 和 Anthropic 泡沫太高，还是 Moonshot 估值严重不足呢？这个，就得你自行判断了……

海外开发者再次沸腾

看到 K2 Thinking 模型的发布，全球网友都彻底按捺不住了，纷纷留言点赞。

Rohan paul ( @Rohanpaul_ai ) 表示：

世界上最强大的代理模型现已开源

注意：说的不是开源中最强的模型，而是说最强的模型开源了！

Muratcan Koylan(@deedydas) 称 Kimi 此次可谓是直接封神：

K2 Thinking 模型能完成几乎不可能完成的任务。

硅谷著名投资人 Deedy 也发文指出：

今天是人工智能的转折点：中国开源模型排名第一。

其他也是一边倒的网友点赞，请一色好评：

甚至就连友商智谱也大方前来送上祝福：

会思考的 Agent 架构

K2 Thinking 最大的突破在于「测试时扩展」（Test-Time Scaling）——不仅扩展思考 Token，还扩展工具调用轮次。

模型采用混合专家架构（MoE）：

总参数： 1T

激活参数： 32B

层数：61 层（含 1 层密集层）

注意力隐藏维度：7168

专家数量：384 个

每个 Token 选择 8 个专家

上下文窗口： 256K

注意力机制：MLA

激活函数：SwiGLU

词汇表大小：160K

这种架构让它能在解决问题的过程中不断思考和调整策略。并通过可多达数百次的交替的推理和工具调用最终解出答案。

比人类更会搜索

在 BrowseComp 测试中，K2 Thinking 展现了什么叫「刨根问底」。

通过「思考 → 搜索 → 浏览 → 思考 → 编程」的动态循环，K2 Thinking 能持续提出假设、验证证据、推理分析，最终构建出逻辑一致的答案。

当工具执行结果导致输入超过上下文限制时，模型会智能地隐藏之前的工具输出，继续保持推理的连贯性。

而 256K 的上下文窗口，则让它能处理海量信息而不会遗忘关键细节。

原生 INT4 量化

K2 Thinking 采用量化感知训练（QAT），在后训练阶段对 MoE 组件应用 INT4 权重量化。

这带来了约 2 倍的生成速度提升，同时保持了 SOTA 性能。

所有的基准测试成绩都是在 INT4 精度下取得的，也就是说你不需要顶级硬件也能运行这个强大的模型。

INT4 对推理硬件的兼容性更强，对国产加速计算芯片也更加友好。

部署使用

部署示例代码：

简单对话：

def simple_chat(client: openai.OpenAI, model_name: str): messages = [ {"role": "system", "content": "You are Kimi, an AI assistant created by Moonshot AI."}, {"role": "user", "content": [{"type": "text", "text": "which one is bigger, 9.11 or 9.9? think carefully."}]}, ] response = client.chat.completions.create( model=model_name, messages=messages, stream=False, temperature=1.0, # 推荐温度设置 max_tokens=4096 ) print(f"k2 answer: {response.choices[0].message.content}") print("=====below is reasoning content======") print(f"reasoning content: {response.choices[0].message.reasoning_content}")

工具调用示例：

# 工具实现def get_weather(city: str) -> dict: return {"weather": "Sunny"}# 工具定义tools = [{ "type": "function", "function": { "name": "get_weather", "description": "Retrieve current weather information.", "parameters": { "type": "object", "required": ["city"], "properties": { "city": {"type": "string", "description": "Name of the city"} } } }}]# 执行工具调用def tool_call_with_client(client: OpenAI, model_name: str): messages = [ {"role": "system", "content": "You are Kimi, an AI assistant created by Moonshot AI."}, {"role": "user", "content": "What's the weather like in Beijing today?"} ] completion = client.chat.completions.create( model=model_name, messages=messages, temperature=1.0, tools=tools, tool_choice="auto" ) # 处理工具调用结果...

部署方式：

vLLM

SGLang

KTransformers

API 访问：

platform.moonshot.ai（OpenAI/Anthropic 兼容接口，除了 Kimi Cli，Claude Code, Codex 都可以接起来了）

输入：4 元/百万 Token

输出：16 元/百万 Token

Turbo API：100 Token/s，输入 8 元/百万 Token

开源许可证上，模型采用的是 Modified MIT License，即代码和模型权重都可以自由使用和修改。

实测

评分这么高，说了这么多，网友也赞了这么多，最后还是得看实操。我也用 K2 Thinking 和最强模型做了些对比测试。

先说一下用到的工具，这里有意思的是，Anthropic 和 Moonshot 目前都推出了命令行工具，我也就让他们各自用自家的的家伙来干活：Claude Code + Sonnet 4.5 vs Kimi Cli + K2 Thinking.

实测一：谁更懂 Three.js？

我先让 K2 Thinking 和 Claude 来一场硬核较量，我准备了两个 Three.js 挑战，看看谁能输出更优雅的代码。

第一轮： 3D 水族箱挑战 🐠

这是一个略有难度的需求，prompt 如下：

实现一个写实风格的 3D 水族箱，要求有三种不同 AI 行为的鱼群、真实的水体光照、焦散效果、投食互动……

Claude 输出效果：

Kimi输出效果：

从结果来看——

Claude Code：代码结构清晰，注释详细，但鱼好像不太想受浴缸的限制，开始了皆若空游无所依的跳动式逃离。

如果通过进一步的提示词约束，应该能效果更好。

而 Kimi CLI (K2 Thinking) 的完成过程确实如官方所言：

一边写代码一边搜索 Three.js 文档，一边检查错误，最后输出的赛博鱼群看起来也比较自然。

第二轮：语义空间可视化 🧠

这一轮的挑战就更有些抽象了，需要让“大语言模型的高维语义向量空间”以人类可感知的形式出现。要求模型生成一个可交互的 3D 语义空间可视化：

展示词语在三维空间中的分布与聚类；

点击节点后自动连线至最相似的若干词；

支持“第一人称视角”在词云中穿梭浏览；

这一任务的难点在于它是一个复合型挑战，同时考验模型在多个层面的理解与生成能力：

语义层理解：模型需要准确把握“向量空间”与“相似度”的抽象概念，理解词语间关系的高维本质。

空间映射推理：将高维嵌入压缩至 3D 坐标的同时，保持语义邻近性与分布合理性，需要模型具备一定的数学与几何直觉。

可视化生成与代码推理：涉及 Three.js 的场景搭建、事件监听、动态渲染与物理交互逻辑，是对模型前端工程化理解的综合考验。

Claude 输出效果：

kimi 输出效果：

这轮的表现：

Claude Code 一次性生成了完整代码，逻辑严谨，确实可以直接拿来做课堂教学了，和上课一样有些无聊。

Kimi CLI (K2 Thinking) 则又一次通过多轮推理，先是实现了基础功能，然后又在迭代中自主地加了个粒子尾迹效果，但从视觉效果来看，倒是确实挺酷炫的

对比下来，两个工具各有千秋：

Claude Code 就像个经验丰富的 E 人老司机，代码高效，该有的都有，稳得一批。适合需要快速出活，大开大阖的场景。

Kimi K2 Thinking 则更像个细腻的 I 人程序员校招生，会不停地思考“还能怎么优化”，虽然慢了点，但最终效果经常让你惊喜——它真的会去查文档、测试边界情况，甚至主动考虑性能优化。

而值得一提的是，K2 在生成水族箱代码时，竟然还考虑到了“鱼吃饱了会游得慢一点”这样的细节（我都没要求！）。

上面的完整的对比实验代码、提示词、运行效果，我都整理好了，有兴趣的朋友可以体验下：

GitHub 仓库链接：

https://github.com/qwwzdyj/VectorSpace-Explorer

并且我也扔到 yourware 上部署了可以直接看（对我而言，youware 可能唯一有点用的地方了）：

向量：

https://youware.app/project/jda4kdg1q5

https://youware.app/project/vs2u3dlgu2

水族馆：

https://youware.app/project/14cek9gtc6

https://youware.app/project/wmsbniei65

我决定

测完，我决定：

是时候退掉 Claude 200 美元的 Max 会员了！

当然，还会是保留个 100$ 的，我自然得是全都要！

让 Claude 快速出原型，用 Kimi K2 Thinking 做深度优化，再结合 Codex 补补漏，多个工具配合使用，三个臭皮匠都能抵一个诸葛亮，而有这三在手，我有种将要天下无敌的错觉

唯一让我担心的是，如果我想用 Kimi 来花掉从 Claude 这里省下来的 100$，是不是要没时间睡觉了……

[1]

技术博客: https://moonshotai.github.io/Kimi-K2/thinking.html

[2]

API 平台: https://platform.moonshot.ai/

[3]

Hugging Face: https://huggingface.co/moonshotai

[4]

版权声明：
作者：shadowrocket
链接：https://www.shadowrocket9.top/61.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

shadowrocket Shadowrocket下载 shadowrocket官网 Shadowrocket节点小火箭

二维码

终于Claude的脑壳子被扒开看了

< <上一篇

Cursor被爆致命隐患YOLO模式正成黑客新宠

下一篇>>

搜索内容

KimiK2Thinking最强思考模型附实测

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

KimiK2Thinking最强思考模型附实测

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点