从今天起开源前五全是中国大模型
开源 AI 的天下,变了!
去年 7 月, LMArena 开源模型榜单上,前四名都还是清一色的美企 : Google 、 Nvidia 、 Meta 、 Cohere 。
而仅仅短短一年后的今天,形势就已彻底反转。

现在的前五, 全都被中国大模型占领 :
智谱的 Z.ai 拿下榜首, 阿里巴巴 紧随其后, DeepSeek 位列第三, Moonshot AI (kimi 母公司)和 美团 AI 分列四五。

这里多说一嘴 这个 LMArena:
LMArena 可以说是目前 AI 业内公认最为权威的模型评测平台 ,由伯克利研究团队运营。
它的独特之处在于采用 盲测机制 ,也就是让用户在完全不知道模型身份的情况下,对比两个 AI 的回答质量,然后投票选出更好的那个。
这种方式可以完全避免品牌偏见和打钱营销的噱头干扰,因为 没有预设立场,没有刷榜空间,全是靠真实的用户在拿到模型结果后,用结果来说话 。
也是因为如此,LMArena 的排名被业界视为 AI 模型实力评估的 金标准 。OpenAI、Anthropic、Google 等几乎所有 AI 模型厂商都会密切关注自家模型在榜单上的表现。
值得一提的是,此前出爆被 LlaMa 4 在小扎 KPI 的 push 下 钻了漏洞后, LMArena 也是及时采取了多项改进措施,比如 提交的模型必须与公开版本一致 、 公开了对战记录 供公众审查等等。
虽不能说绝对意义上的 0 水分,但可以说 LMArena 是目前可信度最高的评测平台 之一 了。
当然,说之一而不是唯一,是因为还有另一个同样较为可靠的榜单: OpenRouter 的模型使用榜单 (由开发者真刀真枪花钱来用的排行榜,也是 Andrew Karpathy 力荐的榜单):

榜单中除了Kimi, GLM-4.6 、 美团龙猫 、 DeepSeek V3.2 Exp 、 Qwen 3 也都纷纷现身 trending 榜首(Claude Sonnet 4.5 为闭源模型),也基本与 LMArena 排名一致。
以及,还可以看 HuggingFace 的 Trending 榜:

智谱登顶
先来说说在这场开源逆袭中最为惊艳、且目前排在榜首的智谱的 GLM-4.6 模型。
GLM-4.6 是智谱在国庆期间发布的最新旗舰模型,整体性能上超越了在其前一天发布的 DeepSeek-V3.2-Exp,并无限对齐 Claude Sonnet 4,甚至在部分指标上超过了 Claude Sonnet 4.5, 见: GLM-4.6 来了,与 Claude 4.5 仅差一点点
4.5 和 4.6 本来也就,只差 0.1 点点
要知道,Claude 4.5 可是目前闭源模型的天花板啊!
而同时,GLM-4.6 也一举成为了国内最好的 Coding 模型,受到全球网友和开发者们的追捧:


就单说我的 Claude CodeX 编程交流群里,国庆以来 GLM-4.6 的讨论也显然密集了许多,现在也几乎成了每天都躲不掉的话题:

先前各种想办法去用中转站的朋友们,不少都转向了 GLM-4.6 的订阅包,从大家的反馈上 基本都是:「 GLM-4.6 已经无限接近 Claude 4.5 了。 」
而在另一边打助攻的,则是 Claude Code 在降智后开始不断缩水 用量 ,以及原本还能一战的 OpenAI Codex 也像是因为 SORA 2 太烧 GPU 而间歇性 降智,相比而言智谱的包月套餐简直是 朴实的奢华、大雪中送炭了。
从套餐价格及模型能力上看,可以说: 现在我们可以用 1/7 的价格,买到 Claude Sonnet 4 / 4.5 九成的智商。
不得不说,价格方面咱中国公司是真的给卷到地板价了,有点离谱: Claude Max 一个月的钱,几乎快能够我订阅 GLM Max 一整年……
而说到模型订阅,我自己一直都是 Claude Code 的 200$ Max 会员 + ChatGPT 20$ 的 plus 会员,但由于最近这两坑货的各种迷惑行为,我也果断开了个 GLM 会员。

我最近的日常使用上,重要任务(比如需要持续迭代的大项目)还是会优先官方 Claude Code(毕竟确实还是略强一点,且我花了那么多的钱),刁钻一些难解决的 bug 则会尝试用 Codex(不都好使,但偶有奇效),而其他写个小脚本啥的任务我则几乎都切到 cc + GLM-4.6 了。
毕竟时代变了,那个对 Max 账号不限速的Claude Code 已经回不去了……而 GLM-4.6 也是这么又顶又便宜。
中国军团崛起
除了占据开源榜首的智谱外,阿里巴巴的 Qwen 则稳居 开源模型 第二, 《华盛顿邮报》 的分析指出,智谱、阿里等中国公司的开源模型在 LMArena 盲测中的评分已经大幅超过了 OpenAI 和 Meta。

分析指出,中国模型公司 DeepSeek 在今年 1 月震撼了整个全球科技界:在 Hugging Face 平台上,DeepSeek 获得了 12.8k 个赞 ,是 Meta Llama 顶级模型(6.3k)的两倍,OpenAI 只排在第五位(4.0k)。
Moonshot AI 和美团 AI 则紧随其后也上了榜,在美国网友们看来则是: 连家排名第五的外卖公司都打不过 。
Hugging Face 首席政策官 Irene Solaiman 评价说,中国公司 「发布频繁,质量优秀」 ,这正是建立用户基础的关键。
免费的降维打击
Rushabh Shah(@Rushabh_Shah777) 指出:
中国人正在构建最受欢迎的免费 AI,而大多数西方 AI 工具都在向你收费。创新不会等待监管、利润或炒作。免费访问 ≠ 免费质量。但中国刚刚证明了它可以两者兼得。

pirate philosophy(@essenciverse) 则分析称:
你不觉得吗,中国只是想通过开源将 AI 成本降到「零」,然后在机器人/能源上作为下一个有价值的东西进行资本化?
这或许,也正是中国 AI 策略的关键之处:
通过开源和低价,快速占领市场,培养用户习惯,然后在应用层面收割价值。
就像 Google 的 Android 系统一样,通过免费开源占领了全球智能手机市场,然后通过搜索、邮件等服务获利。

而此时,中国的 AI 公司正在疯狂复制这个成功模式。

甚至,不仅仅是文本,图像和视频也在遵循同样的趋势。
Solaiman 指出,中国竞争对手不仅更加高产,在其他用途的 AI 方面也极具竞争力, 发布了生成图像和视频的最先进开源软件 。
而美国自己,也意识到了这个问题。

Trump 政府的 AI 战略敦促开发基于「 美国价值观 」的开放 AI 技术,希望它们成为具有「 地缘战略价值 」的全球标准。

一些美国高管、投资者和学者甚至发起了 ATOM 项目 (American Truly Open Models),目标是创建一个美国 AI 实验室,开发能与世界最佳模型竞争的开源 AI。
但是呢,现实很骨感。
Meta 的 Zuckerberg 去年还在高喊要分享最好的模型和研究,今年不知咋想的就又改口了:公司需要「 谨慎选择开源什么 」,Meta 可能会把下一个模型留给自己,甚至 LeCun 的论文都不能随便发了得先过一下内审。
虽然 Anthropic 的 Claude 4.5、OpenAI 的 GPT-5、Google 的 Gemini 2.5 Pro 等最强的闭源模型仍然掌握在美国手中,但中国开源模型正在 无限接近 这个天花板。
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/72.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论