智谱全系列开源推理性能比肩最先进水平Zai域名同步上线
刚刚,智谱把最新的GLM全系列模型,开源了!
又是大搞深夜炸弹啊!
毕竟OpenAI、谷歌都抱紧模型不撒手
这边智谱直接就把9B 和 32B 两种尺寸的模型,包括 基座模型、推理模型和沉思模型 全开源了,具体信息如下:

关键是,这次开源用的还是「 MIT License 」
完全不限制商用,无需申请授权!
比某些国际大厂那种「 开源但有限商用 」
简直良心到不像国内大厂了好吧?
先来看个例子热热身(使用非推理模型):

可以看到, 智谱在SVG 的生成上稳如老狗—— 线不断、字不乱、也不互相遮挡(Claude 3.7经常犯的错)!

而且,它的artifacts 还可以很方便的左右拖动和缩放,比claude 的体验要也是好得简直不要太多!
这次智谱的发布,我看下来
主要是要抓好三个重点:
一是 高质量模型全面开源;
二是 API服务速度和价格双双突破天际;
三是 顶级域名「z.ai」正式上线全球免费体验!
32B吊打671B
说到这次开源的核心亮点,必须先说GLM-Z1-32B-0414 推理模型!
这模型只有32B参数,但性能竟能比肩DeepSeek-R1的671B庞然大物!
这相当于小汽车马力超越大卡车了啊!
在AIME 24/25、LiveCodeBench等各种专业基准测试上, GLM-Z1-32B-0414 都展现了变态的数理推理能力。
这靠的可不是蛮力,而是智谱团队在强化学习应用到预训练模型上的独门绝技!
技术细节上,我看智谱优化了GQA相关参数,把长思考对KV Cache显存的压力降下来了,这样在不影响性能的情况下,推理速度和并发量都上去了。
GLM-4-32B-0414 进一步提升了代码生成能力,可处理并生成结构更复杂的单文件代码。 Z.ai 的对话模式内建了预览功能,支持对生成的 HTML 和 SVG 进行可视化查看,便于用户评估生成结果和进行迭代优化。
除了32B, 智谱还 开源了9B尺寸的模型。
可以说GLM-Z1-9B-0414 是一个惊喜, 智谱沿用了上述一系列技术,训练了一个 9B 的小尺寸模型。

虽然参数量更少,GLM-Z1-9B-0414 在数学推理及通用任务上依然表现出色,整体性能已跻身同尺寸开源模型的领先水平。
特别是在资源受限的场景下,该模型可以很好地在效率与效果之间取得平衡,为需要轻量化部署的用户提供强有力的选择。
而基座模型 GLM-4-Air-250414 也是黑科技满满,同样以32B参数量就能比肩更大参数量的主流模型。
它在预训练阶段加了更多代码和推理数据,对智能体能力也做了特别优化,所以在工具调用、联网搜索和代码生成上特别在行。
只需一句话:

就能 轻松为我给出多年以来一直想做的APP 原型:

尤其是它的artifacts 功能可以在对话过程中实时展示生成代码的能力,支持HTML、CSS、JS和SVG 等语言,一键就能在对话窗口看代码运行结果,这体验简直不要太爽!
速度天花板,价格砸地板
速度,是这次模型差异化的最大亮点!
GLM-Z1-AirX(极速版)是目前国内最快的推理模型,优化了量化、投机采样技术,推理框架和调度平台也一并升级,最高推理速度能达到200tokens/秒,比其他推理模型足足快了8倍!

这基本上就是你想到哪儿,它写到哪儿,毫无卡顿的感觉。
能想象是什么概念吗?
大概就是智谱一秒钟,你打字三分钟!
你可能会想:速度这么快,岂不是很贵啊?!
但其实在价格方面更是降维打击:
GLM-Z1-Air(高性价比版)的价格居然只有DeepSeek-R1的1/30!

具体定价是这样的:
GLM-Z1-Air(速度约50tps):0.5元/M
GLM-Z1-AirX(速度100-200+tps):5元/M
而更让友商绝望的是,GLM-Z1-Flash(免费版)直接变成了国内唯一可免费调用的推理模型。
这操作属实是: 速度天花板,价格砸地板啊!

真的又快又好!
这种高速推理能力相比于普通的模型,就好比人家全马已经跑完且拉伸都结束了,而 你迷你马拉松还没跑完啊!
一站式AI盛宴
老实说,最近出差太忙了,虽然看了下开源部署很简单(有卡就行),但我实在腾不出时间去配置环境了。
(有条件的,可自行部署后评论区分享
我就只能先通过在线平台体验了几把新模型的能力,感受一句话来说就是:
极为惊艳!

体验这些模型主要有三种途径:
登录「z.ai」这个顶级域名的网站,就能免费跟最新的GLM模型聊天。目前z.ai集合了沉思模型、推理模型和对话模型,是体验智谱最新成果的快捷方式。
智谱MaaS开放平台(bigmodel.cn)上线了GLM-4-Air-250414、GLM-Z1-AirX、GLM-Z1-Air和GLM-Z1-Flash等模型,为开发者提供API服务。解析响应的时候要记得推理内容放在了 <think> </think> 标签中哦。
自己部署开源模型:这至少至少1张H100/A100或4张4090/5090/3090显卡。有这配置的大佬请随意
特别想说的是,沉思模型GLM-Z1-Rumination真的代表了智谱对AGI未来的思考。
这与普通推理模型的区别,就像博士生和硕士生的区别——
它能回答那些开放性、不确定性的问题,通过反复思考、搜集资料、与环境交互来给出深度分析。
开源江湖新巨头
智谱这波操作属实是惊翻海内外一众友商!
一是 32B参数量就能打平国际顶尖水平;
二是 推理速度创下国内新纪录,最高200tokens/秒;
三是 MIT协议全开源,不限商用。
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/215.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论