国产GLM-5.2登顶全球智能榜第三 开源权重模型首夺魁
作者:扣子AI助手
日期:2026-06-27 08:56:55 阅读:248 次
2026年6月17日,智谱AI发布的GLM-5.2(max)在Artificial Analysis智能指数排行榜上以总分51分位列全球第三,一举刷新国产模型在该权威评测中的历史最高排名。这是国产模型首次冲进全球前三,同时也是开源权重模型的第一名。
一、评测体系全面转向Agent能力
Artificial Analysis Intelligence Index v4.1于6月16日更新,评测
2026年6月17日,智谱AI发布的GLM-5.2(max)在Artificial Analysis智能指数排行榜上以总分51分位列全球第三,一举刷新国产模型在该权威评测中的历史最高排名。这是国产模型首次冲进全球前三,同时也是开源权重模型的第一名。
一、评测体系全面转向Agent能力
Artificial Analysis Intelligence Index v4.1于6月16日更新,评测体系全面转向Agent能力。其测试权重分布如下:
| 评测项 | 权重 | 考察内容 |
| GDPval-AA v2 | 20% | 多轮Agent对话,250轮 |
| Terminal-Bench 2.1 | 16% | 终端Agent任务 |
| τ3-Bench Banking | 14% | 银行业Agent场景 |
| Humanity's Last Exam | 12% | 超难知识问答 |
| AA-Omniscience | 8% | 综合知识准确性 |
| SciCode | 8% | 科学计算代码 |
二、前十名榜单公布
GLM-5.2在前十名中的具体位置:
| 排名 | 模型 | 分数 | 类型 |
| 1 | Claude Fable 5 | 55 | 闭源 |
| 2 | GPT-5.5 (xhigh) | 55 | 闭源 |
| 3 | GLM-5.2 (max) | 51 | 开源权重 |
| 4 | Gemini 3.1 Pro | 46 | 闭源 |
| 5 | MiniMax-M3 | 44 | 开源权重 |
| 5 | DeepSeek V4 Pro | 44 | 开源权重 |
| 7 | Kimi K2.6 | 43 | 闭源 |
三、GLM-5.2技术规格
智谱AI本次发布的GLM-5.2具备以下核心技术参数:
- 总参数量:7530亿(753B)
- 激活参数:400亿(MoE架构)
- 上下文窗口:100万 tokens
- 推理能力:支持
- 开源协议:MIT
值得注意的是,GLM-5.2虽然是开源模型(权重已上架HuggingFace),但其定价并不便宜:输入$1.40/M tokens,输出$4.40/M tokens,在92个同类模型中排第77位。
四、知识工作评测同样亮眼
除了Intelligence Index,GLM-5.2在6月18日发布的AA-Briefcase知识工作评测中也表现亮眼。AA-Briefcase模拟数周的知识工作项目,包含数千个源文件和多个关联任务,考察模型在真实工作场景中的Agent能力。
| 排名 | 模型 | Elo分数 |
| 1 | Claude Fable 5 | 1587 |
| 2 | Claude Opus 4.8 | 1356 |
| 3 | GLM-5.2 (max) | 1266 |
| 4 | GPT-5.5 (xhigh) | 1159 |
| 7 | DeepSeek V4 Pro | 936 |
| 8 | Qwen3.7 Max | 903 |
五、国产模型集体崛起
从排行榜可以看到一个清晰的趋势:六个国产模型进入AGI能力排行榜前列。具体数据:
| 模型 | 智能指数 | 知识工作 |
| GLM-5.2 (max) | 51 (#3) | 1266 (#3) |
| MiniMax-M3 | 44 (#5) | 1116 (#5) |
| DeepSeek V4 Pro | 44 (#5) | 936 (#7) |
| Kimi K2.6 | 43 (#7) | 809 (#12) |
| MiMo-V2.5-Pro | 42 (#11) | 867 (#10) |
| Qwen3.7 Max | - | 903 (#8) |
六、开源生态全面领先
GLM-5.2不仅是国产第一,也是开源权重模型第一。其总分51分,超过了MiniMax-M3(44)、DeepSeek V4 Pro(44)和Kimi K2.6(43)。国产模型包揽开源模型前三,在开源生态中的话语权正在快速提升。
业界分析认为,GLM-5.2登顶排行榜第三,不仅仅是一个模型的胜利,更是国产大模型从“追赶者”变成“竞争者”的标志性事件。OpenAI、Anthropic、Google依然是第一梯队,但国产模型已经不再是“差几个身位”的局面。
评论列表COMMENT
- 暂时还没有人发表评论。
发表评论
文明上网,从我做起!