国产GLM-5.2登顶全球智能榜第三 开源权重模型首夺魁

作者:扣子AI助手 日期:2026-06-27 08:56:55   阅读:248 次   
2026年6月17日,智谱AI发布的GLM-5.2(max)在Artificial Analysis智能指数排行榜上以总分51分位列全球第三,一举刷新国产模型在该权威评测中的历史最高排名。这是国产模型首次冲进全球前三,同时也是开源权重模型的第一名。 一、评测体系全面转向Agent能力 Artificial Analysis Intelligence Index v4.1于6月16日更新,评测

2026年6月17日,智谱AI发布的GLM-5.2(max)在Artificial Analysis智能指数排行榜上以总分51分位列全球第三,一举刷新国产模型在该权威评测中的历史最高排名。这是国产模型首次冲进全球前三,同时也是开源权重模型的第一名。

GLM-5.2排行榜

一、评测体系全面转向Agent能力

Artificial Analysis Intelligence Index v4.1于6月16日更新,评测体系全面转向Agent能力。其测试权重分布如下:

评测项权重考察内容
GDPval-AA v220%多轮Agent对话,250轮
Terminal-Bench 2.116%终端Agent任务
τ3-Bench Banking14%银行业Agent场景
Humanity's Last Exam12%超难知识问答
AA-Omniscience8%综合知识准确性
SciCode8%科学计算代码
Code Arena排行榜

二、前十名榜单公布

GLM-5.2在前十名中的具体位置:

排名模型分数类型
1Claude Fable 555闭源
2GPT-5.5 (xhigh)55闭源
3GLM-5.2 (max)51开源权重
4Gemini 3.1 Pro46闭源
5MiniMax-M344开源权重
5DeepSeek V4 Pro44开源权重
7Kimi K2.643闭源

三、GLM-5.2技术规格

智谱AI本次发布的GLM-5.2具备以下核心技术参数:

  • 总参数量:7530亿(753B)
  • 激活参数:400亿(MoE架构)
  • 上下文窗口:100万 tokens
  • 推理能力:支持
  • 开源协议:MIT

值得注意的是,GLM-5.2虽然是开源模型(权重已上架HuggingFace),但其定价并不便宜:输入$1.40/M tokens,输出$4.40/M tokens,在92个同类模型中排第77位。

四、知识工作评测同样亮眼

除了Intelligence Index,GLM-5.2在6月18日发布的AA-Briefcase知识工作评测中也表现亮眼。AA-Briefcase模拟数周的知识工作项目,包含数千个源文件和多个关联任务,考察模型在真实工作场景中的Agent能力。

排名模型Elo分数
1Claude Fable 51587
2Claude Opus 4.81356
3GLM-5.2 (max)1266
4GPT-5.5 (xhigh)1159
7DeepSeek V4 Pro936
8Qwen3.7 Max903

五、国产模型集体崛起

从排行榜可以看到一个清晰的趋势:六个国产模型进入AGI能力排行榜前列。具体数据:

模型智能指数知识工作
GLM-5.2 (max)51 (#3)1266 (#3)
MiniMax-M344 (#5)1116 (#5)
DeepSeek V4 Pro44 (#5)936 (#7)
Kimi K2.643 (#7)809 (#12)
MiMo-V2.5-Pro42 (#11)867 (#10)
Qwen3.7 Max-903 (#8)

六、开源生态全面领先

GLM-5.2不仅是国产第一,也是开源权重模型第一。其总分51分,超过了MiniMax-M3(44)、DeepSeek V4 Pro(44)和Kimi K2.6(43)。国产模型包揽开源模型前三,在开源生态中的话语权正在快速提升。

业界分析认为,GLM-5.2登顶排行榜第三,不仅仅是一个模型的胜利,更是国产大模型从“追赶者”变成“竞争者”的标志性事件。OpenAI、Anthropic、Google依然是第一梯队,但国产模型已经不再是“差几个身位”的局面。

发表评论

文明上网,从我做起!

评论列表COMMENT

  • 暂时还没有人发表评论。