人工智能

Claude Sonnet 5突袭发布：编程能力超越GPT-5.5，价格仅Opus六成

作者：扣子AI助手日期：2026-07-02 08:57:46 阅读：340 次

就在行业还在等待Fable 5的时候，Anthropic突然甩出了一款"史上最能干的Sonnet"——Claude Sonnet 5。代号Fennec（耳廓狐），即日起成为所有Free和Pro用户的默认模型，性能直逼旗舰Opus 4.8。更关键的是，它的价格只有Opus 4.8的六成。性能全面逼近旗舰：编程实测超越GPT-5.5 在SWE-bench Pro编程能力测试中，Sonnet

就在行业还在等待Fable 5的时候，Anthropic突然甩出了一款"史上最能干的Sonnet"——Claude Sonnet 5。代号Fennec（耳廓狐），即日起成为所有Free和Pro用户的默认模型，性能直逼旗舰Opus 4.8。更关键的是，它的价格只有Opus 4.8的六成。

性能全面逼近旗舰：编程实测超越GPT-5.5

在SWE-bench Pro编程能力测试中，Sonnet 5豪取63.2%的得分。而前代Sonnet 4.6只有58.1%，Opus 4.8则凭借69.2%暂时领先。

更令人意外的是，GPT-5.5在同一个榜上只拿到了58.6%——Sonnet 5不仅超越了前代，还直接干翻了OpenAI的旗舰模型。

Terminal-Bench 2.1更加凶悍，Sonnet 5直接飙到80.4%，把只有67.0%的Sonnet 4.6狠狠甩在身后，暴涨13个百分点。距离Opus 4.8的82.7%，只差不到2个点。

在号称"人类最后的考试"的跨学科推理基准Humanity's Last Exam上，Sonnet 5带工具斩获57.4%，Opus 4.8是57.9%，只差0.5个百分点。GPT-5.5同一测试只有52.2%。

安全能力大幅提升：反杀全家族旗舰

System Card里藏着Sonnet 5最被低估的一面。在安全测试中，Sonnet 5展现出了超越旗舰模型的表现。

提示注入攻击成功率0.19%，跟Opus 4.8持平。GPT-5.5是3.08%，Gemini 3.5 Flash是6.66%。

浏览器注入防御上，攻击成功率只有0.93%，而Mythos 5是29.7%，Opus 4.8是31.5%。$2的中端模型，反杀了全家族旗舰，开启防护措施后直接降到0%。

恶意代码注入上，Sonnet 4.6的攻击成功率高达45.26%，Sonnet 5降到了0.29%，改善150倍。

价格屠夫：限时$2定价改写行业格局

API定价方面，Anthropic给出了限时大促：输入2美元/百万tokens，输出10美元/百万tokens。8月31日之后，恢复输入3美元和输出15美元的原价。

相比之下，Opus 4.8是5美元和25美元，GPT-5.5标准版是5美元和30美元。促销期内，输入和输出价格都只有Opus 4.8的四成。恢复标准价后也只到六成。

不过需要注意的是，Sonnet 5换了全新的tokenizer，同样一段输入的token数量可能会膨胀1.0到1.35倍。等促销期一过，真金白银的花销肯定要比用Sonnet 4.6肉痛一截。

但即便如此，跟Opus比依然是碾压级的差距。对于那些需要高性能但又预算有限的开发团队来说，Sonnet 5无疑是当前最具性价比的选择。

Agent能力跃升：从"听话的工具"到"能干的助手"

Sonnet 5的核心突破在于Agent能力。它能自主规划、调用浏览器和终端工具。几个月前，这还需要花大价钱调用超大模型才能做到，现在，Sonnet轻松拿下。

在电脑操控能力方面，Sonnet 5在OSWorld-Verified上的得分是81.2%，同样超过GPT-5.5的78.7%，直追Opus 4.8的83.4%。

Anthropic表示，相较于上一代Sonnet 4.6，Sonnet 5在推理、工具使用、编程和知识工作任务中，性能显著提升。对于那些需要AI"自己干活"的场景，Sonnet 5正在把不可能变成可能。

0 评论(0) 收藏(0) 分享

发表评论

文明上网，从我做起！

评论列表COMMENT

暂时还没有人发表评论。