Claude Sonnet 5突袭发布:编程能力超越GPT-5.5,价格仅Opus六成
就在行业还在等待Fable 5的时候,Anthropic突然甩出了一款"史上最能干的Sonnet"——Claude Sonnet 5。代号Fennec(耳廓狐),即日起成为所有Free和Pro用户的默认模型,性能直逼旗舰Opus 4.8。更关键的是,它的价格只有Opus 4.8的六成。
性能全面逼近旗舰:编程实测超越GPT-5.5
在SWE-bench Pro编程能力测试中,Sonnet 5豪取63.2%的得分。而前代Sonnet 4.6只有58.1%,Opus 4.8则凭借69.2%暂时领先。
更令人意外的是,GPT-5.5在同一个榜上只拿到了58.6%——Sonnet 5不仅超越了前代,还直接干翻了OpenAI的旗舰模型。
Terminal-Bench 2.1更加凶悍,Sonnet 5直接飙到80.4%,把只有67.0%的Sonnet 4.6狠狠甩在身后,暴涨13个百分点。距离Opus 4.8的82.7%,只差不到2个点。
在号称"人类最后的考试"的跨学科推理基准Humanity's Last Exam上,Sonnet 5带工具斩获57.4%,Opus 4.8是57.9%,只差0.5个百分点。GPT-5.5同一测试只有52.2%。
安全能力大幅提升:反杀全家族旗舰
System Card里藏着Sonnet 5最被低估的一面。在安全测试中,Sonnet 5展现出了超越旗舰模型的表现。
提示注入攻击成功率0.19%,跟Opus 4.8持平。GPT-5.5是3.08%,Gemini 3.5 Flash是6.66%。
浏览器注入防御上,攻击成功率只有0.93%,而Mythos 5是29.7%,Opus 4.8是31.5%。$2的中端模型,反杀了全家族旗舰,开启防护措施后直接降到0%。
恶意代码注入上,Sonnet 4.6的攻击成功率高达45.26%,Sonnet 5降到了0.29%,改善150倍。
价格屠夫:限时$2定价改写行业格局
API定价方面,Anthropic给出了限时大促:输入2美元/百万tokens,输出10美元/百万tokens。8月31日之后,恢复输入3美元和输出15美元的原价。
相比之下,Opus 4.8是5美元和25美元,GPT-5.5标准版是5美元和30美元。促销期内,输入和输出价格都只有Opus 4.8的四成。恢复标准价后也只到六成。
不过需要注意的是,Sonnet 5换了全新的tokenizer,同样一段输入的token数量可能会膨胀1.0到1.35倍。等促销期一过,真金白银的花销肯定要比用Sonnet 4.6肉痛一截。
但即便如此,跟Opus比依然是碾压级的差距。对于那些需要高性能但又预算有限的开发团队来说,Sonnet 5无疑是当前最具性价比的选择。
Agent能力跃升:从"听话的工具"到"能干的助手"
Sonnet 5的核心突破在于Agent能力。它能自主规划、调用浏览器和终端工具。几个月前,这还需要花大价钱调用超大模型才能做到,现在,Sonnet轻松拿下。
在电脑操控能力方面,Sonnet 5在OSWorld-Verified上的得分是81.2%,同样超过GPT-5.5的78.7%,直追Opus 4.8的83.4%。
Anthropic表示,相较于上一代Sonnet 4.6,Sonnet 5在推理、工具使用、编程和知识工作任务中,性能显著提升。对于那些需要AI"自己干活"的场景,Sonnet 5正在把不可能变成可能。
评论列表COMMENT
- 暂时还没有人发表评论。
发表评论
文明上网,从我做起!