PT视讯(中国区)官网

您目今位置:首页 > 新闻中心 > 新要闻

性能持平价钱大降80%，，，，，，，，Anthropic新模子杀疯了

2026-02-28 22:28:14

距离ClaudeOpus 4.6的宣布仅已往12天，，，，，，，，Anthropic就宣布了新的中档模子Claude Sonnet 4.6。。。。。。

这次宣布的焦点不在于手艺突破自己，，，，，，，，而在于它以低得多的价钱，，，，，，，，抵达了与竞品齐平的性能。。。。。。。。。。。。

Sonnet 4.6的定价坚持在每百万token输入3美元、输出15美元，，，，，，，，与前代 Sonnet 4.5相同。。。。。。

然而在多项基准测试中，，，，，，，，Sonnet 4.6靠近甚至逾越了价钱横跨五倍的Opus 4.6。。。。。。

Anthropic体现，，，，，，，，自制纷歧定就没有好货。。。。。。

虽然了，，，，，，，，在一些要害的测试里，，，，，，，，仍然照旧Opus 4.6领先。。。。。。

详细体现怎样呢？？？？？？？？

01

Sonnet 4.6事实有多惊艳？？？？？？？？

在SWE-bench Verified这个权衡真实软件编码能力的基准测试中，，，，，，，，Sonnet 4.6得分79.6%，，，，，，，，险些追平Opus 4.6的 80.8%，，，，，，，，同时略微领先于OpenAI的GPT-5.2。。。。。。

在署理式金融剖析使命中，，，，，，，，Sonnet 4.6以63.3%的效果领先所有竞争敌手，，，，，，，，包括Opus 4.6的60.1%和GPT-5.2的59.0%。。。。。。

在办公使命的GDPval-AA Elo评分中，，，，，，，，Sonnet 4.6抵达 1633 分，，，，，，，，凌驾Opus 4.6的1606分和GPT-5.2的1462分。。。。。。

已往需要旗舰模子才华完成的使命，，，，，，，，现在用Sonnet 4.6这种中档模子就能做到。。。。。。

关于天天需要处置惩罚数百万token的企业来说，，，，，，，，这意味着可以大幅节约本钱。。。。。。

Opus 4.6仍然在某些高重漂后领域坚持优势。。。。。。

在终端编码使命Terminal-Bench 2.0中，，，，，，，，Opus 4.6得分65.4%，，，，，，，，Sonnet 4.6为59.1%。。。。。。

在署理式搜索BrowseComp中，，，，，，，，Opus 4.6抵达84.0%, Sonnet 4.6为74.7%。。。。。。

在新颖问题解决测试ARC-AGI-2中，，，，，，，，Opus 4.6得分68.8%，，，，，，，，Sonnet 4.6为58.3%。。。。。。

这些差别批注，，，，，，，，关于前沿研究和需要顶级准确度的场景，，，，，，，，Opus 4.6仍是最好的模子。。。。。。但关于大大都生产情形，，，，，，，，这个差别已经缩小到可以接受的水平。。。。。。

Sonnet 4.6最引人注目的前进泛起在盘算机使用能力上。。。。。。在OSWorld-Verified基准测试中，，，，，，，，它得分72.5%，，，，，，，，高于Sonnet 4.5的61.4%，，，，，，，，远超GPT-5.2的38.2%。。。。。。

盘算机使用能力指的是AI像人类一样操作盘算机的能力，，，，，，，，通过鼠标点击、键盘输入来与软件交互，，，，，，，，而不依赖API接口。。。。。。

前一阵引发热议的豆包手机助手，，，，，，，，其底层的UI-TARS模子，，，，，，，，就是在OSWorld基准上完成了权威测试，，，，，，，，取得了47.5%的效果。。。。。。

豆包手机助手的体现是很是精彩的，，，，，，，，已经能够完成除了支付以外所有的操作。。。。。。

那么以此作为判断依据，，，，，，，，进而不难推测，，，，，，，，Sonnet 4.6的现实体现将会很是惊艳。。。。。。

这项能力之以是主要，，，，，，，，是由于它翻开了最普遍的企业应用场景。。。。。。

一个能够直接看屏幕并与之交互的模子，，，，，，，，可以在不构建定制毗连器的情形下，，，，，，，，自动操作将所有可交互的系统。。。。。。

Anthropic在宣布时提到，，，，，，，，早期用户已经看到靠近人类水平的体现，，，，，，，，能够完成重大的电子表格使命和多办法网页表单。。。。。。

包管科技公司Pace的CEO贾米·考夫（Jamie Cuffe）体现，，，，，，，，Sonnet 4.6在他们重大的包管盘算机使用基准测试中抵达94%的效果，，，，，，，，是所有测试过的Claude模子中最高的。。。。。。

他说：“它以我们之前未见过的方法推理失败缘故原由并自我纠正。。。。。。”

恶意行为者可能在网页中隐藏指令来挟制模子，，，，，，，，这被称为提醒注入攻击。。。。。。

Anthropic在通告中体现，，，，，，，，Sonnet 4.6在抵御此类攻击方面比Sonnet 4.5有重大刷新。。。。。。

关于安排需要浏览网页和与外部系统交互的署理的企业来说，，，，，，，，这种清静防护是必需的。。。。。。

02

价钱只要五分之一

那么Sonnet 4.6究竟有多自制呢？？？？？？？？

外媒报道，，，，，，，，一些早期的Sonnet 4.6用户体现，，，，，，，，原本企业需要花五倍的钱才华买到的能力，，，，，，，，现在用Sonnet 4.6就能获得差未几的效果。。。。。。

这意味着运营本钱可能直接降到原来的五分之一，，，，，，，，而事情质量险些不受影响。。。。。。

数据剖析平台Hex Technologies的CTO，，，，，，，，同时也是Anthropic团结首创人、首席产品官的凯特琳-科尔格罗夫 (Caitlin Colgrove)说，，，，，，，，公司正在将大部分流量迁徙到Sonnet 4.6。。。。。。

她指出通过自顺应思索和高起劲模式（high effort mode），，，，，，，，“除了最难题的剖析使命外，，，，，，，，我们在所有使命上都看到了Opus级别的性能，，，，，，，，且设置更高效无邪。。。。。。以Sonnet的价钱，，，，，，，，这将降低事情本钱。。。。。。”

云存储公司Box的CTO本·喀什（Ben Kus）体现，，，，，，，，Sonnet 4.6在真实企业文档的重度推理问答中，，，，，，，，比Sonnet 4.5的体现提高了15个百分点。。。。。。

Sonnet 4.6配备了100万token的超长上下文窗口，，，，，，，，以容纳整个代码库、执法文件或数十篇研究论文。。。。。。

Anthropic声称模子能够在整个上下文中有用推理，，，，，，，，并通过Vending-Bench Arena这个基准测试来体现出Sonnet 4.6的有用推理。。。。。。

Vending-Bench Arena测试的是模子运营模拟企业的能力，，，，，，，，差别AI模子相互竞争以获得最大利润。。。。。。

在没有人类提醒的情形下，，，，，，，，Sonnet 4.6生长出一种新颖战略：在前十个模拟月份中大宗投资产能，，，，，，，，支出远超竞争敌手，，，，，，，，然后在最后阶段急转弯专注于盈利能力。。。。。。

模子在365天模拟竣事时的余额约为5700美元，，，，，，，，而Sonnet 4.5约为2100美元。。。。。。

03

Anthropic开启印度市场

Anthropic正处于上市前最要害的阶段，，，，，，，，因此他们不止要宣布模子，，，，，，，，还要借着模子去扩张营业。。。。。。

在Sonnet 4.6宣布当天，，，，，，，，印度IT巨头Infosys宣布与Anthropic相助，，，，，，，，构建企业级agent，，，，，，，，将Claude模子集成到Infosys的Topaz AI平台中，，，，，，，，效劳于银行、电信和制造业。。。。。。

与此同时，，，，，，，，Anthropic也在印度的班加罗尔开设了首个印度效劳处，，，，，，，，印度现在占全球Claude使用量的约6%，，，，，，，，仅次于美国。。。。。。

Anthropic的前进也导致了最近几天软件股的大规模抛售，，，，，，，，就连业绩大涨的微软，，，，，，，，也履历了股价暴跌。。。。。。

投资者越来越担心AI对这些营业的潜在倾覆，，，，，，，，Sonnet 4.6可能会加剧这种担心的气氛。。。。。。

也不知道是不是Anthrop浙江绿谷生态科技有限公司ic飘了，，，，，，，，他们还将其免费层级默认升级到了Sonnet 4.6，，，，，，，，开发者可以通过Claude API直接挪用。。。。。。

【网站地图】【sitemap】