
2026年的这一天注定会被写入AI生长史。。。。。。。。
Claude Opus 4.6和GPT-5.3 Codex在相隔不到一个小时的时间里先后宣布。。。。。。。。
两家公司似乎都憋着一口吻,,,,,要在统一个时间节点上交出自己的答卷。。。。。。。。
“撞车”的背后,,,,,是一场关于资源、手艺和市场话语权的较量。。。。。。。。
就在两周前,,,,,英伟达刚刚宣布向Anthropic投资100亿美元,,,,,这笔钱让Anthropic的估值飙升到3500亿美元。。。。。。。。
新闻传出后不到72小时,,,,,英伟达转身又向OpenAI注资200亿美元。。。。。。。。
黄仁勋的算盘打得很清晰:双方都押注,,,,,谁赢都不亏。。。。。。。。
但对Anthropic和OpenAI来说,,,,,这不但是拿到钱那么简朴。。。。。。。。
两家公司都妄想在2026年下半年到2027年左右启动上市程序,,,,,现在正是证实自己手艺实力、争取市场定价权的要害时刻。。。。。。。。
投资人要看的不是PPT上的允许,,,,,而是能拿脱手的产品。。。。。。。。
谁的模子更强,,,,,谁在现实应用中更有说服力,,,,,谁就能在IPO时要到更高的价钱,,,,,拿到更多的筹码。。。。。。。。
一山容不得二虎,,,,,Anthropic和OpenAI必需得让对方明确,,,,,谁才是老大。。。。。。。。
因此,,,,,这种产品节奏不是巧合,,,,,而是卡好了表的对轰。。。。。。。。
两家公司都清晰,,,,,在这个时间点上,,,,,每一次产品宣布都是一次融资路演,,,,,每一个手艺突破都会直接影响投资人的判断和市场的预期。。。。。。。。
不过从产品自己来看,,,,,两家公司确实都拿出了真本事。。。。。。。。
01
Claude Opus 4.6
Anthropic这次对 Claude Opus 系列的升级,,,,,焦点放在了“更智慧地思索”这件事上。。。。。。。。
Opus 4.6最显著的转变是它学会了“adaptive thinking”,,,,,模子会凭证使命的庞洪水平自动调解思索深度。。。。。。。。在难题问题上花更多时间思索,,,,,而在简朴使命上快速通过。。。。。。。。
在代码能力方面,,,,,Opus 4.6在Terminal-Bench 2.0这个评测中拿到了最高分。。。。。。。。

这个测试专门考察AI在终端情形下的操作能力。。。。。。。。模子需要知道什么时间该用哪个下令,,,,,怎样组合差别的工具,,,,,以及怎么从过失信息里找到问题所在。。。。。。。。
这就像是考察一个程序员会不会熟练使用种种开发工具。。。。。。。。不但是写代码,,,,,还要会调试、会安排、会看日志找bug。。。。。。。。
更主要的是,,,,,Opus 4.6是Anthropic第一个提供100万token上下文窗口的Opus级别模子。。。。。。。。这个数字意味着模子可以一次性处置惩罚相当于两本中等厚度小说的文本量。。。。。。。。
在长文本处置惩罚的测试中,,,,,Opus 4.6在MRCR v2的8-needle 1M 变体上得分76%,,,,,而上一代的Sonnet 4.5只有 18.5%。。。。。。。。
简朴一点来明确,,,,,就是给模子一大堆文档,,,,,然后问它一个需要综合多处信息才华回覆的问题。。。。。。。。
以前的模子看着看着就“忘了”前面的内容,,,,,或者找不到要害信息。。。。。。。。Opus 4.6能在海量文本里准确定位需要的信息,,,,,并且不会由于文档太长就体现下降。。。。。。。。
在知识事情能力的评测GDPval-AA 上,,,,,Opus 4.6比OpenAI的GPT-5.2横跨约144Elo分,,,,,比自己的前代Opus 4.5横跨190分。。。。。。。。这个测试涵盖了金融、执法等领域的现实事情使命,,,,,好比制作财务剖析报告、起草执法文件、做市场调研等。。。。。。。。

Anthropic还在产品层面做了不少配套更新。。。。。。。。
Claude Code现在支持“agent teams”功效,,,,,可以同时启动多个AI署理,,,,,让它们各自认真差别的子使命,,,,,然后自动协调事情。。。。。。。。
关于那些大型的代码库,,,,,这个功效特殊有用,,,,,可以把事情拆分给差别的署理并行处置惩罚。。。。。。。。
在办公软件集成方面,,,,,Anthropic推出了Claude in PowerPoint的研究预览版,,,,,并大幅升级了Claude in Excel。。。。。。。。
现在Claude可以直接在Excel里处置惩罚更重大的使命,,,,,支持数据透视表编辑、图表修改、条件名堂化等功效。。。。。。。。在 PowerPoint 里,,,,,Claude 能读懂现有的版式、字体和母版设计,,,,,然后凭证这个气概建设新的幻灯片。。。。。。。。
就是让AI真正进入你一样平常事情的工具里。。。。。。。。不必往返复制粘贴,,,,,直接在Excel或PowerPoint的侧边栏跟Claude对话,,,,,它就能帮你改表格、做图表、天生演示文稿。。。。。。。。
并且它会学习你的气概,,,,,做出来的工具不会显得格格不入。。。。。。。。
在API层面,,,,,Anthropic引入了“effort”参数,,,,,提供低、中、高、最高四个档位。。。。。。。。
开发者可以凭证使命的重漂后选择合适的档位,,,,,在本钱、速率和质量之间找平衡。。。。。。。。唬唬唬唬尚有“context compaction”功效,,,,,当对话靠近上下文窗口限制时,,,,,会自动总结并替换较早的内容,,,,,让长时间运行的使命不会由于凌驾限制而中止。。。。。。。。
可以明确为给开发者更多的控制权。。。。。。。。
简朴使命用低档位,,,,,省钱又快;;;;;重大使命用高等位,,,,,包管质量。。。。。。。。对话太长了系统会自动压缩前面的内容,,,,,这样就能一直聊下去。。。。。。。。
在清静性方面,,,,,Anthropic这次做了他们有史以来最周全的清静评估。。。。。。。。
Opus 4.6在自动化行为审计中显示出较低的不当行为率,,,,,包括诱骗、捧场奉承、勉励用户妄想和配合滥用等。。。。。。。。
由于 Opus 4.6在网络清静方面的能力有显著提升,,,,,Anthropic专门开发了六个新的网络清静“探针”来检测潜在的滥用行为。。。。。。。。
同时,,,,,他们也在用这个模子资助开源软件查找和修补误差,,,,,希望让防御方也能用上AI的实力。。。。。。。。
02
Advancing Finance:
金融领域的深度应用
Anthropic专门宣布了一篇文章,,,,,详细先容Claude Opus 4.6在金融领域的应用。。。。。。。。
在金融事情中,,,,,专业人士需要AI做三件事:研究、剖析和建设交付物。。。。。。。。Opus 4.6在这三个维度上都抵达了业内领先水平。。。。。。。。
在研究能力上,,,,,Opus 4.6在BrowseComp和DeepSearchQA两个基准测试中都有提升。。。。。。。。
这两个测试考察的是模子从大宗非结构化数据中提取特定信息的能力。。。。。。。。
对金融剖析师来说,,,,,这意味着可以把一堆公司财报、行业报告、新闻文章扔给AI,,,,,然后问一个很详细的问题,,,,,AI能给出针对性的谜底,,,,,而不是寻常的总结。。。。。。。。
你丢给它一份财报,,,,,以前问AI“这家公司的盈利能力怎样”,,,,,它可能给你的是一大段话,,,,,然后再把财报内容复述一遍。。。。。。。。
现在它能直接告诉你要害指标是什么,,,,,跟行业平均水平比怎么样,,,,,有哪些危害因素。。。。。。。。
在剖析能力上,,,,,Opus 4.6在 Finance Agent这个外部基准测试中抵达60.7%的准确率,,,,,比Opus 4.5提升了5.47个百分点。。。。。。。。
在税务评估TaxEval 上,,,,,Opus 4.6也抵达了76%的业内最高水平。。。。。。。。
Anthropic用一个商业尽职视察使命做了比照,,,,,他们让Claude Opus 4.6去评估一个潜在的收购目的。。。。。。。。这种事情通常需要一个资深剖析师花两到三周时间才华完成。。。。。。。。
可是Opus 4.6的首次输出在结构、内容和名堂上都比Opus4.5更靠近可以直接使用的标准。。。。。。。。
也就是说,,,,,现在做出来的工具你小改一下就能用。。。。。。。。这关于需要快速产出报告、演示文稿的金融从业者来说,,,,,效率提升是实着实在的。。。。。。。。
Anthropic的内部“真实天下金融”评估涵盖了约50个投资和财务剖析用例,,,,,包括电子表格、幻灯片和文档的天生与审阅。。。。。。。。
这些是投资银行、私募股权、果真市场投资和企业财务领域剖析师的常见使命。。。。。。。。Opus 4.6比几个月前的Sonnet 4.5提升了凌驾23个百分点。。。。。。。。
配合Cowork这个新功效,,,,,金融团队可以同时启动多个剖析使命。。。。。。。。Cowork让Claude可以会见你指定的外地文件夹,,,,,直接在内里读取、编辑和建设文件。。。。。。。。
对金融团队来说,,,,,这意味着可以一次性安排几个剖析使命,,,,,同时监视 Claude 建设每个交付物的历程,,,,,确保切合自己的标准。。。。。。。。
03
GPT-5.3 Codex:
自己训练自己的模子
在Claude Opus 4.6宣布的几十分钟后,,,,,奥特曼突然发了一条X,,,,,宣布GPT-5.3 Codex。。。。。。。。

我在这里也是代表字母AI,,,,,给奥特曼和阿莫迪一点体面,,,,,给他们划分点了喜欢和转发。。。。。。。。
GPT-5.3 Codex最牛的地方在于,,,,,它能像真人同事一样干活,,,,,并且可以边干活边跟你探讨。。。。。。。。
以前的AI是“你说一句我做一句”,,,,,GPT-5.3 Codex是“有问题随时问你”。。。。。。。。
你给它一个重大使命,,,,,它能自己琢磨几个小时甚至几天,,,,,中途还会自动跟你汇报进度、问你意见,,,,,你随时可以插话调解偏向。。。。。。。。
有意思的是,,,,,OpenAI用GPT-5.3 Codex的早期版原来资助开发后续版本。。。。。。。。也就是说,,,,,让AI帮着调试AI的训练历程、修bug、优化系统,,,,,OpenAI团队说这闪开发速率快得惊人。。。。。。。。
GPT-5.3 Codex在多个基准测试中创立了新的行业纪录。。。。。。。。在SWE-Bench Pro上,,,,,它抵达了56.8%的准确率,,,,,这是一个严酷的真实天下软件工程评估。。。。。。。。
与只测试Python的SWE-bench Verified差别,,,,,SWE-Bench Pro涵盖四种编程语言,,,,,更抗污染、更具挑战性、更多样化,,,,,也更贴近行业现实。。。。。。。。
在Terminal-Bench 2.0上,,,,,GPT-5.3 Codex抵达77.3%,,,,,远超之前的64%。。。。。。。。
这个测试权衡的是代码署理需要的终端手艺,,,,,也就是在下令行情形下完成州操作的能力。。。。。。。。值得注重的是,,,,,GPT-5.3 Codex用的token数目比之前任何模子都少,,,,,这意味着用户可以用同样的本钱做更多事情。。。。。。。。
在 OSWorld-Verified 这个测试中,,,,,GPT-5.3 Codex得分 64.7%,,,,,而GPT-5.2-Codex只有38.2%。。。。。。。。
这是一个署理盘算机使用基准测试,,,,,AI需要在可视化的桌面盘算机情形中完成生产力使命。。。。。。。。人类在这个测试中的得分约为72%,,,,,GPT-5.3 Codex已经靠近人类水平。。。。。。。。
在网页开发方面,OpenAI展示了一个比照案例:让GPT-5.3 Codex和 GPT-5.2-Codex划分建设一个 SaaS 产品的落地页。。。。。。。。
GPT-5.3 Codex自动把年度套餐显示为折扣后的月度价钱,,,,,让优惠看起来更清晰、更有意图,,,,,而不是简朴地把年度总价乘出来。。。。。。。。

GPT-5.3 Codex

GPT-5.2 Codex
它还做了一个自动切换的用户评价轮播,,,,,包括三条差别的用户评价,,,,,而不是只有一条,,,,,让整个页面感受更完整、更靠近可以上线的状态。。。。。。。。
简朴来说,,,,,就是它会思量用户体验和营销效果。。。。。。。。不是机械地实现功效,,,,,而是会想“怎么做更好”。。。。。。。。这种对细节的掌握和对最终效果的明确,,,,,让它做出来的工具更靠近专业水平。。。。。。。。
GPT-5.3 Codex的能力不但限于编码。。。。。。。。
它支持软件生命周期中的所有事情,,,,,好比调试、安排、监控、编写产品需求文档、编辑文案、用户研究、测试、指标剖析等等。。。。。。。。
在GDPval测试中,,,,,GPT-5.3 Codex的体现与GPT-5.2持平,,,,,抵达70.9%的胜率或平手率。。。。。。。。这个测试权衡的是模子在 44 个职业的明确知识事情使命上的体现,,,,,包括制作演示文稿、电子表格和其他事情产品。。。。。。。。

一个有趣的细节是,,,,,两家公司都强调了“自己用自己的产品”。。。。。。。。Anthropic 说“我们用 Claude 来构建 Claude”,,,,, OpenAI说“GPT-5.3 Codex在自己的开发中施展了要害作用”。。。。。。。。
这着实是最好的广告,,,,,若是自己的工程师都不肯意用,,,,,怎么能指望别人用?????
并且从手艺演进的角度看,,,,,两个模子都代表了 AI 从“回覆问题”到“完成事情”的转变。。。。。。。。
它们不再知足于天生一段文字或一段代码,,,,,而是要能够执行完整的事情流程,,,,,产出可以直接使用的交付物。。。。。。。。这种转变对 AI 的要求高得多:不但要懂手艺,,,,,还要懂营业;;;;;不但要能做,,,,,还要做得好;;;;;不但要快,,,,,还要稳。。。。。。。。
值得注重的是,,,,,两家公司都没有回避 AI 能力提升带来的危害。。。。。。。。Anthropic 做了“有史以来最周全的清静评估”,,,,, OpenAI 安排了“最周全的网络清静防护步伐”。。。。。。。。
从用户角度看,,,,,两家公司的竞争是好事。。。。。。。。差别的需求可以找到差别的解决计划,,,,,差别的事情方法可以选择差别的工具。。。。。。。。更主要的是,,,,,竞争会推动双方继续立异,,,,,让AI能力的界线一直扩展。。。。。。。。
并且这两个产品的宣布也标记着重庆山峡智能制造有限公司AI进入了一个新阶段。。。。。。。。不再是“能不可做”的问题,,,,,而是“怎么做得更好”的问题。。。。。。。。