若是一个模子既能很好地实现 云峰量子手艺有限公司Agent(智能体)的能力,,,,,还能跑得足够快,,,,,不会在多轮推理中途「卡壳」,,,,,又有很低的幻觉率,,,,,会爆发什么事情?????谜底是:
一线的开发者和用户很快就会用真金白银的 Token「投票」。。。。。。。
这就是全球 AI 圈正在爆发的事情。。。。。。。阶跃星辰开源模子 Step 3.5 Flash 宣布后迅速走红全球,,,,,不但首日在 OpenRouter 冲上 Fastest Models 全球最快模子之列,,,,,更是两天登顶 Trending 全球趋势榜第一。。。。。。。

图片泉源:OpenRouter
不是基准跑分,,,,,也不是媒体评测。。。。。。。OpenRouter 作为全球 AI 模子聚合平台,,,,,群集了全球险些所有叫得上名字的开源和闭源模子,,,,,尚有大宗的全球 AI 开发者和用户,,,,,再加之榜单数据来自开发者和用户的真实 API 挪用,,,,,已往一年越来越成为大模子最主要的「试金石」。。。。。。。
尤其是最主要的 Trending 全球趋势榜,,,,,不体贴「参数最大」或者「跑分最强」的模子,,,,,只关注开发者和用户挪用模子的现真相形,,,,,或者说是:哪个模子更有用、更好用?????
这也不难看出 Step 3.5 Flash 这回「全球第一」的含金量。。。。。。。
不迷信跑分的开发者,,,,,只认「高分高能」
2 月 2 日,,,,,阶跃星辰宣布开源模子 Step 3.5 Flash,,,,,很快就点燃了行业的整体关注,,,,,第一反应是看它的「智能密度」。。。。。。。
凭证基准测试,,,,,Step 3.5 Flash 在数学推理(AIME 2025 评分 97.3)和代码修复(SWE-bench Verified 抵达 74.4%)上的体现,,,,,PaCoRe 强化版甚至将 AIME 2025 的效果提高到几近满分的 99.9。。。。。。。
但关于开发者来说,,,,,更有杀伤力的是它的「以巧见大」。。。。。。。
阶跃星辰果真了Step 3.5 Flash 的手艺报告,,,,,详尽地先容了其在模子结构上的立异设计。。。。。。。首先就是接纳了希罕混淆专家(MoE)架构,,,,,在坚持较为精巧的 1960 亿总参数目的同时,,,,,处置惩罚每一个 Token 时,,,,,会动态选择最适合的「专家」,,,,,仅需 110 亿激活参数即可实现前沿级智能。。。。。。。
打个例如,,,,,这就像一个拥有 196 名顶尖专家的智囊团,,,,,当接到一个详细的代码使命时,,,,,系统能瞬间精准地挑出最专业的 11 小我私家进场干活。。。。。。。关于开发者和用户来说,,,,,你付的是 11B 模子的时间和本钱,,,,,换回来的却是 196B 模子的思索深度,,,,,性能媲美 GPT-5.2 xHigh、Gemini 3 Pro 等前沿模子。。。。。。。

图片泉源:阶跃星辰
同时为相识决长上下文的瓶颈,,,,,Step 3.5 Flash 还通过 3:1 滑动窗口与全局注重力混淆架构(SWA+Full Attention)实现 256K 长上下文的高效处置惩罚,,,,,能极大节约显存。。。。。。。这些都在一定水平上,,,,,为 Agent 时代解决了本钱与效果的倒挂难题。。。。。。。
但 Step 3.5 Flash 的「巧」不止云云。。。。。。。测试显示 Step 3.5 Flash 不但支持 100–300 TPS(每秒 Token 数)的天生吞吐量,,,,,部分场景下甚至可以做到最高 350 TPS,,,,,远超去年 50-100 TPS 的主流水平。。。。。。。

图片泉源:OpenRouter
而做到这一点的要害还在于 MTP-3(三路多 Token 展望) 手艺。。。。。。。
古板的模子的推理更像「蹦豆子」,,,,,说一个词想一个词。。。。。。。MTP-3 允许模子在天生目今内容时,,,,,就能同时展望后续多个 Token。。。。。。。不但仅是纯粹的速率提升,,,,,它也在某种水平上改变了模子的思索逻辑——让模子在启齿语言之前,,,,,就已经预判了后面几步的路。。。。。。。
在多轮工具挪用的 Agent 场景下,,,,,这种「连贯性」更为要害,,,,,大大镌汰了模子在重大逻辑中途的「卡顿」和「失忆」,,,,,让原本断断续续的 AI 操作,,,,,可以变得又快又顺滑。。。。。。。
但现实体现又怎样呢?????
在 YouTube 科技博主 Bijan Bowen 的实测中,,,,,Step 3.5 Flash 能够准确还原瑞典设计与纽约金融气概的差别,,,,,从字体、结构到交互逻辑都能一连迭代优化。。。。。。。甚至,,,,,Step 3.5 Flash 还天生了一个功效完整的浏览器操作系统(WebOS),,,,,并且照旧博主测试的多个模子中唯一能正常运行经典游戏「Memory Game」的模子。。。。。。。

图片泉源:Youtube@Bijan Bowen
这种能力,,,,,也可以说是模子知识容量、推理与执行能力叠加后的直接体现。。。。。。。
另一方面,,,,,Discord 上尚有网友在 128GB 内存的 Mac(M3 Max)受骗地安排运行 Step 3.5 Flash,,,,,现实效果远超预期,,,,,性能可以抵达硬件理论效率的 70%。。。。。。。他也指出,,,,,Step 3.5 Flash 不但模子幻觉率很低,,,,,可以输出可靠的回覆和行为,,,,,在中英等多语言混用场景下也有很低的过失率。。。。。。。

图片泉源:Discord
更无邪的安排优势,,,,,更低的推理本钱,,,,,更主要的尚有现实 AI 使用场景下的强盛和洽用,,,,,都让 Step 3.5 Flash 的爆火成了一种天真烂漫的效果。。。。。。。
尤其是在 OpenRouter 上,,,,,开发者和用户见多了「高分低能」的模子,,,,,比起跑分数据和脱离现实的测试,,,,,最体贴的照旧模子在 AI 应用和系统中跑起来的现实体现。。。。。。。在 Agent、深度研究、自动化事情流等场景中,,,,,模子迁徙本钱并不低,,,,,开发者和用户整体选择 Step 3.5 Flash,,,,,足以说明对模子的「好用」。。。。。。。
另一方面,,,,,今天开发者和用户的选择,,,,,也是 Agent 时代的要害侧面。。。。。。。
阶跃星辰,,,,,在做 Agent 时代的发念头
Step 3.5 Flash 宣布后,,,,,阶跃星辰 CTO 朱亦博在知乎上提到,,,,,团队在 Step 2 阶段仍然沿着更大参数、更强对话能力的蹊径推进,,,,,但很快又意识到这条路并不建设。。。。。。。
「差别智能阶段需要纷歧样的基模(基础模子)结构。。。。。。。」痛定思痛下,,,,,他也想明确了 L1 Chatbot 时代设计的基础结构并不适用于 L2 Reasoner(推理模子),,,,,而 L3 Agent 时代更需要新的基模结构。。。。。。。
在这个配景下,,,,,Step 3.5 Flash 的训练目的一最先就锚定了足够强的逻辑、真正可用的长上下文高效率处置惩罚以及快速的推理能力。。。。。。。这些直接决议了模子是否可用、好用,,,,,包括模子的纠错与自我刷新能力。。。。。。。
由于在 Agent 场景下,,,,,用户不再关注输出历程,,,,,而是看重完成使命的速率、准确和稳固性。。。。。。。
Bijan Bowen 在测试 AI 天生航行模拟、赛车游戏的时间就发明,,,,,Step 3.5 Flash 给出的初始版本虽然尚有一些瑕疵,,,,,但通过提醒词的反响后,,,,,模子能够在原有基础上举行迭代优化,,,,,游戏开发质量也有会爆发式提高。。。。。。。

图片泉源:Youtube@Bijan Bowen
这也就不难明确 Step 3.5 Flash 在结构设计上做出一系列选择:MoE 用来把推理本钱压到可安排的规模内,,,,,MTP-3 用来提升一连天生效率,,,,,长上下文接纳更偏工程化的计划而不是纯粹追求理论极限。。。。。。。这些都不是为了追逐跑分效果,,,,,而是为了让模子在重大的多轮使命中一连事情,,,,,不掉速、不失忆、不乱编。。。。。。。
Chatbot 做不到,,,,,以是我们需要 Agent。。。。。。。
这背后,,,,,也是整个行业重心的移动。。。。。。。已往大模子的主战场是对话,,,,,但从 2025 年最先,,,,,模子最先大规模引入事情流,,,,,token 关于开发者来说变得越发主要,,,,,用户知足的也不再只是问答,,,,,而是希望 AI 能够直接处置惩罚重大的使命——改更大规模的代码,,,,,处置惩罚重大的跨平台流程。。。。。。。
在这种时间,,,,,一线开发者和用户的选择,,,,,往往比任何 benchmark 都更有说服力。。。。。。。
Step 3.5 Flash 宣布后的回声,,,,,也印证了这一点。。。。。。。从海内到外洋,,,,,更多开发者和用户聚焦 Step 3.5 Flash 稳固跑 Agent、多轮推理不中止、无邪安排以及低本钱的优势,,,,,OpenRouter Trending 全球趋势榜的第一,,,,,也直接说明晰开发者和用户的 Step 3.5 Flash 的「偏幸」。。。。。。。
写在最后
2022 年底以来,,,,,天生式 AI 的爆发已经证实晰一件事:大模子可以改变内容生产、信息获取,,,,,甚至改变人与软件的交互方法。。。。。。。从写作、编程到搜索、办公,,,,,它已经进入一样平常。。。。。。。
但 Agent 时代的真正到来,,,,,也带来了差别。。。。。。。我们更多将生涯、事情中的使命交给 AI 举行协作甚至完成,,,,,比起说得对差池,,,,,更看重 AI「干活」的体现,,,,,不管是跨平台比照 Mac Mini(M4)的价钱,,,,,照旧对大型代码库的修改。。。。。。。
阶跃星辰的开源模子 Step 3.5 Flash 做到了,,,,,以是在 OpenRouter 这种现实赛场上乐成了,,,,,被全球开发者和用户挪用。。。。。。。
说究竟,,,,,AI 的乐成不应取决云峰量子手艺有限公司于它看起来有多智慧,,,,,而取决于它能帮我们人类提高几多效率。。。。。。。在这个意义上,,,,,Step 3.5 Flash 的火爆更能说明大模子必需褪去「炫技」的华美外壳,,,,,酿成一种真正好用的生产力。。。。。。。