阶跃星辰Step 3.5 Flash , ,,, ,两天登顶OpenRouter趋势榜
2026-03-02 18:04:51

若是一个模子既能很好地实现 云峰量子手艺有限公司Agent(智能体)的能力 , ,,, ,还能跑得足够快 , ,,, ,不会在多轮推理中途「卡壳」 , ,,, ,又有很低的幻觉率 , ,,, ,会爆发什么事情?????谜底是:

一线的开发者和用户很快就会用真金白银的 Token「投票」。。。 。。。。

这就是全球 AI 圈正在爆发的事情。。。 。。。。阶跃星辰开源模子 Step 3.5 Flash 宣布后迅速走红全球 , ,,, ,不但首日在 OpenRouter 冲上 Fastest Models 全球最快模子之列 , ,,, ,更是两天登顶 Trending 全球趋势榜第一。。。 。。。。

图片泉源:OpenRouter

不是基准跑分 , ,,, ,也不是媒体评测。。。 。。。。OpenRouter 作为全球 AI 模子聚合平台 , ,,, ,群集了全球险些所有叫得上名字的开源和闭源模子 , ,,, ,尚有大宗的全球 AI 开发者和用户 , ,,, ,再加之榜单数据来自开发者和用户的真实 API 挪用 , ,,, ,已往一年越来越成为大模子最主要的「试金石」。。。 。。。。

尤其是最主要的 Trending 全球趋势榜 , ,,, ,不体贴「参数最大」或者「跑分最强」的模子 , ,,, ,只关注开发者和用户挪用模子的现真相形 , ,,, ,或者说是:哪个模子更有用、更好用?????

这也不难看出 Step 3.5 Flash 这回「全球第一」的含金量。。。 。。。。

不迷信跑分的开发者 , ,,, ,只认「高分高能」

2 月 2 日 , ,,, ,阶跃星辰宣布开源模子 Step 3.5 Flash , ,,, ,很快就点燃了行业的整体关注 , ,,, ,第一反应是看它的「智能密度」。。。 。。。。

凭证基准测试 , ,,, ,Step 3.5 Flash 在数学推理(AIME 2025 评分 97.3)和代码修复(SWE-bench Verified 抵达 74.4%)上的体现 , ,,, ,PaCoRe 强化版甚至将 AIME 2025 的效果提高到几近满分的 99.9。。。 。。。。

但关于开发者来说 , ,,, ,更有杀伤力的是它的「以巧见大」。。。 。。。。

阶跃星辰果真了Step 3.5 Flash 的手艺报告 , ,,, ,详尽地先容了其在模子结构上的立异设计。。。 。。。。首先就是接纳了希罕混淆专家(MoE)架构 , ,,, ,在坚持较为精巧的 1960 亿总参数目的同时 , ,,, ,处置惩罚每一个 Token 时 , ,,, ,会动态选择最适合的「专家」 , ,,, ,仅需 110 亿激活参数即可实现前沿级智能。。。 。。。。

打个例如 , ,,, ,这就像一个拥有 196 名顶尖专家的智囊团 , ,,, ,当接到一个详细的代码使命时 , ,,, ,系统能瞬间精准地挑出最专业的 11 小我私家进场干活。。。 。。。。关于开发者和用户来说 , ,,, ,你付的是 11B 模子的时间和本钱 , ,,, ,换回来的却是 196B 模子的思索深度 , ,,, ,性能媲美 GPT-5.2 xHigh、Gemini 3 Pro 等前沿模子。。。 。。。。

图片泉源:阶跃星辰

同时为相识决长上下文的瓶颈 , ,,, ,Step 3.5 Flash 还通过 3:1 滑动窗口与全局注重力混淆架构(SWA+Full Attention)实现 256K 长上下文的高效处置惩罚 , ,,, ,能极大节约显存。。。 。。。。这些都在一定水平上 , ,,, ,为 Agent 时代解决了本钱与效果的倒挂难题。。。 。。。。

但 Step 3.5 Flash 的「巧」不止云云。。。 。。。。测试显示 Step 3.5 Flash 不但支持 100–300 TPS(每秒 Token 数)的天生吞吐量 , ,,, ,部分场景下甚至可以做到最高 350 TPS , ,,, ,远超去年 50-100 TPS 的主流水平。。。 。。。。

图片泉源:OpenRouter

而做到这一点的要害还在于 MTP-3(三路多 Token 展望) 手艺。。。 。。。。

古板的模子的推理更像「蹦豆子」 , ,,, ,说一个词想一个词。。。 。。。。MTP-3 允许模子在天生目今内容时 , ,,, ,就能同时展望后续多个 Token。。。 。。。。不但仅是纯粹的速率提升 , ,,, ,它也在某种水平上改变了模子的思索逻辑——让模子在启齿语言之前 , ,,, ,就已经预判了后面几步的路。。。 。。。。

在多轮工具挪用的 Agent 场景下 , ,,, ,这种「连贯性」更为要害 , ,,, ,大大镌汰了模子在重大逻辑中途的「卡顿」和「失忆」 , ,,, ,让原本断断续续的 AI 操作 , ,,, ,可以变得又快又顺滑。。。 。。。。

但现实体现又怎样呢?????

在 YouTube 科技博主 Bijan Bowen 的实测中 , ,,, ,Step 3.5 Flash 能够准确还原瑞典设计与纽约金融气概的差别 , ,,, ,从字体、结构到交互逻辑都能一连迭代优化。。。 。。。。甚至 , ,,, ,Step 3.5 Flash 还天生了一个功效完整的浏览器操作系统(WebOS) , ,,, ,并且照旧博主测试的多个模子中唯一能正常运行经典游戏「Memory Game」的模子。。。 。。。。

图片泉源:Youtube@Bijan Bowen

这种能力 , ,,, ,也可以说是模子知识容量、推理与执行能力叠加后的直接体现。。。 。。。。

另一方面 , ,,, ,Discord 上尚有网友在 128GB 内存的 Mac(M3 Max)受骗地安排运行 Step 3.5 Flash , ,,, ,现实效果远超预期 , ,,, ,性能可以抵达硬件理论效率的 70%。。。 。。。。他也指出 , ,,, ,Step 3.5 Flash 不但模子幻觉率很低 , ,,, ,可以输出可靠的回覆和行为 , ,,, ,在中英等多语言混用场景下也有很低的过失率。。。 。。。。

图片泉源:Discord

更无邪的安排优势 , ,,, ,更低的推理本钱 , ,,, ,更主要的尚有现实 AI 使用场景下的强盛和洽用 , ,,, ,都让 Step 3.5 Flash 的爆火成了一种天真烂漫的效果。。。 。。。。

尤其是在 OpenRouter 上 , ,,, ,开发者和用户见多了「高分低能」的模子 , ,,, ,比起跑分数据和脱离现实的测试 , ,,, ,最体贴的照旧模子在 AI 应用和系统中跑起来的现实体现。。。 。。。。在 Agent、深度研究、自动化事情流等场景中 , ,,, ,模子迁徙本钱并不低 , ,,, ,开发者和用户整体选择 Step 3.5 Flash , ,,, ,足以说明对模子的「好用」。。。 。。。。

另一方面 , ,,, ,今天开发者和用户的选择 , ,,, ,也是 Agent 时代的要害侧面。。。 。。。。

阶跃星辰 , ,,, ,在做 Agent 时代的发念头

Step 3.5 Flash 宣布后 , ,,, ,阶跃星辰 CTO 朱亦博在知乎上提到 , ,,, ,团队在 Step 2 阶段仍然沿着更大参数、更强对话能力的蹊径推进 , ,,, ,但很快又意识到这条路并不建设。。。 。。。。

「差别智能阶段需要纷歧样的基模(基础模子)结构。。。 。。。。」痛定思痛下 , ,,, ,他也想明确了 L1 Chatbot 时代设计的基础结构并不适用于 L2 Reasoner(推理模子) , ,,, ,而 L3 Agent 时代更需要新的基模结构。。。 。。。。

在这个配景下 , ,,, ,Step 3.5 Flash 的训练目的一最先就锚定了足够强的逻辑、真正可用的长上下文高效率处置惩罚以及快速的推理能力。。。 。。。。这些直接决议了模子是否可用、好用 , ,,, ,包括模子的纠错与自我刷新能力。。。 。。。。

由于在 Agent 场景下 , ,,, ,用户不再关注输出历程 , ,,, ,而是看重完成使命的速率、准确和稳固性。。。 。。。。

Bijan Bowen 在测试 AI 天生航行模拟、赛车游戏的时间就发明 , ,,, ,Step 3.5 Flash 给出的初始版本虽然尚有一些瑕疵 , ,,, ,但通过提醒词的反响后 , ,,, ,模子能够在原有基础上举行迭代优化 , ,,, ,游戏开发质量也有会爆发式提高。。。 。。。。

图片泉源:Youtube@Bijan Bowen

这也就不难明确 Step 3.5 Flash 在结构设计上做出一系列选择:MoE 用来把推理本钱压到可安排的规模内 , ,,, ,MTP-3 用来提升一连天生效率 , ,,, ,长上下文接纳更偏工程化的计划而不是纯粹追求理论极限。。。 。。。。这些都不是为了追逐跑分效果 , ,,, ,而是为了让模子在重大的多轮使命中一连事情 , ,,, ,不掉速、不失忆、不乱编。。。 。。。。

Chatbot 做不到 , ,,, ,以是我们需要 Agent。。。 。。。。

这背后 , ,,, ,也是整个行业重心的移动。。。 。。。。已往大模子的主战场是对话 , ,,, ,但从 2025 年最先 , ,,, ,模子最先大规模引入事情流 , ,,, ,token 关于开发者来说变得越发主要 , ,,, ,用户知足的也不再只是问答 , ,,, ,而是希望 AI 能够直接处置惩罚重大的使命——改更大规模的代码 , ,,, ,处置惩罚重大的跨平台流程。。。 。。。。

在这种时间 , ,,, ,一线开发者和用户的选择 , ,,, ,往往比任何 benchmark 都更有说服力。。。 。。。。

Step 3.5 Flash 宣布后的回声 , ,,, ,也印证了这一点。。。 。。。。从海内到外洋 , ,,, ,更多开发者和用户聚焦 Step 3.5 Flash 稳固跑 Agent、多轮推理不中止、无邪安排以及低本钱的优势 , ,,, ,OpenRouter Trending 全球趋势榜的第一 , ,,, ,也直接说明晰开发者和用户的 Step 3.5 Flash 的「偏幸」。。。 。。。。

写在最后

2022 年底以来 , ,,, ,天生式 AI 的爆发已经证实晰一件事:大模子可以改变内容生产、信息获取 , ,,, ,甚至改变人与软件的交互方法。。。 。。。。从写作、编程到搜索、办公 , ,,, ,它已经进入一样平常。。。 。。。。

但 Agent 时代的真正到来 , ,,, ,也带来了差别。。。 。。。。我们更多将生涯、事情中的使命交给 AI 举行协作甚至完成 , ,,, ,比起说得对差池 , ,,, ,更看重 AI「干活」的体现 , ,,, ,不管是跨平台比照 Mac Mini(M4)的价钱 , ,,, ,照旧对大型代码库的修改。。。 。。。。

阶跃星辰的开源模子 Step 3.5 Flash 做到了 , ,,, ,以是在 OpenRouter 这种现实赛场上乐成了 , ,,, ,被全球开发者和用户挪用。。。 。。。。

说究竟 , ,,, ,AI 的乐成不应取决云峰量子手艺有限公司于它看起来有多智慧 , ,,, ,而取决于它能帮我们人类提高几多效率。。。 。。。。在这个意义上 , ,,, ,Step 3.5 Flash 的火爆更能说明大模子必需褪去「炫技」的华美外壳 , ,,, ,酿成一种真正好用的生产力。。。 。。。。