阶跃新模子快到“没推理”!印奇上任, , ,,,,,果真气焰一新
2026-03-01 12:28:52

闻乐 发自 凹非寺量子位 |安徽科盛智能装备有限公司 公众号 QbitAI

春节档果真热闹!

印奇上任后, , ,,,,,阶跃星辰也气焰一新了。。。。。

正式宣布新一代开源Agent基座模子Step 3.5 Flash, , ,,,,,总参数196B, , ,,,,,激活参数11B, , ,,,,,支持256K上下文窗口。。。。。

生态层面, , ,,,,,依旧走软硬团结的手艺蹊径, , ,,,,,优化模子自己的同时, , ,,,,,兼容适配主流算力硬件。。。。。

现在, , ,,,,,Step 3.5 Flash已经和昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥多家芯片厂商完成适配, , ,,,,,笼罩了目今主流的国产AI加速芯片平台。。。。。

官方数据称新模子的推理峰值达350TPS, , ,,,,,在Agent场景和数学使命上媲美闭源模子, , ,,,,,能胜任重大、长链条使命。。。。。

被AI“秒回”了

先来看波效果单。。。。。

官方宣布了Step 3.5 Flash在推理、编码、智能体三大焦点场景的基准测试比照图(阴影条体现使用并行思索增强的Step 3.5 Flash的性能)。。。。。

新模子在推理类测试排名均在前线, , ,,,,,其中AIME 2025基准测试中得分97.3;;;;;;;;

编码使命的SWE-bench Verified测试中抵达74.4%, , ,,,,,与外洋闭源模子相比仍有小幅距离;;;;;;;;

智能体使命的τ?-Bench测试中取得88.2的分数。。。。。

接下来实测走起!

请在不使用外部工具的情形下, , ,,,,,依次盘算并列出以下算式的效果:首项为80、公差为4的等差数列前30项和;;;;;;;;1?+2?+…+10?的平方和;;;;;;;;2!++4!+6!+8!+10!的和;;;;;;;;√169+?216+?√32的和。。。。。

好家伙, , ,,,,,推理速率是“肉眼险些不可见”的快, , ,,,,,秒回的谜底也准确。。。。。

看图盘算也来试一试:

(上传图片)盘算

虽然谜底没错, , ,,,,,但实验了海内外多个模子之后发明, , ,,,,,只有Step 3.5 Flash没把谜底合并同类项到最终形式……

接下来看编程场景, , ,,,,,让Step 3.5 Flash开发一个模拟医疗资源监控系统。。。。。

开发一个医疗资源监控仪表盘, , ,,,,,使用WebGL渲染3D院区场景。。。。。各科室、急诊、手术室设置发光点位, , ,,,,,点击后放大区域并展示半透明数据层, , ,,,,,包括床位、接诊量、装备使用率图表。。。。。数据通过WebSocket实时更新, , ,,,,,网络异常使用缓存。。。。。

系统完成初始化加载后, , ,,,,,左上角会实时展示目今运行状态, , ,,,,,清晰标注系统的在线情形、最新数据更新时间和毗连状态(模拟)。。。。。

右上角则还原了医院种种医疗装备的在线率、负载状态与运行情形, , ,,,,,装备总揽面板很是直观。。。。。

界面焦点区域作为主可视化大屏, , ,,,,,集中泛起全院各科室的实时忙碌水平、医护资源使用趋势与营业流量转变。。。。。

同时对床位占用、要害装备运行状态举行全天候实时监控, , ,,,,,一旦泛起资源主要或超负荷情形, , ,,,,,会自动触发忙碌预警与高亮提醒。。。。。

点击左侧导航栏中的差别科室选项, , ,,,,,可以睁开对应科室的详细运营数据与营业指标, , ,,,,,界面会自动切换至专属科室视图。。。。。

当光标悬浮在科室床位漫衍的饼状图上时, , ,,,,,还会实时弹出浮动提醒框, , ,,,,,清晰展示床位占用、空闲、预留等细分数据。。。。。

若是仔细视察配景的院区结构图层就会发明, , ,,,,,每点击一个科室选项, , ,,,,,场景都会自动平滑滑动, , ,,,,,将镜头定位到对应科室的物理位置上。。。。。

再来一个航行员气象仪表盘:

制作一个艺术化气象仪表盘, , ,,,,,使用WebGL渲染3D真实地球。。。。。各国主要都会显示发光标记点, , ,,,,,点击后镜头平滑放大到对应区域, , ,,,,,并切换为半透明2D叠加层, , ,,,,,展示该地区的详细气象图表。。。。。数据通过WebSocket实时流式传输, , ,,,,,网络异常时自动降级使用缓存快照, , ,,,,,包管界面稳固运行。。。。。

可视化交互的效果不错, , ,,,,,但有个问题是这个模子不可直接预览或者给出预览网址, , ,,,,,天生代码后还到手动粘贴生涯文件才华审查。。。。。

除了推理和编程场景, , ,,,,,端云协同也是Step 3.5 Flash重点打造的适用能力, , ,,,,,焦点思绪是云端认真烧脑的妄想与推理, , ,,,,,端侧认真清静的数据读取与外地执行

在官方的电商比价演示中, , ,,,,,面临用户“比照 Mac Mini M4 各平台价钱”的需求, , ,,,,,Step 3.5 Flash化身云端大脑, , ,,,,,直接将重大的比价使命, , ,,,,,拆解为划分盘问淘宝、京东、拼多多的自力小使命。。。。。

云端提前做好使命妄想后, , ,,,,,外地的Step-GUI就无需重大思索, , ,,,,,只需要专注完成数据抓取事情。。。。。

最后由云端统一汇总所有价钱信息, , ,,,,,快速比对后为用户天生清晰的购置参考。。。。。

△已加速

主打一个数据不出外地、隐私不上云。。。。。

模子架构

架构层面, , ,,,,,Step 3.5 Flash接纳的是MoE希罕混淆专家架构。。。。。

总参数目抵达196B, , ,,,,,但在现实推理历程中, , ,,,,,每个Token仅激活约11B参数。。。。。在包管模子能力的同时, , ,,,,,通过希罕激活有用控制了盘算与安排本钱。。。。。

针对长上下文优化, , ,,,,,模子使用3:1滑动窗口注重力与全注重力交织的计划, , ,,,,,缓解了古板长文本模子的失忆问题。。。。。

别的, , ,,,,,研发团队将SWA层的盘问头数从64增添到96, , ,,,,,在不扩大KV缓存占用的情形下增强了模子的表征能力。。。。。

为了确保数值稳固性, , ,,,,,模子还集成了头向门控注重力, , ,,,,,通过动态调理信息流向来维持推理历程的稳固性。。。。。

在推理效率上, , ,,,,,Step 3.5 Flash接纳了3路多Token 展望(MTP-3)手艺, , ,,,,,允许模子在主输出的同时并行展望未来的多个token, , ,,,,,并通过并行验证机制在单次处置惩罚中校验多个token假设。。。。。

这种方法使其在NVIDIA Hopper GPU上的单流编程使命中, , ,,,,,推理峰值抵达350TPS。。。。。

为了强化模子推理与智能体执行能力, , ,,,,,Step 3.5 Flash还搭载了自研的MIS?PO强化学习框架。。。。。

用更严酷的样本过滤机制替换了古板的主要性加权盘算, , ,,,,,有用镌汰了数据噪声与梯度方差, , ,,,,,让模子在长序列使命上的优化更稳固;;;;;;;;即便在大规模离线训练的情形中, , ,,,,,依然能坚持可靠的输出。。。。。

别的, , ,,,,,据官方透露, , ,,,,,Step 4也正在训练中。。。。。

参考链接:https://static.stepfun.com/blog/step-3.5-flash/

— 完 —

安徽科盛智能装备有限公司