开源新标杆!商汤 SenseNova-MARS超 Gemini-3-Pro ,,,,,,,模子代码数据全开放 。。。。。
2026-02-27 15:49:35

今日 ,,,,,,,商汤正式开源多模态自主九州传媒科技有限公司推理模子 SenseNova-MARS(8B/32B 双版本) ,,,,,,,其在多模态搜索与推理的焦点基准测试中以 69.74 分逾越Gemini-3-Pro(69.06 分)、GPT-5.2(67.64 分) 。。。。。

SenseNova-MARS是首个支持动态视觉推理和图文搜索深度融合的AgenticVLM模子 ,,,,,,,它能自己妄想办法、挪用工具 ,,,,,,,轻松搞定种种重大使命 ,,,,,,,让AI真正具备“执行能力” 。。。。。

在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基准测试中 ,,,,,,,SenseNova-MARS取得开源模子中的 SOTA 效果 ,,,,,,,还逾越Gemini-3.0-Pro、GPT-5.2等顶级闭源模子 ,,,,,,,在搜索推理和视觉明确两大焦点领域周全领跑 。。。。。更多细节请拜见手艺报告(https://arxiv.org/abs/2512.24330) ,,,,,,,接待开发者、各行业用户测试与体验 。。。。。

万能冠军 ,,,,,,,自主解决重大问题

SenseNova-MARS在多项多模态搜索评测中展现出显着的领先优势 ,,,,,,,平均得分抵达 69.74 分 ,,,,,,,乐成凌驾了 Gemini-3-Pro 的 69.06 分与 GPT-5.2 的 67.64 分 。。。。。

在 MMSearch 榜单(图文搜索焦点评测)中 ,,,,,,,模子以 74.27 分登顶 ,,,,,,,超GPT-5.2(66.08 分);;;; ;HR-MMSearch(高清细节搜索评测)中以54.43 分领先 ,,,,,,,显著拉开与闭源模子的差别 。。。。。

HR-MMSearch的测试问题堪称“AI界的奥林匹克”:接纳305张2025年最新的4K超高清图片 ,,,,,,,确保AI无法依赖旧知识“作弊”;;;; ;所有问题都针对图片中占比不到5%的细节 ,,,,,,,好比小标记、小字、细小物体 ,,,,,,,必需用图像裁剪工具才华看清;;;; ;笼罩体育、娱乐文化、科学手艺、商业金融、游戏、学术研究、地理旅行等八大领域 ,,,,,,,60%的问题都需要至少使用三种工具才华解答 。。。。。

简朴说 ,,,,,,,无论是需要“查遍全网”的知识麋集型使命 ,,,,,,,照旧需要“火眼金睛”的细粒度视觉剖析 ,,,,,,,它都是目今的“万能冠军” 。。。。。

用组合拳 ,,,,,,,解决真实场景问题

SenseNova-MARS还能实着实在落地到我们生涯和事情的场景 ,,,,,,,解决需要“多办法推理+多工具协作”的问题 。。。。。

通俗AI的工具挪用 ,,,,,,,要么只能搜文字 ,,,,,,,要么只能看图片 ,,,,,,,遇到需要“先放大细节、再识别物体、最后查配景”的重大使命就一筹莫展 。。。。。

面临识别赛车服细小 Logo + 盘问公司建设年份 + 匹配车手出生年月 + 盘算差值’的重大使命 ,,,,,,,SenseNova-MARS 可自主挪用图像裁剪、文本 / 图像搜索工具 ,,,,,,,无需人工干预完成闭环解答 。。。。。

SenseNova-MARS能从产品和行业峰会的照片中 ,,,,,,,识别企业的标记 ,,,,,,,快速搜集产品、企业的信息 ,,,,,,,以实时间、数目、参数等细节要素 ,,,,,,,辅助剖析行业情形和名堂 。。。。。

SenseNova-MARS能从赛事照片中识别画面中的Logo、人物等信息 ,,,,,,,追溯角逐某职员配景信息 ,,,,,,,资助快速增补主要细节 。。。。。

SenseNova-MARS甚至能够轻松处置惩罚 ,,,,,,,这类超长办法的多模态推理 ,,,,,,,和凌驾三种工具挪用 ,,,,,,,自动裁剪剖析细节、搜索相关研究数据 ,,,,,,,快速验证假设 ,,,,,,,得出要害判断 。。。。。

拥有这种“自主思索+多工具协作”的能力 ,,,,,,,SenseNova-MARS能够自动解决“细节识别 + 信息检索 + 逻辑推理”重大使命 ,,,,,,,资助实现事情效率提升 。。。。。

图像裁剪:能精准聚焦图片上的细小细节 ,,,,,,,哪怕是占比不到5%的细节——好角逐车手衣服上的细小Logo、赛事照片里观众席的口号 ,,,,,,,都可通过裁剪放大清晰剖析 。。。。。

图像搜索:能在看到物体、人物或场景 ,,,,,,,的瞬间自动匹配相关信息——好比识别出赛车手的身份 ,,,,,,,或是某款冷门装备的型号 。。。。。

文本搜索:能快速抓取精准信息——无论是公司建设年份、人物出生年月 ,,,,,,,照旧最新的行业数据 ,,,,,,,都能秒级获取 。。。。。

从练中学 ,,,,,,, 形成"直觉"和"履历"

SenseNova-MARS接纳了“因材施教”的训练要领 。。。。。

第一阶段:打基础 。。。。。针对跨模态多跳搜索推理训练数据稀缺的痛点 ,,,,,,,立异性的提出了基于多模智能体的自动化数据合成引擎 ,,,,,,,接纳细粒度视觉锚点 + 多跳深度关联检索的机制 ,,,,,,,动态挖掘并关联跨网页实体的逻辑 ,,,,,,,自动化构建高重漂后的多跳推理链路 ,,,,,,,同时引入闭环自洽性校验往复除幻觉数据 ,,,,,,,结构出具备严密逻辑链条与高知识密度的多跳搜索问答数据 。。。。。用全心筛选的“高难度案例”做课本 ,,,,,,,每个案例都标注了“该用什么工具、办法是什么” ,,,,,,,让AI先学会基本的“破案逻辑” 。。。。。这些案例都是从海量数据中挑出的“硬骨头” ,,,,,,,确保AI一最先就接触真实重大场景 。。。。。

l第二阶段:练实战 。。。。。接纳“强化学习”——就像侦探在一次次破案中积累履历 ,,,,,,,AI每做对一次决议(好比选对工具、办法合理)就会获得奖励 ,,,,,,,做错了就调解战略 。。。。。为了阻止AI“学偏” ,,,,,,,研究团队还加了个“稳固器”——BN-GSPO算法 ,,,,,,,让它在处置惩罚简朴题和重大题时都能坚持稳固前进 ,,,,,,,不会泛起“偏科” 。。。。。 这种基于双阶段归一化的优雅机制有用平滑了动态工具挪用返回漫衍多样性带来的优化波动并确保了学习信号漫衍的一致性 ,,,,,,,从而乐成解决了跨模态多步多工具智能体训练历程中的收敛性难题 。。。。。

经由这样的训练 ,,,,,,,AI不但学会了用工具 ,,,,,,,更作育"工具使用直觉"——知道在什么情形下应该使用哪些工具 ,,,,,,,以及怎样将差别工具的效果有机团结起来 。。。。。

模子、代码、数据全开源

商汤日日新SenseNova-MARS模子、代码、数据集全开源 ,,,,,,,支持 Hugging Face 直接下载 。。。。。

Github 客栈:

https://github.com/OpenSenseNova/SenseNova-MARS

模子客栈:

32B:

https://huggingface.co/sensenova/SenseNova-MARS-32B

8B

https://huggingface.co/sensenova/SenseNova-MARS-8B

手艺报告:

https://arxiv.九州传媒科技有限公司org/abs/2512.24330