雷军官宣小米多篇最新研究效果乐成入选ICLR 2026国际顶级聚会

2026-03-04 06:26:52

IT之家 2 月 3 日新闻智购电商运营有限公司，，，，，，，，小米开办人、董事长兼 CEO 雷军今日宣布，，，，，，，，小米团队的多篇最新研究效果，，，，，，，，乐成入选 ICLR 2026，，，，，，，，研究偏向涵盖多模态推理、强化学习、GUI Agent、端到端自动驾驶以及音频天生等领域。。。。。。。

IT之家注：ICLR（国际学习表征聚会，，，，，，，，全称是 International Conference on Learning Representations）是人工智能领域国际顶级聚会之一，，，，，，，，由图灵奖得主 Yoshua Bengio 和 Yann LeCun 于 2013 年建设的深度学习领域学术聚会，，，，，，，，致力推感人工智能理论与要领的前沿研究与立异生长。。。。。。。

小米本次入选国际顶级聚会 ICLR 2026 的研究效果如下：

《Shuffle-R1: E智购电商运营有限公司fficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle》论文作者：朱泠皞，，，，，，，，管一然，，，，，，，，梁定康，，，，，，，，鞠建忠，，，，，，，，罗振波，，，，，，，，秦斌，，，，，，，，栾剑，，，，，，，，刘禹良，，，，，，，，白翔论文链接：https://arxiv.org/abs/2508.05612 项目链接：https://github.com/xiaomi-research/shuffle-r1 强化学习已成为提升多模态语言模子推理能力的主要后训练范式。。。。。。。然而，，，，，，，，现有的强化学习训练流程在训练中仍面临效率低下的问题，，，，，，，，其泉源在于两个恒久被忽视的要害征象：优势坍缩（Advantage Collapsing）。。。。。。。即一个批次中的大大都优势值集中在零周围，，，，，，，，导致导致有用梯度信号缺乏；；；；；；；；以及轨迹默然（Rollout Silencing），，，，，，，，即能够爆发非零梯度的采样轨迹数目随着训练举行一直镌汰，，，，，，，，进一步削弱了学习效率。。。。。。。这些问题使得模子的梯度更新受限，，，，，，，，严重制约了模子的恒久优化能力。。。。。。。针对上述挑战，，，，，，，，本文提出了 Shuffle-R1，，，，，，，，这是一个精练高效的强化学习框架，，，，，，，，通过数据层面的动态重组显著提升强化学习的训练效率。。。。。。。Shuffle-R1 包括两项焦点设计：（1）成对轨迹采样（Pairwise Trajectory Sampling），，，，，，，，该要领选择具有大优势值的高比照度轨迹，，，，，，，，以提高梯度信号质量；；；；；；；；（2）基于优势的批次重排序（Advantage-based Batch Shuffle），，，，，，，，通过全心设计的批次重排序算法重塑了训练批次的数据漫衍，，，，，，，，以此来增添更有价值轨迹的曝光率。。。。。。。在多个多模态推理基准上的实验效果批注，，，，，，，，Shuffle-R1 在增添少少盘算开销的条件下，，，，，，，，稳固逾越多种强化学习基线。。。。。。。这些效果验证了：以数据为中心的自顺应动态算法，，，，，，，，在提升多模态大模子强化学习效率方面极具潜力。。。。。。。《MobileIPL: Enhancing Mobile Agents Thinking Process via Iterative Preference Learning》* 体现配合第一作者论文作者：黄琨 *，，，，，，，，徐伟恺 *，，，，，，，，刘宇轩，，，，，，，，王全东，，，，，，，，高鹏至，，，，，，，，刘伟，，，，，，，，栾剑，，，，，，，，王斌，，，，，，，，安波论文链接：https://arxiv.org/pdf/2505.12299 Mobile GUI Agent 引入 CoaT（Chain of Action-Planning Thoughts）虽然显著增强了推理与妄想能力，，，，，，，，但在真实落地中仍面临两大焦点瓶颈：其一，，，，，，，，高质量且多样化的 CoaT 轨迹极其稀缺，，，，，，，，导致模子难以获得稳固、可泛化的“思索样本”；；；；；；；；其二，，，，，，，，现有 self-training 往往仅以最终效果作为监视信号，，，，，，，，难以对中心推理办法举行细粒度约束与纠偏，，，，，，，，而引入人工历程标注或 PRM（Process Reward Model）又本钱过高、难以规�；；；；；；；；�。。。。。。。为此，，，，，，，，我们提出 MobileIPL（Iterative Preference Learning）框架，，，，，，，，以更高效、可扩展的方法实现历程监视：（1）Thinking-level DPO（T-DPO）：通过迭代采样构建 CoaT-tree，，，，，，，，对叶子节点举行 rule-based reward 评分，，，，，，，，并团结反向归因将希罕的“效果信号”准确回传至中心思索办法，，，，，，，，从而自动结构高质量偏好对，，，，，，，，一连优化模子的思索历程与探索战略；；；；；；；；（2）Instruction Evolution：引入三阶段指令演化机制（天生 + 过滤），，，，，，，，有用扩展使命漫衍，，，，，，，，显著缓解 warm-up SFT 过拟合，，，，，，，，系统性提升 Agent 的 UI 明确能力与数据多样性。。。。。。。实验批注，，，，，，，，MobileIPL 在 AITZ、AMEX、AndroidControl 等主流 GUI-Agent 基准上取得 SOTA，，，，，，，，并在 OOD（漫衍外）场景中展现出更强的泛化鲁棒性与稳固性。。。。。。。《FutureMind: Equipping Small Language Models with Strategic Thinking-Pattern Priors via Adaptive Knowledge Distillation》论文作者：杨少雄，，，，，，，，李骏霆，，，，，，，，张梦愿，，，，，，，，李超，，，，，，，，刘伟，，，，，，，，栾剑论文链接：https://openreview.net/pdf?id=gX42SSbjcC 在现实营业中，，，，，，，，小语言模子（SLMs）因其低本钱、低时延优势，，，，，，，，被普遍应用于智能问答、知识检索等场景。。。。。。。然而，，，，，，，，面临多跳推理和重大检索等高难度使命，，，，，，，，SLMs 常因缺乏结构化推理流程与系统级检索战略而性能受限。。。。。。。为解决这一瓶颈，，，，，，，，我们提出了 FutureMind，，，，，，，，一种无需特殊训练和参数增量的�？？？？？？榛评砜蚣�，，，，，，，，专注于为学生模子注入可复用的“战略性头脑模式”。。。。。。。 FutureMind 通过自顺应知识蒸馏，，，，，，，，从大型语言模子（LLMs）中提炼出高级认知能力，，，，，，，，包括问题剖析、条件排序、战略妄想及检索决议等头脑先验，，，，，，，，构建了由问题剖析、逻辑推理、战略妄想与检索指导�？？？？？？樽槌傻亩评砹魉�。。。。。。。该流水线辅以三种差别的检索范式（前向、反向及并行检索战略），，，，，，，，有用拆解重大盘问，，，，，，，，显著镌汰无效挪用和冗余检索，，，，，，，，极大提升了推理效率与检索准确率。。。。。。。在多跳问答基准测试上，，，，，，，，我们举行了大宗实验，，，，，，，，效果显示 FutureMind 体现卓越，，，，，，，，逾越了如 Search-o1 等多项强基线模子。。。。。。。在差别模子架构和规模下，，，，，，，，FutureMind 均在无需特殊训练的条件下实现了 SOTA 水平。。。。。。。进一步剖析发明，，，，，，，，头脑模式蒸馏仍受西席模子与学生模子认知误差的瓶颈限制，，，，，，，，该发明为推理能力迁徙提供了全新视角，，，，，，，，也为构建兼具高效性与真正认知能力的轻量级语言模子指明晰未来偏向。。。。。。。《ThinkOmni: Lifting Textual Reasoning to Omni-modal Scenarios via Guidance Decoding》论文作者：管一然，，，，，，，，涂思凡，，，，，，，，梁定康，，，，，，，，朱泠皞，，，，，，，，鞠建忠，，，，，，，，罗振波，，，，，，，，栾剑，，，，，，，，刘禹良，，，，，，，，白翔论文链接：https://openreview.net/pdf?id=pMpCOjzwI1 全模态推理，，，，，，，，是智能系统从理论解题到现实应用的要害一步，，，，，，，，但在现有手艺路径中常面临两大瓶颈：一是现有的全模态大模子虽善于感知多样化模态，，，，，，，，却缺乏类似推理大模子的重大逻辑推理能力，，，，，，，，泛起“感知强、推理弱”的偏科征象；；；；；；；；二是通过特殊训练来提升推理能力门槛极高，，，，，，，，面临高质量数据稀缺、特定使命适配难题以及高昂盘算本钱的挑战。。。。。。。为了应对上述挑战，，，，，，，，本文提出 Training-free 的 ThinkOmni 框架，，，，，，，，旨在将成熟的文本推理能力“零本钱迁徙”至全模态场景，，，，，，，，为具备感知能力的模子外接一个“最强盛脑”举行实时指导，，，，，，，，不再依赖腾贵的模子微协调数据网络，，，，，，，，通过战略指导实现能力的跃升。。。。。。。该框架包括两大焦点组件：LRM-as-a-Guide（使用现成的推理大模子来指导 OLLM 的解码历程，，，，，，，，实现“借智推理”）、Stepwise Contrastive Scaling（自顺应地平衡感知信号与推理信号），，，，，，，，实现“感知基础与推理深度的动态平衡”。。。。。。。ThinkOmni 在六个多模态推理基准上均展现出一致的性能提升，，，，，，，，为推理能力的泛化应用提供了全新思绪。。。。。。。《SMAN-Bench: A Cross-System Benchmark for Mobile Agents under Single- and Multi-path, Ambiguous, and Noisy Tasks》* 体现配合第一作者论文作者：徐伟恺 *，，，，，，，，蒋志政 *，，，，，，，，刘宇轩，，，，，，，，高鹏至，，，，，，，，刘伟，，，，，，，，栾剑，，，，，，，，刘云新，，，，，，，，李元春，，，，，，，，王斌，，，，，，，，安波论文链接：https://openreview.net/pdf?id=IWDpCaSF9Q 项目链接：https://github.com/gezelligheid0314/Mobile-Bench-v2 数据毗连：https://huggingface.co/datasets/xwk123/MobileBench-v2 针对现有 VLM-based 移动 Agent 评测中保存的“在线情形不稳固”与“离线轨迹过于简单”的二元对立难题，，，，，，，，本文正式推出 SMAN-Bench —— 一个基于大规模图结构语料 Mobile3M 构建的跨系统、多维度移动 Agent 评估基准。。。。。。。基于大规模图结构语料 Mobile3M ，，，，，，，，SMAN-Bench 首创了基于槽位的指令天生要领（GIAS），，，，，，，，不但实现了离线情形下的多路径奖励准确评估，，，，，，，，更通过引入真实广告噪声与交互式模糊指令，，，，，，，，构建了高保真的移动操作模拟情形。。。。。。。作为毗连静态数据集与真实动态场景的桥梁，，，，，，，，SMAN-Bench 为量化评估多模态大模子在重大长程使命中的妄想能力、抗滋扰鲁棒性及自动交互智能提供了严谨且通用的实验平台。。。。。。。《Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation》论文作者：姚增伟，，，，，，，，康魏，，，，，，，，朱涵，，，，，，，，郭理勇，，，，，，，，叶凌轩，，，，，，，，匡方军，，，，，，，，庄伟基，，，，，，，，李肇庆，，，，，，，，韩志峰，，，，，，，，林珑，，，，，，，，Daniel Povey 论文链接：https://arxiv.org/pdf/2512.23278 现有主流的音频天生要领主要包括天生对抗网络 (GAN) 以及基于扩散的天生要领 (如 Flow Matching)。。。。。。。其中，，，，，，，，GAN 在训练历程中往往保存收敛缓慢的问题，，，，，，，，而扩散类要领在推理阶段通常需要多步采样，，，，，，，，带来较大的盘算开销。。。。。。。在本文中，，，，，，，，我们提出 Flow2GAN，，，，，，，，一种两阶段的音频天生框架：首先使用 Flow Matching 预训练以学习强盛的天生能力，，，，，，，，随后通过轻量 GAN 微调实现高效的少步以致单步推理。。。。。。。针对音频信号的奇异性子，，，，，，，，我们对 Flow Matching 举行了专门的刷新，，，，，，，，详细包括：（1）将原始目的函数重构为端点预计 (endpoint estimation)，，，，，，，，从而阻止在空能量区域举行速率场预计的优化难题；；；；；；；；（2）引入基于谱能量的损失缩放战略，，，，，，，，以强化对感知上更为主要的低能量 (较清静) 区域的建模。。。。。。。在上述 Flow Matching 刷新的基础上，，，，，，，，我们进一步引入轻量级的 GAN 微调阶段，，，，，，，，使模子能够成为单步天生器，，，，，，，，并在坚持高效推理的同时天生高质量音频。。。。。。。别的，，，，，，，，我们设计了一种多分支网络结构，，，，，，，，在差别时间–频率区分率下对傅里叶系数举行建模，，，，，，，，相比以往的单区分率设计提升了模子的音频建模能力。。。。。。。实验效果批注，，，，，，，，Flow2GAN 能够从 Mel 频谱或离散音频 token 中天生高保真音频，，，，，，，，在天生质量与盘算效率的权衡上优于现有最先进的 GAN 及 Flow Matching 要领。。。。。。。《ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving》* 体现配合第一作者论文作者：李永康 *，，，，，，，，熊凯昕 *，，，，，，，，郭翔宇，，，，，，，，李方，，，，，，，，鄢思旭，，，，，，，，许刚伟，，，，，，，，周丽君，，，，，，，，陈龙，，，，，，，，孙海洋，，，，，，，，王兵，，，，，，，，马昆，，，，，，，，陈光，，，，，，，，叶航军，，，，，，，，刘文予，，，，，，，，王兴刚论文链接：https://arxiv.org/abs/2506.08052 代码链接：https://github.com/xiaomi-research/recogdrive 端到端自动驾驶通过从感知输入中天生车辆轨迹，，，，，，，，在提升系统整体效率与清静性方面具有主要潜力。。。。。。。近年来，，，，，，，，视觉语言模子（VLM）因其富厚的天下知识和推理能力，，，，，，，，被引入自动驾驶以缓解在长尾场景下的泛化问题，，，，，，，，但现有要领多将轨迹妄想建模为语言天生使命，，，，，，，，在离散语言空间中输出行动，，，，，，，，容易导致物理不可行轨迹、名堂过失以及推理效率低下等问题，，，，，，，，同时纯粹依赖模拟学习也难以获得清静且鲁棒的驾驶战略。。。。。。。为此，，，，，，，，本文提出 ReCogDrive，，，，，，，，一种用于端到端自动驾驶的强化认知框架，，，，，，，，通过融合视觉语言模子、扩散式轨迹妄想与强化学习，，，，，，，，实现驾驶明确与妄想的统一建模。。。。。。。该要领首先通太过层认知数据流水线为 VLM 注入人类驾驶认知先验，，，，，，，，随后使用认知指导的扩散妄想器将高层语义映射到一连行动空间，，，，，，，，天生稳固、可执行的驾驶轨迹，，，，，，，，并进一步通过 DiffGRPO 强化学习在仿真情形中直接优化清静性与恬静性。。。。。。。在 NAVSIM 与 Bench2Drive 等基准上的实验效果批注，，，，，，，，ReCogDrive 在开环与闭环评测中均取得了显著优于现有要领的性能，，，，，，，，验证了强化认知框架在端到端自动驾驶中的有用性。。。。。。。《WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving》论文作者：朱子悦，，，，，，，，吴展骞，，，，，，，，朱贞欣，，，，，，，，周丽君，，，，，，，，孙海洋，，，，，，，，王兵，，，，，，，，马昆，，，，，，，，陈光，，，，，，，，叶航军，，，，，，，，谢晋，，，，，，，，杨健论文链接：https://arxiv.org/pdf/2509.23402 自动驾驶场景天生与重修手艺通过天生可扩展、可控的训练数据，，，，，，，，在增强自动驾驶系统的可靠性和清静性等方面具有重大潜力。。。。。。。现有天生要领主要聚焦于合成多样、高保真的驾驶视频，，，，，，，，但由于这些视频的 3D 一致性有限、视角希罕，，，，，，，，难以有用支持新视角合成（NVS）使命。。。。。。。相比之下，，，，，，，，3D/4D 重修要领具有较强的 NVS 性能体现，，，，，，，，但缺乏天生能力。。。。。。。为解决场景天生与重修之间的缺乏，，，，，，，，我们提出 WorldSplat，，，，，，，，一种用于 4D 驾驶场景天生的前向（feed-forward）框架。。。。。。。 PT视讯(中国区)官网要领通过两个要害办法有用地天生具有 3D 一致性的多轨迹视频：（1）提出一个融合多模态信息的 4D-aware 扩散模子，，，，，，，，以前向方法天生像素对齐的 4D Gaussians；；；；；；；；（2）使用增强的 video diffusion model 对由这些 Gaussians 渲染获得的新视角视频举行细化。。。。。。。在多个基准数据集上的大宗实验批注，，，，，，，，WorldSplat 能够高质量地天生具有时、空间一致性的多轨迹新视角驾驶视频。。。。。。。《Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks》* 体现配合第一作者论文作者：曾凯 *，，，，，，，，吴展骞 *，，，，，，，，熊凯昕，，，，，，，，韦小宝，，，，，，，，郭翔宇，，，，，，，，朱贞欣，，，，，，，，何嘉乐，，，，，，，，周丽君，，，，，，，，曾博涵，，，，，，，，陆鸣，，，，，，，，孙海洋，，，，，，，，王兵，，，，，，，，陈光，，，，，，，，叶航军，，，，，，，，张文涛论文链接：https://arxiv.org/abs/2510.19195 本文提出 Dream4Drive 框架，，，，，，，，重新审阅自动驾驶天下模子在下游感知使命中的应用价值，，，，，，，，突破“合成数据越多越好”的固有认知与古板要领依赖“刷 epoch”的训练逆境。。。。。。。通过 3D 感知指导图剖析、3D 资产编辑与天下模子渲染的焦点流程，，，，，，，，实现对目的位姿、轨迹和外观的精准控制，，，，，，，，天生多视角一致、照片级真实感的驾驶视频，，，，，，，，同时配套构建大规模 3D 资产数据集 DriveObj3D。。。。。。。实验批注，，，，，，，，在训练轮次严酷对齐的条件下，，，，，，，，仅使用缺乏真实数据量 2% 的 420 个高质量合成样本，，，，，，，，训练出的感知模子性能便逾越纯粹实数据训练的基线模子，，，，，，，，首次明确验证了高质量合成数据而非数据规�；；；；；；；；蜓盗仿执�，，，，，，，，是提升自动驾驶感知性能的要害驱动力，，，，，，，，为缓解真实数据稀缺、突破感知使命瓶颈提供了全新解决计划。。。。。。。《Dichotomous Diffusion Policy Optimization》* 体现配合第一作者论文作者：梁睿鸣 *，，，，，，，，郑一楠 *，，，，，，，，�？？？？？？绍� *，，，，，，，，谭添一 *，，，，，，，，李健雄，，，，，，，，毛力源，，，，，，，，王志豪，，，，，，，，陈光，，，，，，，，叶航军，，，，，，，，刘菁菁，，，，，，，，王金桥，，，，，，，，詹仙园论文链接：https://arxiv.org/pdf/2601.00898 基于扩散模子的战略因其强表达能力和推理阶段的可控天生，，，，，，，，在决议使命中受到普遍关注，，，，，，，，但使用强化学习稳固训练大规模扩散战略仍具挑战。。。。。。。现有要领要么直接优化价值目的导致训练不稳固，，，，，，，，要么依赖粗糙的高斯似然近似，，，，，，，，盘算开销大且需要大宗去噪步数。。。。。。。本文提出一种稳固且可控的扩散战略优化算法 DIPOLE（Dichotomous Diffusion Policy Improvement）。。。。。。。通过重新审阅 KL 正则化强化学习目的，，，，，，，，我们提出贪心化战略正则化，，，，，，，，将最优战略剖析为奖励最大化与最小化的二分战略。。。。。。。推理时通过线性组合两者的概率分数天生行动，，，，，，，，从而无邪控制战略贪心性。。。。。。。实验批注，，，，，，，，DIPOLE 不但在 ExORL、OGBench 上取得显著提升，，，，，，，，还在参数规模达 10 亿的 VLA 模子上乐成验证，，，，，，，，并且在真实天下自动驾驶基准 NAVSIM 中展现出优异性能。。。。。。。