TodoRL团队效果:让AI像工匠一样为每个使命量身定做执行计划
2026-02-27 10:04:15

这项由多个顶级研究机构团结开展的研究揭晓在2026年2月的arXiv预印本效劳器上,,,,,,,,论文编号为arXiv:2602.07839v1。 。 。。。。研究团队来自海内外着名学术机构,,,,,,,,他们在智能体妄想系统方面取得了主要突破。 。 。。。。有兴趣深入相识手艺细节的读者可以通过该编号在arXiv上盘问完整论文。 。 。。。。

当你需要完成一项重大使命时,,,,,,,,好比策划一场生日聚会,,,,,,,,你会怎么做??????有些人喜欢列个清单,,,,,,,,按办法一项项完成 ;;;;;;有些人则喜欢同时准备多件事,,,,,,,,好比一边订蛋糕一边联系朋侪 ;;;;;;尚有些人会凭证情形随时调解妄想。 。 。。。。每小我私家都有自己的做事气概,,,,,,,,并且针对差别的使命,,,,,,,,最有用的要领往往也差别。 。 。。。。

现在的人工智能也面临着类似的问题。 。 。。。。当AI需要完成重大使命时,,,,,,,,好比帮你查找资料、剖析数据或解决问题,,,,,,,,它们也需要有一套"做事的要领",,,,,,,,这就是我们所说的妄想系统。 。 。。。。但现在大大都AI都像是被牢靠了做事气概的人一样,,,,,,,,不管面临什么使命,,,,,,,,都用统一套要领行止置。 。 。。。。这就像让一个只会按部就班做事的人行止置所有类型的事情,,,,,,,,效果往往不尽如人意。 。 。。。。

研究团队发明了这个问题的实质:没有一种万能的做事要领能够适用于所有情形。 。 。。。。就像你不会用筹营生日聚会的要领去准备学术报告一样,,,,,,,,AI处置惩罚差别类型的使命时,,,,,,,,也应该接纳差别的妄想战略。 。 。。。。于是,,,,,,,,他们开发了一个名为TodoEvolve的系统,,,,,,,,这个系统就像一个智能工匠,,,,,,,,能够凭证每个详细使命的特点,,,,,,,,量身定制最合适的执行计划。 。 。。。。

为了实现这个目的,,,,,,,,研究团队首先建设了一个叫做PlanFactory的"工具箱"。 。 。。。。这个工具箱就像一个包括种种工具和模板的万能事情台,,,,,,,,内里网络了现有的种种AI妄想要领,,,,,,,,并把它们标准化整理。 。 。。。。就像木匠的工具箱里有锯子、刨子、凿子等种种工具,,,,,,,,PlanFactory里也包括了线性妄想、图形妄想、条理妄想等种种要领。 。 。。。。

接下来,,,,,,,,他们训练了一个叫做Todo-14B的"智能工匠"。 。 。。。。这个工匠的特殊能力就是能够看懂使命的特点,,,,,,,,然后从PlanFactory这个工具箱里选择和组合最合适的工具来完成事情。 。 。。。。好比,,,,,,,,扑面临需要同时处置惩罚多个自力部分的使命时,,,,,,,,它会选择并行处置惩罚的要领 ;;;;;;扑面临需要严酷按办法执行的使命时,,,,,,,,它会选择线性处置惩罚的要领。 。 。。。。

一、从万能钥匙到定制钥匙:AI妄想的新思绪

已往的AI妄想系统就像试图用一把万能钥匙开所有的锁。 。 。。。。研究职员发明,,,,,,,,现有的AI系统在处置惩罚重大使命时,,,,,,,,往往接纳牢靠的妄想模式。 。 。。。。好比,,,,,,,,有些系统总是喜欢把使命剖析成一连串的办法,,,,,,,,一步步按顺序执行 ;;;;;;有些系统则偏向于把使命拆分成多个部分,,,,,,,,然后同时处置惩罚。 。 。。。。

但现真相形是,,,,,,,,差别的使命需要差别的处置惩罚方法。 。 。。。。就好比修理一台机械和烹饪一道菜需要完全差别的要领。 。 。。。。修理机械需要严酷凭证办法举行,,,,,,,,由于前一步没完成绩无法举行下一步 ;;;;;;而烹饪则可能需要同时举行多项准备事情,,,,,,,,好比一边煮汤一边切菜。 。 。。。。

研究团队通过大宗实验发明了一个主要纪律:纵然在统一个使命种别内,,,,,,,,最优的妄想要领也会因详细情形而异。 。 。。。。举个例子,,,,,,,,在网络搜索使命中,,,,,,,,若是只是查找简朴信息,,,,,,,,用直线型的办法妄想就很高效,,,,,,,,节约时间和盘算资源 ;;;;;;但若是需要处置惩罚重大的多媒体内容,,,,,,,,接纳网状的并行妄想往往效果更好,,,,,,,,虽然消耗更多资源,,,,,,,,但能获得更准确的效果。 。 。。。。

这种发明彻底改变了他们的研究思绪。 。 。。。。与其继续寻找那把不保存的"万能钥匙",,,,,,,,不如开发一个能够为每把锁量身定制专属钥匙的系统。 。 。。。。这就是TodoEvolve降生的焦点理念:让AI学会凭证使命的详细特点,,,,,,,,自主设计最合适的妄想战略。 。 。。。。

这种要领的优势显而易见。 。 。。。。古板的牢靠妄想系统就像衣着不对身的衣服事情,,,,,,,,总有些地方不恬静 ;;;;;;而TodoEvolve则像拥有了一个私人裁缝,,,,,,,,能够为每个使命量身定制最合适的"事情服"。 。 。。。。不但提高了事情效率,,,,,,,,还能凭证详细情形在速率和准确性之间找到最佳平衡点。 。 。。。。

二、PlanFactory:AI妄想系统的乐高积木盒

为了实现这个愿景,,,,,,,,研究团队首先需要解决一个基础问题:怎样把现有的种种AI妄想要领整合到一个统一的框架中??????这就像要把天下各地差别气概的修建手艺整合到一个通用的修建工具包里。 。 。。。。

他们开发的PlanFactory就像一个超等乐高积木盒,,,,,,,,内里的每个组件都可以自由组合。 。 。。。。这个系统巧妙地将所有妄想要领剖析为四个基本维度,,,,,,,,就像乐高积木有差别的形状、巨细和颜色一样。 。 。。。。

第一个维度是"拓扑结构",,,,,,,,简朴说就是使命的组织方法。 。 。。。。有些使命像一条直线,,,,,,,,需要一步接一步地完成,,,,,,,,好比做化学实验 ;;;;;;有些使命像一张网络,,,,,,,,各个部分可以同时举行,,,,,,,,好比准备一场聚会时可以同时联系园地、准备质料和约请嘉宾 ;;;;;;尚有些使命像一棵树,,,,,,,,有主干和分支的条理关系。 。 。。。。

第二个维度是"初始化机制",,,,,,,,也就是使命最先时的设置方法。 。 。。。。有些系统喜畛刳最先前就把所有细节都妄想好,,,,,,,,就像出门旅行前制订详细的行程表 ;;;;;;有些系统则偏向于先设定大偏向,,,,,,,,然后在执行历程中逐步细化,,,,,,,,就像边走边看的自由行。 。 。。。。

第三个维度是"顺应性调理",,,,,,,,即系统怎样凭证现真相形调解妄想。 。 。。。。有些系统会按期检查希望并调解战略,,,,,,,,就像导航软件会凭证交通状态重新妄想蹊径 ;;;;;;有些系统只有在遇到显着问题时才会改变妄想,,,,,,,,就像只有在遇到堵车时才会换路的司机。 。 。。。。

第四个维度是"导航执行",,,,,,,,也就是系统怎样决议下一步该做什么。 。 。。。。有些系统严酷凭证预定顺序执行,,,,,,,,有些系统会凭证目今情形无邪选择,,,,,,,,尚有些系统会同时推进多个使命。 。 。。。。

通过这四个维度的差别组合,,,,,,,,PlanFactory可以形貌和实现种种现有的妄想要领。 。 。。。。更主要的是,,,,,,,,它为创立新的妄想要领提供了可能。 。 。。。。就像用相同的乐高积木可以拼出无数种差别的造型一样,,,,,,,,通过这四个维度的差别组合,,,,,,,,可以爆发出针对特定使命优化的全新妄想战略。 。 。。。。

研究团队在PlanFactory中实现了十种代表性的妄想系统,,,,,,,,包括线性妄想、有向无环图妄想、条理妄想等等。 。 。。。。每种要领都被拆解成这四个基本组件,,,,,,,,然后在统一的框架下重新实现。 。 。。。。这就像把差别品牌的汽车零件都刷新成标准规格,,,,,,,,这样就可以自由组装出种种新的汽车型号。 。 。。。。

三、Todo-14B:会量文体衣的AI妄想师

有了PlanFactory这个工具箱,,,,,,,,下一步就是训练一个能够智能选择和组合工具的"师傅"。 。 。。。。Todo-14B就是这样一个智能妄想师,,,,,,,,它的焦点能力是能够明确使命的特点,,,,,,,,然后设计出最适合的执行计划。 。 。。。。

训练这样一个智能妄想师并不简朴。 。 。。。。首先需要让它学会识别差别类型的使命特征。 。 。。。。就像一个履历富厚的裁缝能够一眼看出主顾的体型特点,,,,,,,,从而决议接纳什么样的裁剪要领,,,,,,,,Todo-14B也需要学会"读懂"使命的特征。 。 。。。。

研究团队接纳了一种立异的训练要领,,,,,,,,叫做"阻抗指导偏好优化"。 。 。。。。这个名字听起来很重大,,,,,,,,但原理着实很直观。 。 。。。。在电子学中,,,,,,,,阻抗是电路对电流流动的阻碍水平。 。 。。。。研究团队借用这个看法,,,,,,,,将AI执行使命时遇到的种种阻碍(好比时间消耗、过失次数、资源铺张等)统称为"认知阻抗"。 。 。。。。

训练的目的很明确:让Todo-14B学会设计出认知阻抗最小的妄想计划。 。 。。。。这就像训练一个司机不但要抵达目的地,,,,,,,,还要选择最省油、最省时、最恬静的蹊径。 。 。。。。系统需要在多个目的之间找到最佳平衡点:既要包管使命完成得又快又准确,,,,,,,,又要只管节约盘算资源。 。 。。。。

为了实现这个目的,,,,,,,,研究团队设计了一个巧妙的训练流程。 。 。。。。他们首先让Todo-14B视察大宗的使命执行案例,,,,,,,,就像让学徒观摩师傅事情。 。 。。。。然后让它实验为类似的使命设计妄想计划,,,,,,,,并在现实执行中磨练效果。 。 。。。。通过一直的试验和刷新,,,,,,,,Todo-14B逐渐学会了为差别类型的使命量身定制最优的执行战略。 。 。。。。

训练历程中,,,,,,,,系统不但要学会选择合适的妄想要领,,,,,,,,还要学会在执行历程中动态调解。 。 。。。。就像一个好的项目司理不但会制订初始妄想,,,,,,,,还会凭证现实希望情形无邪调解战略。 。 。。。。若是发明某个办法比预期难题,,,,,,,,Todo-14B会自动调解后续妄想 ;;;;;;若是发明某些使命可以并行处置惩罚,,,,,,,,它会重新组织执行顺序。 。 。。。。

最终训练出来的Todo-14B具备了强盛的顺应性。 。 。。。。面临从未见过的新使命,,,,,,,,它能够快速剖析使命特点,,,,,,,,从PlanFactory的工具箱中选择合适的组件,,,,,,,,然后组装成一个定制化的妄想系统。 。 。。。。整个历程就像一个履历富厚的工匠面临新的工程项目,,,,,,,,能够快速评估需求,,,,,,,,选择工具,,,,,,,,制订计划。 。 。。。。

四、从理论到实践:TodoEvolve的卓越体现

理论再好,,,,,,,,也需要实践磨练。 。 。。。。研究团队在五个差别类型的测试平台上验证了TodoEvolve的效果,,,,,,,,效果令人印象深刻。 。 。。。。这些测试涵盖了网页浏览、数据剖析、重大推理等种种AI应用场景,,,,,,,,就像给一个万能运发动安排了游泳、跑步、体操等多项角逐。 。 。。。。

在GAIA测试中,,,,,,,,这是一个专门测试AI通用助手能力的权威平台,,,,,,,,TodoEvolve取得了显著的性能提升。 。 。。。。当它与现有的Smolagents系统结适时,,,,,,,,整体体现提高了16.37%。 。 。。。。这就像给一个已经很优异的运发动配备了专业教练,,,,,,,,效果连忙有了显著提升。 。 。。。。

更令人惊喜的是,,,,,,,,TodoEvolve的优势在差别类型的AI模子上都获得了验证。 。 。。。。无论是使用GPT-5-Mini、DeepSeek V3.2照旧Kimi K2等差别的基础模子,,,,,,,,TodoEvolve都能带来一致的性能提升。 。 。。。。这说明它的价值不依赖于特定的AI手艺,,,,,,,,而是一种通用的能力增强计划。 。 。。。。

在重大推理使命上,,,,,,,,TodoEvolve的体现尤其精彩。 。 。。。。在GAIA Level 3这个最具挑战性的测试项目中,,,,,,,,使用开源模子DeepSeek V3.2的TodoEvolve系统抵达了53.85%的乐成率。 。 。。。。这个效果不但逾越了使用更强盛商业模子GPT-4.1的标准系统,,,,,,,,甚至抵达了需要多次实验才华获得的最佳效果水平。 。 。。。。这就像让一个业余选手通过专业训练,,,,,,,,在某些项目上逾越了职业选手。 。 。。。。

效率方面的体现同样令人瞩目。 。 。。。。TodoEvolve不但提高了使命完成的准确率,,,,,,,,还坚持了合理的资源消耗。 。 。。。。在WebWalker-QA测试中,,,,,,,,它的准确率抵达70%,,,,,,,,比最佳基线系统提高了10个百分点,,,,,,,,而盘算本钱的增添却很有限。 。 。。。。这种高性价比的体现,,,,,,,,就像找到了一种既能提高产品质量又不会大幅增添本钱的生产要领。 。 。。。。

研究团队还专门测试了TodoEvolve在差别类型使命上的顺应性。 。 。。。。他们发明,,,,,,,,系统确实能够凭证使命特点选择差别的妄想战略。 。 。。。。关于需要严酷按办法执行的使命,,,,,,,,它会选择线性妄想 ;;;;;;关于可以并行处置惩罚的使命,,,,,,,,它会选择网状妄想 ;;;;;;关于需要条理化治理的重大使命,,,,,,,,它会选择树形妄想。 。 。。。。这种智能选择能力,,,,,,,,正是古板牢靠妄想系统所缺乏的。 。 。。。。

通过详细的性能剖析,,,,,,,,研究团队发明TodoEvolve的优势主要体现在三个方面。 。 。。。。首先是更高的使命乐成率,,,,,,,,由于它能为每个使命选择最合适的处置惩罚方法。 。 。。。。其次是更好的执行稳固性,,,,,,,,由于它会凭证执行情形动态调解战略。 。 。。。。最后是更优的资源使用效率,,,,,,,,由于它阻止了不须要的盘算铺张。 。 。。。。

五、手艺立异的三大支柱

TodoEvolve的乐成建设在三个要害手艺立异之上,,,,,,,,每一个都解决了AI妄想领域的主要问题。 。 。。。。

第一个立异是统一的设计空间。 。 。。。。在TodoEvolve之前,,,,,,,,AI妄想就像修建行业的早期阶段,,,,,,,,每个修建师都有自己的要领和标准,,,,,,,,很难相互借鉴和较量。 。 。。。。PlanFactory的泛起就像制订了修建行业的统一标准,,,,,,,,让差别的妄想要领能够在统一个框架下举行较量和组合。 。 。。。。这不但简化了研究事情,,,,,,,,也为立异提供了更好的基础。 。 。。。。

第二个立异是阻抗指导的偏好优化要领。 。 。。。。古板的AI训练往往只关注效果是否准确,,,,,,,,就像只看考试效果而不体贴学习历程。 。 。。。。而IGPO要领不但要求效果准确,,,,,,,,还要求历程高效。 。 。。。。它会综合思量完成使命的时间、消耗的资源、出错的次数等多个因素,,,,,,,,训练AI寻找最优的执行路径。 。 。。。。这就像训练运发动不但要跑得快,,,,,,,,还要跑得省力、跑得稳固。 。 。。。。

第三个立异是动态架构合成能力。 。 。。。。古板的AI系统在设计时就确定了架构,,,,,,,,就像预制衡宇,,,,,,,,虽然制作快速但无法凭证详细需求调解。 。 。。。。TodoEvolve则像拥有了一个智能修建师,,,,,,,,能够凭证每个项目的详细要求设计专属的修建计划。 。 。。。。这种动态顺应能力是TodoEvolve逾越古板系统的要害所在。 。 。。。。

这三个立异相互支持,,,,,,,,形成了一个完整的手艺系统。 。 。。。。统一的设计空间提供了工具和质料,,,,,,,,阻抗指导的优化要领提供了质量标准,,,,,,,,动态架构合成提供了定制能力。 。 。。。。三者团结,,,,,,,,就像拥有了齐全的工具、明确的标准和专业的手艺,,,,,,,,能够为每个详细使命提供最优的解决计划。 。 。。。。

研究团队在论文中详细叙述了这些手艺的事情原理和实现细节。 。 。。。。他们不但提供了理论剖析,,,,,,,,还通过大宗实验验证了每个组件的有用性。 。 。。。。通过逐一去除某些组件的比照实验,,,,,,,,他们证实晰每个立异都对整体性能有着不可替换的孝顺。 。 。。。。

六、从实验室走向现实应用

TodoEvolve的价值不但仅体现在实验室测试中,,,,,,,,更主要的是它为AI手艺的现实应用开发了新的可能性。 。 。。。。

在现实应用场景中,,,,,,,,差别的使命往往有着截然差别的要求。 。 。。。。好比,,,,,,,,医疗诊断系统需要极高的准确性,,,,,,,,宁愿多花时间也不可蜕化 ;;;;;;而在线客服系统则需要快速响应,,,,,,,,在包管基本准确性的条件下只管缩短期待时间 ;;;;;;金融风控系统需要在速率和准确性之间找到最佳平衡点。 。 。。。。古板的AI系统很难同时知足这些差别的需求,,,,,,,,而TodoEvolve则能够凭证详细应用场景动态调解战略。 。 。。。。

研究团队展示了几个详细的应用案例。 。 。。。。在处置惩罚需要多办法过滤和盘算的重大盘问时,,,,,,,,TodoEvolve会自动选择线性执行模式,,,,,,,,确保每一步都在前一步的基础上准确举行。 。 。。。。扑面临需要同时从多个源头网络信息的使命时,,,,,,,,它会接纳并行处置惩罚模式,,,,,,,,大大提高效率。 。 。。。。关于需要处置惩罚重大实体关系的使命,,,,,,,,它会构建图形化的处置惩罚流程,,,,,,,,确保所有相关信息都能被准确整合。 。 。。。。

这种顺应性不但提高了系统性能,,,,,,,,还大大简化了AI系统的安排和维护事情。 。 。。。。古板的要领需要为差别类型的使命开发专门的系统,,,,,,,,就像需要为差别的事情准备差别的工具。 。 。。。。而TodoEvolve就像拥有了一个万能工匠,,,,,,,,能够凭证需要调解自己的事情方法,,,,,,,,一个系统就能胜任多种差别的事情。 。 。。。。

从手艺生长的角度看,,,,,,,,TodoEvolve代表了AI系统设计思绪的主要转变。 。 。。。。已往,,,,,,,,我们倾向于设计功效简单但性能优异的专用系统,,,,,,,,就像制造专业工具。 。 。。。。现在,,,,,,,,我们最先探索怎样让AI系统具备更强的顺应性和通用性,,,,,,,,就像作育万能的人才。 。 。。。。这种转变不但提高了AI系统的适用价值,,,,,,,,也为未来更重大的AI应用涤讪了基础。 。 。。。。

展望未来,,,,,,,,TodoEvolve的手艺理念可能会影响更普遍的AI研发领域。 。 。。。。当AI系统能够凭证使命特点自主调解架构和战略时,,,,,,,,我们就朝着真正智能的AI系统迈出了主要一步。 。 。。。。这不但是手艺的前进,,,,,,,,更是AI系统设计哲学的刷新。 。 。。。。

说究竟,,,,,,,,TodoEvolve的乐成证实晰一个主要看法:最好的AI系统不是那些在简单使命上体现完善的系统,,,,,,,,而是那些能够凭证差别需求无邪调解、一连优化的系统。 。 。。。。就像最优异的工匠不是只会一种手艺的专家,,,,,,,,而是能够凭证差别项目需求无邪运用种种手艺的全才。 。 。。。。

这项研究为AI手艺的生长开发了新的偏向。 。 。。。。它告诉我们,,,,,,,,与其追求万能的AI系统,,,,,,,,不如开发能够自我顺应的智能系统。 。 。。。。这种系统不但能够应对目今的种种挑战,,,,,,,,更主要的是,,,,,,,,它具备了面临未知挑战的能力。 。 。。。。当新的使命类型泛起时,,,,,,,,它能够快速学习和顺应,,,,,,,,就像一个履历富厚的专家面临新问题时的从容不迫。 。 。。。。

关于通俗用户而言,,,,,,,,这意味着未来的AI助手将越发智能和高效。 。 。。。。无论你需要AI资助处置惩罚什么类型的事情,,,,,,,,它都能够自动选择最合适的事情方法,,,,,,,,为你提供最优质的效劳。 。 。。。。这不是科幻影戏中的想象,,,,,,,,而是正在成为现实的手艺突破。 。 。。。。

Q&A

Q1:TodoEvolve和古板AI妄想系统有什么实质区别??????

A:古板AI妄想系统就像只会一种做事要领的人,,,,,,,,不管面临什么使命都用同样的方法处置惩罚。 。 。。。。而TodoEvolve就像一个履历富厚的工匠,,,,,,,,能够凭证每个详细使命的特点,,,,,,,,自动选择和设计最合适的处置惩罚要领。 。 。。。。好比处置惩罚需要严酷按办法的使命时用线性要领,,,,,,,,处置惩罚可以同时举行的使命时用并行要领。 。 。。。。

Q2:通俗用户能感受到TodoEvolve带来的改变吗??????

A:虽然能感受到。 。 。。。。使用配备TodoEvolve的AI系统时,,,,,,,,你会发明它处置惩罚差别类型使命的效率显着提高了。 。 。。。。好比让AI帮你查资料时,,,,,,,,它会凭证盘问的庞洪水平自动调解事情方法,,,,,,,,简朴盘问快速完成,,,,,,,,重大盘问则会更仔细更准确。 。 。。。。就像有了一个真正明确你需求的智能助手。 。 。。。。

Q3:TodoEvolve需要什么样的硬件设置才华运行??????

A:研究团队设计TodoEv湖北光谷新能源有限公司olve时就思量了适用性,,,,,,,,它可以在多种差别的AI模子上运行,,,,,,,,包括开源模子如DeepSeek V3.2和商业模子如GPT-5-Mini等。 。 。。。。这意味着不需要特殊的硬件设置,,,,,,,,现有的AI系统通过软件升级就能获得TodoEvolve的能力增强。 。 。。。。