延迟下降20×,,,,,,token镌汰4.4×!突破多智能体「共识」瓶颈
2026-03-01 05:32:37

新智元报道

编辑:LRST

【新智元导读】多智能体AI系统需要明确的共识机制来协调差别AI主体的决议。。 。。。新理论框架将多智能体推理建模为漫衍式共识历程,,,,,,大幅提升系统性能,,,,,,降低延迟和盘算本钱,,,,,,使多智能体AI从实验阶段迈向现实应用。。 。。。

已往一年,,,,,,LLM Agent险些成为所有 AI 研究团队与工业界的配合偏向。。 。。。

OpenAI在一连推进更强的推理与工具使用能力,,,,,,Google DeepMind将推理显式建模为搜索问题,,,,,,Anthropic则通过规范与自我批判提升模子可靠性。。 。。。

一个很是清晰的行业趋势正在形成:单模子能力正在靠近结构性界线,,,,,,多智能体被视为下一步。。 。。。

Advaita Research/Hetu团结首创人Jialin Li宣布的最新研究论文,,,,,,为多智能体协作共识提出了明确的理论框架,,,,,,并给出了一组生产级系统指标的跃迁式改善:在accuracy基本稳固的条件下,,,,,,实现最高20×端到端延迟下降,,,,,,最高11×的P99尾延迟改善,,,,,,以及最高4.4×的token本钱削减。。 。。。

论文链接:https://arxiv.org/pdf/2512.20184

英文版链接:https://x.com/advaita_labs/status/2018576622048473241

这项事情将多智能体推理的问题,,,,,,从prompt与workflow设计,,,,,,重新拉回到系统设计和工程层面:一致性语义、阻止条件与尾延迟治理。。 。。。

在工程语境中,,,,,,论文给出的焦点判断可以归纳综合为一句话:目今多智能系一切,,,,,,缺乏一套明确的Agentic Consensus(智能体共识)系统语义。。 。。。

Advaita Research / Hetu CMO Stephanie Yu从系统工程视角对论文举行相识读。。 。。。

研究配景

在目今主流蹊径中,,,,,,大型研究机构对Agent的探索大致可以分为三类,,,,,,但它们在一个要害问题上坚持了配合的默然:当多个随机推理主体并行事情时,,,,,,系统何时可以以为已经告竣稳固一致?? ?? ?

OpenAI:强化单主体推理能力

OpenAI的蹊径始终围绕test-time scaling,,,,,,包括self-consistency、多路径推理、更强的 chain-of-thought、更成熟的 tool use。。 。。。

该系统在单主体条件下具有很是清晰的工程优势:推理质量高度可控、行为一致性强、工程重漂后集中。。 。。。

其隐含条件同样明确:系统只有一个决议主体。。 。。。

一旦扩展为多个planner、多个actor并行执行,,,,,,一致性不再由模子内部包管,,,,,,而被外包给上层workflow的规则组合。。 。。。

Google DeepMind搜索式推理

Tree-of-Thoughts等要领将推理显式建模为搜索问题,,,,,,通过评估函数在候选路径中选择最优解。。 。。。

该范式在离线推理和数学问题上体现稳固,,,,,,但在系统层面泛起出两个显着特征:推理历程高度同步、阻止条件由搜索深度或预算上限决议。。 。。。

实质上,,,,,,这类要领优化的是路径质量,,,,,,而不是在并发、延迟与本钱约束下的决议时机问题。。 。。。

Anthropic/Meta启发式协调

Anthropic的constitutional debate,,,,,,以及Meta、Stanford 提出的多 Agent debate / society-of-minds,,,,,,引入了多主体交互。。 。。。

在工程实现上,,,,,,这类系统通常依赖:牢靠agent数、牢靠轮数、barrier synchronization(期待所有 agent 完成)、大都投票或规则聚合。。 。。。

但这些机制并没有给出稳固一致性的系统界说。。 。。。

当主流Agent蹊径仍在强化「怎样更好地推理」,,,,,,将多智能体视为推理技巧的叠加时,,,,,,

Advaita Research的这项研究把问题下沉到了系统层:在多个随机推理主体并行时,,,,,,怎样界说、验证并稳固告竣一致。。 。。。

把多智能体当身漫衍式系统

论文提出的焦点要领系统为Aegean,,,,,,其基础重构在于:多智能体推理不再被视为workflow编排问题,,,,,,而被建模为一个漫衍式共识历程。。 。。。

差别于古板漫衍式系统,,,,,,智能体决议泛起随机不确定性,,,,,,使得现有共识协议架构无法适用。。 。。。论文针对多智能体情形提出了新的共识理论框架,,,,,,并给出了严谨的多智能体共识的准确性界说。。 。。。

论文之后基于理论框架提出了新的共识协议。。 。。。其焦点机制包括三点:

(1)Quorum-fast,,,,,,而不是wait-all

系统不再期待所有agent,,,,,,只要抵达 quorum 即推进决议,,,,,,延迟不再由最慢 agent 决议。。 。。。

(2)稳固性窗口(β),,,,,,而不是「一致就停」

一致性必需在时间维度上一连保存,,,,,,才华被视为有用共识,,,,,,从而过滤暂时性大都。。 。。。

(3)Streaming共识与即时作废

在token天生历程中一连检测共识状态,,,,,,一旦知足稳固条件,,,,,,连忙终止剩余天生。。 。。。

详细效果与实验剖析

论文指出:多智能体推理,,,,,,实质上是运行在随机推理主体之上的漫衍式共识问题。。 。。。

一旦缺乏明确的共识语义,,,,,,工程失败并非偶发,,,,,,而是泛起出高度可展望的系统性模式。。 。。。

暂时性一致:大都并不稳固问题

论文系统性丈量了decision flip征象(在现有Agent workflow中险些未被显式建模)。。 。。。

效果显示:在引入agent间 reasoning exchange后,,,,,,准确率提升的同时,,,,,,大都决议在相邻轮次爆发反转的频率显著上升。。 。。。

以MMLU为例:100个样本中泛起64次 decision flip,,,,,,意味着系统在一连轮次中重复改变大都结论。。 。。。

在缺乏稳固性约束时,,,,,,任何基于「目今大都」的提前阻止或投票机制,,,,,,都可能爆发在transient agreement(暂时性一致)上。。 。。。

这不是推理能力问题,,,,,,而是共识未被界说的问题。。 。。。

同步模子过失:P99被最慢agent界说

目今多Agent系统普遍接纳barrier synchronization,,,,,,论文在AIME(1 req/s)场景下,,,,,,比照了主流做法与引入共识机制后的系统体现:

多Agent baseline(MaxRound = 6)最慢请求为6571秒,,,,,,P99 延迟为8749秒

引入共识机制后,,,,,,最慢请求约325秒,,,,,,P99延迟为772 秒;;;;;;;;

在相同使命条件下:P99 延迟改善约11×,,,,,,平均延迟改善约20×

该差别并非来自模子推理能力,,,,,,而来自同步范式从「等所有人」转向「告竣共识即可推进」。。 。。。

算力铺张:token消耗爆发在收敛之后

论文进一步量化了多智能系一切中恒久被忽视的问题:收敛之后的无效盘算。。 。。。

在多个基准使命上,,,,,,引入Agentic Consensus后:

GSM8K:4.4×镌汰(约 1.3K vs 5.7K)

MMLU:3.3×镌汰(约 3.3K vs 10.7K)

AIME:1.3×镌汰(约 46.0K vs 59.9K)

IMO:1.1×镌汰(约 64.8K vs 73.8K)

与此同时,,,,,,accuracy波动被控制在约2.5%以内。。 。。。

这批注:token本钱下降来自共识驱动的早停与作废机制,,,,,,而不是通过牺牲质量实现。。 。。。

数字描绘了系统界线

在引入Agentic Consensus(Advaita Research 提出的多智能体共识建模要领)后,,,,,,系统行为泛起了清晰的数目级转变:平均延迟降低1.2–20×,,,,,,P99尾延迟最高改善11×,,,,,,token消耗降低1.1–4.4×,,,,,,accuracy波动约2.5%

这些指标配合指向统一个系统级结论:多智能体推理的性能瓶颈,,,,,,并不来自模子能力,,,,,,而来自协作机制是否具备可操作的共识语义。。 。。。

工程判断与应用远景

Agentic Consensus并不是一个附加能力,,,,,,而是一条明确的系统分界线。。 。。。

当Agent作为真实系统中的行动单位运行时,,,,,,问题不再是:「单个模子能否推理得更好」,,,,,,而是在多个随机推理主体并行的情形下,,,,,,系统是否具备可判断、可阻止、可扩展的一致性语义。。 。。。

论文给出的焦点判断标准是:若是一个多智能系一切无法明确回覆「何时算告竣一致、何时可以清静阻止、延迟由谁决议」,,,,,,那它在工程上仍停留在workflow,,,,,,而非系统。。 。。。

从这个角度看:decision flip、P99被最慢agent界说、收敛后的token铺张,,,,,,都不是实现细节上的瑕疵,,,,,,而是系统尚未进入「共识可操作阶段」的信号。。 。。。

Advaita Research的这项事情,,,,,,并不是提出一种新的Agent玩法,,,,,,而是把Agentic Consensus提升为一个工程判断标准:多智能体推理,,,,,,是否已经从「推理技巧的叠加」,,,,,,迈入「具备可验证共识语义的系统」。。 。。。

当这个标准建设,,,,,,多智能体才华真正从demo走向production;;;;;;;;当它不建设,,,,,,再重大的推理流程,,,,,,也执偾在同步本钱之上叠加盘算。。 。。。

参考资料:

https://arxiv.org/pdf/2512.20184