延迟下降20×，，，，，，token镌汰4.4×！突破多智能体「共识」瓶颈

2026-03-01 05:32:37

新智元报道

编辑：LRST

【新智元导读】多智能体AI系统需要明确的共识机制来协调差别AI主体的决议。。。。。新理论框架将多智能体推理建模为漫衍式共识历程，，，，，，大幅提升系统性能，，，，，，降低延迟和盘算本钱，，，，，，使多智能体AI从实验阶段迈向现实应用。。。。。

已往一年，，，，，，LLM Agent险些成为所有 AI 研究团队与工业界的配合偏向。。。。。

OpenAI在一连推进更强的推理与工具使用能力，，，，，，Google DeepMind将推理显式建模为搜索问题，，，，，，Anthropic则通过规范与自我批判提升模子可靠性。。。。。

一个很是清晰的行业趋势正在形成：单模子能力正在靠近结构性界线，，，，，，多智能体被视为下一步。。。。。

Advaita Research/Hetu团结首创人Jialin Li宣布的最新研究论文，，，，，，为多智能体协作共识提出了明确的理论框架，，，，，，并给出了一组生产级系统指标的跃迁式改善：在accuracy基本稳固的条件下，，，，，，实现最高20×端到端延迟下降，，，，，，最高11×的P99尾延迟改善，，，，，，以及最高4.4×的token本钱削减。。。。。

论文链接：https://arxiv.org/pdf/2512.20184

英文版链接：https://x.com/advaita_labs/status/2018576622048473241

这项事情将多智能体推理的问题，，，，，，从prompt与workflow设计，，，，，，重新拉回到系统设计和工程层面：一致性语义、阻止条件与尾延迟治理。。。。。

在工程语境中，，，，，，论文给出的焦点判断可以归纳综合为一句话：目今多智能系一切，，，，，，缺乏一套明确的Agentic Consensus（智能体共识）系统语义。。。。。

Advaita Research / Hetu CMO Stephanie Yu从系统工程视角对论文举行相识读。。。。。

研究配景

在目今主流蹊径中，，，，，，大型研究机构对Agent的探索大致可以分为三类，，，，，，但它们在一个要害问题上坚持了配合的默然：当多个随机推理主体并行事情时，，，，，，系统何时可以以为已经告竣稳固一致？？？？？

OpenAI：强化单主体推理能力

OpenAI的蹊径始终围绕test-time scaling，，，，，，包括self-consistency、多路径推理、更强的 chain-of-thought、更成熟的 tool use。。。。。

该系统在单主体条件下具有很是清晰的工程优势：推理质量高度可控、行为一致性强、工程重漂后集中。。。。。

其隐含条件同样明确：系统只有一个决议主体。。。。。

一旦扩展为多个planner、多个actor并行执行，，，，，，一致性不再由模子内部包管，，，，，，而被外包给上层workflow的规则组合。。。。。

Google DeepMind搜索式推理

Tree-of-Thoughts等要领将推理显式建模为搜索问题，，，，，，通过评估函数在候选路径中选择最优解。。。。。

该范式在离线推理和数学问题上体现稳固，，，，，，但在系统层面泛起出两个显着特征：推理历程高度同步、阻止条件由搜索深度或预算上限决议。。。。。

实质上，，，，，，这类要领优化的是路径质量，，，，，，而不是在并发、延迟与本钱约束下的决议时机问题。。。。。

Anthropic/Meta启发式协调

Anthropic的constitutional debate，，，，，，以及Meta、Stanford 提出的多 Agent debate / society-of-minds，，，，，，引入了多主体交互。。。。。

在工程实现上，，，，，，这类系统通常依赖：牢靠agent数、牢靠轮数、barrier synchronization（期待所有 agent 完成）、大都投票或规则聚合。。。。。

但这些机制并没有给出稳固一致性的系统界说。。。。。

当主流Agent蹊径仍在强化「怎样更好地推理」，，，，，，将多智能体视为推理技巧的叠加时，，，，，，

Advaita Research的这项研究把问题下沉到了系统层：在多个随机推理主体并行时，，，，，，怎样界说、验证并稳固告竣一致。。。。。

把多智能体当身漫衍式系统

论文提出的焦点要领系统为Aegean，，，，，，其基础重构在于：多智能体推理不再被视为workflow编排问题，，，，，，而被建模为一个漫衍式共识历程。。。。。

差别于古板漫衍式系统，，，，，，智能体决议泛起随机不确定性，，，，，，使得现有共识协议架构无法适用。。。。。论文针对多智能体情形提出了新的共识理论框架，，，，，，并给出了严谨的多智能体共识的准确性界说。。。。。

论文之后基于理论框架提出了新的共识协议。。。。。其焦点机制包括三点：

（1）Quorum-fast，，，，，，而不是wait-all

系统不再期待所有agent，，，，，，只要抵达 quorum 即推进决议，，，，，，延迟不再由最慢 agent 决议。。。。。

（2）稳固性窗口（β），，，，，，而不是「一致就停」

一致性必需在时间维度上一连保存，，，，，，才华被视为有用共识，，，，，，从而过滤暂时性大都。。。。。

（3）Streaming共识与即时作废

在token天生历程中一连检测共识状态，，，，，，一旦知足稳固条件，，，，，，连忙终止剩余天生。。。。。

详细效果与实验剖析

论文指出：多智能体推理，，，，，，实质上是运行在随机推理主体之上的漫衍式共识问题。。。。。

一旦缺乏明确的共识语义，，，，，，工程失败并非偶发，，，，，，而是泛起出高度可展望的系统性模式。。。。。

暂时性一致：大都并不稳固问题

论文系统性丈量了decision flip征象（在现有Agent workflow中险些未被显式建模）。。。。。

效果显示：在引入agent间 reasoning exchange后，，，，，，准确率提升的同时，，，，，，大都决议在相邻轮次爆发反转的频率显著上升。。。。。

以MMLU为例：100个样本中泛起64次 decision flip，，，，，，意味着系统在一连轮次中重复改变大都结论。。。。。

在缺乏稳固性约束时，，，，，，任何基于「目今大都」的提前阻止或投票机制，，，，，，都可能爆发在transient agreement（暂时性一致）上。。。。。

这不是推理能力问题，，，，，，而是共识未被界说的问题。。。。。

同步模子过失：P99被最慢agent界说

目今多Agent系统普遍接纳barrier synchronization，，，，，，论文在AIME（1 req/s）场景下，，，，，，比照了主流做法与引入共识机制后的系统体现：

多Agent baseline（MaxRound = 6）最慢请求为6571秒，，，，，，P99 延迟为8749秒

引入共识机制后，，，，，，最慢请求约325秒，，，，，，P99延迟为772 秒；；；；；；；；

在相同使命条件下：P99 延迟改善约11×，，，，，，平均延迟改善约20×

该差别并非来自模子推理能力，，，，，，而来自同步范式从「等所有人」转向「告竣共识即可推进」。。。。。

算力铺张：token消耗爆发在收敛之后

论文进一步量化了多智能系一切中恒久被忽视的问题：收敛之后的无效盘算。。。。。

在多个基准使命上，，，，，，引入Agentic Consensus后：

GSM8K：4.4×镌汰（约 1.3K vs 5.7K）

MMLU：3.3×镌汰（约 3.3K vs 10.7K）

AIME：1.3×镌汰（约 46.0K vs 59.9K）

IMO：1.1×镌汰（约 64.8K vs 73.8K）

与此同时，，，，，，accuracy波动被控制在约2.5%以内。。。。。

这批注：token本钱下降来自共识驱动的早停与作废机制，，，，，，而不是通过牺牲质量实现。。。。。

数字描绘了系统界线

在引入Agentic Consensus（Advaita Research 提出的多智能体共识建模要领）后，，，，，，系统行为泛起了清晰的数目级转变：平均延迟降低1.2–20×，，，，，，P99尾延迟最高改善11×，，，，，，token消耗降低1.1–4.4×，，，，，，accuracy波动约2.5%

这些指标配合指向统一个系统级结论：多智能体推理的性能瓶颈，，，，，，并不来自模子能力，，，，，，而来自协作机制是否具备可操作的共识语义。。。。。

工程判断与应用远景

Agentic Consensus并不是一个附加能力，，，，，，而是一条明确的系统分界线。。。。。

当Agent作为真实系统中的行动单位运行时，，，，，，问题不再是：「单个模子能否推理得更好」，，，，，，而是在多个随机推理主体并行的情形下，，，，，，系统是否具备可判断、可阻止、可扩展的一致性语义。。。。。

论文给出的焦点判断标准是：若是一个多智能系一切无法明确回覆「何时算告竣一致、何时可以清静阻止、延迟由谁决议」，，，，，，那它在工程上仍停留在workflow，，，，，，而非系统。。。。。

从这个角度看：decision flip、P99被最慢agent界说、收敛后的token铺张，，，，，，都不是实现细节上的瑕疵，，，，，，而是系统尚未进入「共识可操作阶段」的信号。。。。。

Advaita Research的这项事情，，，，，，并不是提出一种新的Agent玩法，，，，，，而是把Agentic Consensus提升为一个工程判断标准：多智能体推理，，，，，，是否已经从「推理技巧的叠加」，，，，，，迈入「具备可验证共识语义的系统」。。。。。

当这个标准建设，，，，，，多智能体才华真正从demo走向production；；；；；；；；当它不建设，，，，，，再重大的推理流程，，，，，，也执偾在同步本钱之上叠加盘算。。。。。

参考资料：

https://arxiv.org/pdf/2512.20184

PT视讯(中国区)官网