首个测试时共进化合成框架TTCS：在「左右互搏」中突破推理瓶颈

2026-02-26 08:52:05

在 DeepSeek-R1 和 OpenAI o1 引领的「后训练（Post-Training）」与「测试时扩展」（Test-Time Scaling）」时代，，，，，，怎样使用测试时的算力举行有用训练成为焦点。。。。。。。。

然而，，，，，，面临极难的测试题，，，，，，现有的测试时训练（Test-Time Training, TTT）往往因伪标签噪声大而陷入「瞎猜」的逆境。。。。。。。。

厦门大学 DeepLIT 课题组提出了一种全新的测试时课程合成框架 ——TTCS (Test-Time Curriculum Synthesis)。。。。。。。。该框架不依赖任何外部人工标注，，，，，，通过天生器（Synthesizer）与求解器（Solver）的共进化博弈，，，，，，自动合成处于模子「能力界线」的课程数据，，，，，，解决了测试样本过难导致的训练坍塌问题。。。。。。。。

实验显示，，，，，，在 Qwen2.5-Math-1.5B 上，，，，，，TTCS 将数学推理平均分从 17.30 暴涨至 41.49，，，，，，在极具挑战的 AIME 竞赛题上更是显著逾越了 TTRL 等强基线。。。。。。。。

论文问题：TTCS: Test-Time Curriculum Synthesis for Self-Evolving论文链接：https://arxiv.org/abs/2601.22628项目代码：https://github.com/XMUDeepLIT/TTCSHuggingFace 主页：https://huggingface.co/papers/2601.22628

01. 焦点念头：当「题海战术」遇到「超纲难题」

随着大语言模子（LLM）的生长，，，，，，业界共识已从纯粹的「预训练扩大参数」转向挖掘测试时扩展（Test-Time Scaling）的潜力。。。。。。。。

DeepSeek-R1 等模子的乐成证实晰强化学习（RL）在推理使命上的重大威力。。。。。。。。然而，，，，，，现在的 RL 范式（如 RLVR）通常依赖大宗高质量的 Ground Truth 标签，，，，，，这限制了其扩展性。。。。。。。。

为了挣脱对标签的依赖，，，，，，测试时训练（Test-Time Training, TTT）应运而生。。。。。。。。其焦点头脑是：在测试阶段，，，，，，使用模子对测试题天生的伪标签（Pseudo-labels）举行即时更新。。。。。。。。

但在面临高难度推理使命（如 AIME 数学竞赛）时，，，，，，TTT 遭遇了致命的「能力错配」悖论：

伪标签不可靠（Noisy Rewards）：面临 AIME 这种难题，，，，，，由于模子自己能力缺乏，，，，，，纵然举行多次采样（Majority Voting），，，，，，大部分谜底也是错的。。。。。。。。�；；；；诠У墓彩毒傩醒盗�，，，，，，只会让模子「越学越偏」。。。。。。。。（如 Intro 中 Figure 1 (a) 所示）缺乏中心蹊径（Steep Learning Curve）：就像让小学生直接做微积分，，，，，，缺乏中心难度的过渡问题，，，，，，模子无法跨越重大的难度鸿沟，，，，，，导致优化失败。。。。。。。。

团队思索：若是没有先生，，，，，，模子能否像人类自学者一样，，，，，，通过自己给自己出题，，，，，，把一道难题拆解变为一组成梯度、可解决的训练题，，，，，，从而实现螺旋上升？？？？？

基于此，，，，，，团队提出了TTCS—— 一个基于共进化（Co-evolution）的测试时课程合成框架。。。。。。。。

02. 要领论：Synthesizer 与 Solver 的双重共进化

TTCS 的焦点在于构建了一个闭环的生态系统，，，，，，包括两个共享初始权重的 Agent，，，，，，它们通过迭代式的GRPO (Group Relative Policy Optimization)举行训练：

角色分工

要害机制：怎样寻找「能力界线」？？？？？

为了避免天生的问题太简朴（无效训练）或太难（无效反响�。。。。。。。�，，，，，，团队设计了一套细密的能力自顺应奖励（Capability-Adaptive Reward）机制：

闭环效应：

Solver 能力提升后，，，，，，其「能力界线」会向更难的区域移动，，，，，，感知到这一转变的 Synthesizer 为了获得高奖励会自动天生难度更高的问题，，，，，，Solver 继续攻克新难题。。。。。。。。二者相互追赶，，，，，，在测试时实现了动态的 Curriculum Learning。。。。。。。。

03. 硬核实验效果：推理能力提升

团队在 AMC23、AIME24、AIME25、MATH-500、Minerva 等多个权威数学基准上举行了普遍验证。。。。。。。。�；；；；∧Ｗ雍� Qwen2.5-Math (1.5B, 7B) 和 Qwen3-4B。。。。。。。。

1. 主流基准上的碾压式提升

TTCS 在所有尺寸的模子上均取得了显著优于基线的效果（详见 Table 1）：

Qwen2.5-Math-1.5B：TTCS 的平均分抵达，，，，，，相比预训练模子（17.30）提升了+24.19 分！纵然比照测试时微调的强基线 TTRL（36.56），，，，，，依然有大幅优势。。。。。。。。Qwen2.5-Math-7B：TTCS 平均分抵达，，，，，，相比普遍使用的 Self-Consistency（32.15）提升了+20.39 分，，，，，，再次证实晰自动的测试时训练远胜于被动的多路采样。。。。。。。。

2. 攻克高难度竞赛题 (AIME)

在最能体现推理上限的 AIME 竞赛题上，，，，，，TTCS 展现了极强的攻坚能力：

AIME 2024：在 1.5B 模子上，，，，，，TTRL 仅得 13.23 分，，，，，，而 TTCS 跃升至分，，，，，，提升幅度达AIME 2025：在 7B 模子上，，，，，，TTCS 抵达了分，，，，，，显著优于 TTRL 的 14.06 分。。。。。。。。这有力地证实晰：当测试题太难导致 TTRL 的伪标签失效时，，，，，，TTCS 通过合成中心难度的课程，，，，，，乐成架起了通往高难度推理的桥梁。。。。。。。。

3. 为什么 TTCS 有用？？？？？（深度剖析）

为了探讨性能提升的泉源，，，，，，团队举行了多维度的剖析：

不但仅是数学（泛化性）

实验 Q1 显示，，，，，，在 AIME 上举行测试时训练的 TTCS 模子，，，，，，在MMLU-Pro和SuperGPQA等通用领域推理使命上也实现了性能跃升（Figure 3a）。。。。。。。。这说明模子学到的是通用的推理逻辑，，，，，，而非简朴的过拟合。。。。。。。。

动态先生 > 静态名师

团队实验用一个更强但牢靠的Qwen2.5-14B-Instruct模子作为 Synthesizer（实验 Q3）。。。。。。。。效果令人惊讶：共进化的 1.5B Synthesizer (TTCS) 带来的提升 (+5.34) 竟然是静态 14B Synthesizer (+2.66) 的两倍！

这展现了一个深刻的原理：顺应学生目今水平的先生，，，，，，比纯粹水平高但不懂因材施教的先生更主要。。。。。。。。

数据效率惊人

纵然只使用 10% 的测试数据（仅 3 道题），，，，，，TTCS 在 AIME24 上的准确率就能抵达13.33，，，，，，远超一律数据量下 TTRL 的体现（Figure 4）。。。。。。。。这批注 TTCS 能够高效地榨取每一个测试样本的信息量。。。。。。。。

04. 总结与展望

TTCS 框架的提出，，，，，，是对「测试时盘算」范式的一次重构。。。。。。。。团队证实晰：在测试时，，，，，，模子不应是被动的解题者，，，，，，而应是自动的课程设计者。。。。。。。。

通过 Synthesizer 和 Solver 的共进化，，，，，，TTCS 完善解决了测试时训练中「数据稀缺」和「难度断层」的两大痛点。。。。。。。。

这不但为提升大模子在重大数学天津滨海新能源有限公司、代码推理使命上的体现提供了新思绪，，，，，，也为未来自进化智能体（Self-Evolving Agents）—— 即模子能够在完全未知的情形中通过自我博弈实现一连进化 —— 涤讪了坚实基础。。。。。。。。

PT视讯(中国区)官网