北航开源Code2Bench：双扩展动态评测，，，，，代码大模子离别躺平刷分

2026-02-26 05:20:20

在权衡大语言模子（LLM）代码天生能力的竞赛中，，，，，一个日益严肃的问题正浮出水面：当模子在 HumanEval、MBPP 等经典基准上纷纷取得近乎饱和的效果时，，，，，我们事实是在评估其真实的泛化推理能力，，，，，照旧在磨练其对训练语料库的「影象力」？？？？？？？？

现有的代码基准正面临两大焦点挑战：数据污染的危害，，，，，以及测试严谨性缺乏。。。。。。。前者使评测可能退化为「开卷考试」，，，，，后者则经常导致一种「准确的幻觉」（Illusion of Correctness）—— 模子天生的代码或许能通过少数示例，，，，，却在重大的真实天下边沿场景中不堪一击。。。。。。。

为了突破这种「高分幻觉」，，，，，来自北京航空航天大学的研究团队提出了一种全新的基准构建哲学 ——双重扩展（Dual Scaling），，，，，并基于此构建了端到端的自动化框架Code2Bench。。。。。。。该研究旨在为代码大模子的评估，，，，，建设一个更动态、更严苛、也更具诊断性的新范式。。。。。。。

现在，，，，，该论文已被 ICLR 2026 吸收。。。。。。。

论文问题：Code2Bench: Scaling Source and Rigor for Dynamic Benchmark Construction论文链接： https://arxiv.org/pdf/2508.07180榜单链接：https://code2bench.github.io/

我们需要什么样的 Benchmark 构建要领？？？？？？？？

理想的代码评测基准不应是静态题库的简朴堆砌，，，，，而应是一个一连演化的对抗情形。。。。。。。它必需同时知足两个条件：问题对模子绝对「新鲜」，，，，，以杜绝影象作弊；；；；；测试足够严苛，，，，，以袒露逻辑深处的懦弱性。。。。。。。

然而，，，，，目今绝大大都评测系统仍困于「一次性构建、恒久复用」的旧范式。。。。。。。它们要么依赖人工编写（易污染），，，，，要么从竞赛平台抓�。。。。。。。ㄍ牙牍こ滔质担唬唬�；；测试用例则普遍希罕且浅层，，，，，无法区分「功效可用」与「生产可靠」。。。。。。。

表一：现有主流代码天生基准多维度比照

表一清晰地勾勒出了目今评测界的「能力缺口」：大大都基准要么依赖人工编写（极易被后续训练集污染），，，，，要么从竞赛平台抓�。。。。。。。ㄍ牙牍こ滔质德呒�。。。。。。。更致命的是，，，，，它们的测试用例普遍希罕且浅层，，，，，只能验证「功效可用」，，，，，却无法甄别「生产可靠」。。。。。。。

为了填补这一空缺，，，，，一个面向未来的基准构建要领必需具备以下四大特质：

动态性（Dynamic）：问题泉源必需是一连更新的，，，，，以从基础上对抗数据污染。。。。。。。真实性（Real-world）：问题应源自真实的、重大的项目代码库，，，，，而非人工编写的「玩具问题」。。。。。。。严谨性（Rigorous）：测试必需是深入且周全的，，，，，能够挖掘出最细微的逻辑缺陷。。。。。。。周全性（Comprehensive）：应能处置惩罚重大的外部库依赖，，，，，并具备向多语言扩展的能力。。。。。。。

正是在对这四大目的的追求下，，，，，Code2Bench 的焦点构建哲学应运而生。。。。。。。

「双重扩展」：重构代码基准的构建逻辑

Code2Bench 并非仅仅宣布了一个新数据集，，，，，而是提出了一套端到端、全自动、可一连演进的基准构建流水线。。。。。。。如图一所示，，，，，其焦点是「双重扩展」哲学 —— 通过系统性地扩展泉源广度与测试深度，，，，，确保我们总能源源一直地天生高质量、抗污染、高笼罩的评测使命。。。。。。。

图一：Code2Bench Pipeline 总览

1. 扩展代码泉源（Scaling the Source）：与数据污染赛跑

为了确保问题的新颖性与真实性，，，，，框架摒弃了静态题库，，，，，转而建设了一套动态获取代码的流水线：

动态获取与时间戳过滤：直接从海量、活跃的 GitHub 开源项目中提取函数，，，，，并严酷依据各待评测模子的知识阻止日期（Knowledge Cutoff Date），，，，，仅筛选在此之后提交的代码。。。。。。。这不但杜绝了「背题」，，，，，更意味着只要 GitHub 有新代码，，，，，Code2Bench 就能源源一直产出新问题。。。。。。。语言无关的 Scope Graph 剖析：作为系统化分类的手艺焦点，，，，，该要领不依赖特定语言语法，，，，，而是通过高度笼统的逻辑作用域图（Scope Graph）精准识别外部依赖，，，，，自动将使命分为：

自包括使命（SC）：无外部依赖，，，，，专注审核焦点逻辑合成能力；；；；；弱自包括使命（WSC）：仅依赖标准库或白名单库（如 NumPy），，，，，审核真实开发中的 API 应用能力。。。。。。。

这一设计使框架自然支持多语言扩展，，，，，为未来纳入 Go、JavaScript 等语言涤讪基础。。。。。。。

2. 扩展测试严谨性（Scaling the Rigor）：以工业级标准终结「准确性幻觉」

面临古板基准测试用例希罕的弊�。。。。。。。�，，，，Code2Bench 引入了极致的严谨性作为焦点准则：

基于属性的测试（Property-Based Testing, PBT）：框架为每个候选函数自动天生包括数百以致上千个输入的测试套件，，，，，这些输入笼罩了典范值、界线值和重大的嵌套结构。。。。。。。「Great Filter」——100% 分支笼罩率：这是 Code2Bench 最具标记性的设计。。。。。。。一个函数及其对应的 PBT 测试套件，，，，，只有在执行时能够笼罩到函数内每一个逻辑分支（如 if/else 的所有情形），，，，，才会被最终接纳。。。。。。。这一看似简朴的要求，，，，，却是一个极其严苛的质量门，，，，，它确保了基准中的每一个问题都是一个逻辑完整且可被深度验证的挑战。。。。。。。

Code2Bench-2509 基准

为了验证「双扩展」哲学的有用性，，，，，研究团队基于该框架自动构建了Code2Bench-2509基准套件。。。。。。。这是一份动态摄取自 2025 年 5 月至 9 月 GitHub 最新提交的「实战考卷」，，，，，包括 Python 与 Java 的原生实例。。。。。。。

表二的量化指标直观地展现了 Code2Bench-2509 在工程维度上对古板基准的「代差」优势：

表二：Code2Bench-2509 焦点指标

重漂后匀积：在纯逻辑（SC-Python）使命中，，，，，平均圈重漂后（Cyclomatic Complexity）抵达 5.3，，，，，远高于 HumanEval 的 2.8。。。。。。。严谨性碾压：差别于 HumanEval 平均每题仅约 7.8 个测试用例，，，，，Code2Bench 为每道题天生了约 500 个测试用例。。。。。。。生态多样性：在 WSC 使命中，，，，，基准涵盖了凌驾 30 个主流第三方库（如 NumPy、Pandas、Scipy 等），，，，，真实模拟了现代软件开发对 API 应用能力的依赖。。。。。。。

图二的多维评估景观图（Figure 2）则清晰地展示了这一跨越：

图二：Code2Bench-2509 与主流基准在测试严谨性、依赖深度与可扩展性上的多维比照

相比于 HumanEval 和 BigCodeBench 等主流基准，，，，，Code2Bench 在测试严谨性（Testing Rigor）、依赖深度（Dependency Level）以及框架可扩展性（Extensibility）三个维度上均实现了显著的位移。。。。。。。

它不再仅仅停留于考察模子「能否写出准确的代码」，，，，，而是通过「语言扩展」和「依赖扩展」，，，，，将评估推向了更辽阔的软件工程生态。。。。。。。这种多维度的跨越，，，，，为后续展现模子更深层的能力缺陷涤讪了基础。。。。。。。

诊断指纹：展现能力鸿沟与「性能脚手架」效应

古板的 Pass@1 分数往往是一个「黑盒」：它纪录了效果，，，，，却掩饰了模子头脑的历程。。。。。。。正是得益于 Code2Bench 对测试强度的量级扩展（从个位数跃升至～500 个用例），，，，，我们才获得了足以勾勒「过失光谱」的高区分率视角。。。。。。。

这种「诊断指纹（Diagnostic Fingerprint）」将评估从简单维度的「得分」统计，，，，，进化为对模子头脑失效模式的深度透视。。。。。。。

从表 3 的 Pass@1 数据中，，，，，我们可以视察到差别模子在差别赛道上的 “偏科” 征象：

在纯算法使命（SC-Python）上，，，，，Claude-4-Sonnet 以40.1%的胜率领跑，，，，，凸显了其在无依赖逻辑推理上的深挚秘闻；；；；；在API 应用使命（WSC-Python）上，，，，，Mistral-small-3.1 体现亮眼（38.7%），，，，，与 Claude 持平，，，，，显示出其对库挪用极高的熟练度；；；；；在Java 算法使命（SC-Java）上，，，，，DeepSeek-V3 则以 47.8% 的惊人效果冠绝全场。。。。。。。

表三：Pass@1 performance (%) on the Code2Bench-2509 suite.

然而，，，，，真正的洞察隐藏在图三中 —— 指纹图谱中失败漫衍的偏移，，，，，展现了两个被简单分数掩饰的要害事实：

图三：模子诊断指纹比照：SC-Python、WSC-Python 与 SC-Java 的效果漫衍

1. 能力鸿沟：善于「调 API」，，，，，却在「写算法」上挣扎。。。。。。。

指纹图展现了模子在面临差别使命时截然差别的头脑状态：在纯算法（SC-Python）使命中，，，，，失败峰值集中于逻辑过失 (LogicErr)；；；；；而一旦涉及挪用外部库（WSC-Python），，，，，峰值则迅速转向了运行时过失 (RuntimeErr)。。。。。。。这清晰地批注，，，，，模子现在的瓶颈已从 “记不住 API 参数” 转向了更深层的 “无法自主构建重大逻辑”。。。。。。。

2.「性能脚手架」效应：语言范式怎样塑造模子体现。。。。。。。

更具启发性的是 Python 与 Java 的比照。。。。。。。在SC-Java使命中，，，，，Python 中常见的逻辑过失被大幅抑制，，，，，完善通过率（Perfect）显著飙升。。。。。。。这并非由于使命变简朴了，，，，，而是 Java 的静态类型系统饰演了「性能脚手架」的角色 —— 它在代码执行前就强行阻挡了大宗初级过失。。。。。。。

换言之，，，，，指纹图的漫衍偏移自己，，，，，就是语言范式塑造模子能力的直接可视化证据。。。。。。。它展现了一个要害事实：一个模子的编程能力并非笼统保存；；；；；其体现深度耦合于目口号言的生态系统 —— 静态类型不是「限制」，，，，，而是一种前置的、高性价比的鲁棒性包管。。。。。。。

「近乎完善」的失败：展现「准确幻觉」的普遍性

在 Code2Bench 的严苛测试下，，，，，平均有6.94%的 SC-Python 使命提交会陷入「近乎完善」的失败 —— 它们能通过 98% 以上的测试用例，，，，，却在最后几个玄妙的边沿场景中蜕化。。。。。。。这些在古板基准中极有可能被计为「乐成」的案例，，，，，恰恰袒露了模子在逻辑鲁棒性上的「最后一公里」缺陷。。。。。。。

表四：「近乎完善」失败（Pass@≥98% & Pass@<100%）的爆发比例

与现有基准的比照：动态性 vs 静态增强

与目今最严谨的静态基准 EvalPlus（HumanEval 的测试增强版）相比，，，，，Code2Bench-2509 展现出系统性难度匀积。。。。。。。如图 4 所示，，，，，所有模子在新基准上的性能均远低于其在 HumanEval 上的体现 —— 例如，，，，，Claude-4-Sonnet 在 HumanEval 上达 97%，，，，，但在 Code2Bench-2509 上骤降至 40.1%。。。。。。。

这一断崖式下滑展现了两个要害事实：

古板高分包括显著影象因素 ——EvalPlus 虽强化了测试，，，，，但题源仍为多年前人工编写，，，，，极易被模子「背过」；；；；；Code2Bench 源于真实工程代码 —— 问题动态采自 2025 年后 GitHub 活跃项目，，，，，自然具备重大控制流与语义深度，，，，，无法靠影象或模式匹配通过。。。。。。。

换言之，，，，，EvalPlus 是对旧问题的「加固」，，，，，而 Code2Bench 是面向未来的「新战场」。。。。。。。前者测的是「是否见过」，，，，，后者问的是「能否创立」。。。。。。。

图四：模子在 EvalPlus 和 Code2Bench-2509 上的体现比照

总结与展望：迈向真实工程天下的编程评测

Code2Bench 的实质，，，，，不是又一个 benchmark，，，，，而是一套可一连演进的评测基础设施。。。。。。。它通过「双重扩展」哲学，，，，，将代码 LLM 评估从「静态谜题的复现」，，，，，推向「未知工程问题的稳健求解」。。。。。。。

未来，，，，，研究团队妄想进一步扩展 Code2Bench 的界线，，，，，将代码清静性、执行效率以及客栈级别的天生能力纳入评估领域。。。。。。。随着评测基准从纯粹的「科场」进化为高压的「练兵场」，，，，，我们期待这一框架能驱动 LLM 跨越「准确幻觉」的鸿沟，，，，，最终生长为真正具备工程鲁棒性的智能开发者。。。。。。。

现在，，，，，Code2Bench云南香格里拉文创科技有限公司的框架代码、数据集以及详尽的评测效果已所有开源，，，，，研究团队诚邀社区配合加入和探索。。。。。。。

PT视讯(中国区)官网