»ªÎªCLI-Gym£ºÇéÐν»»¥ÀàʹÃüÊ׸ö¹ûÕæµÄÊý¾ÝScaling¼Æ»®
2026-02-27 11:11:50

¡¸Ê׸ö¹ûÕæµÄÃæÏò Terminal-Bench ÇéÐν»»¥ÀàʹÃüµÄÊý¾Ý¹æÄ£»£»£»£»£»¯Éú²ú¹ÜÏßÕýʽÐû²¼£¡¡¹

¿ªÔ´ÍêÕû×Ô¶¯»¯Êý¾Ý¹¹½¨Ëã·¨¹¹½¨ 1655 ¸ö¸ß¿É¿¿ CLI ʹÃüÇéÐξµÏñͨ¹ý 291 Ìõ¹ì¼£Êý¾Ý´øÀ´ 20% ½â¾öÂÊÌáÉý

ÔÚ Agentic Coding ÁìÓò£¬ £¬£¬£¬£¬£¬£¬»ùÓÚ SWE-bench µÄÊý¾Ý¹ÜÏßÑо¿ÒÑÈ¡µÃ³¤×ãÏ£Íû¡£¡£¡£ ¡£¡£¡£¡£ ¡£ÒÑÍùÒ»ÄêÖУ¬ £¬£¬£¬£¬£¬£¬Òµ½çÓ¿ÏÖÁË´ó×ÚÏà¹ØÊÂÇ飬 £¬£¬£¬£¬£¬£¬ÀýÈç SWE-Gym¡¢SWE-Smith ºÍ R2E-Gym µÈ£¬ £¬£¬£¬£¬£¬£¬¼«´óÍÆ¶¯ÁËÒÔ´úÂëÌìÉúΪ½¹µãµÄ Agentic Coding Éú³¤£¬ £¬£¬£¬£¬£¬£¬Ò²Ê¹ÊÊÄ¿½ñ×îÏȽøµÄ¿ªÔ´Ä£×ÓÓë±ÕÔ´Ä£×ÓÖ®¼äµÄÌåÏÖ²î±ðÏÔÖøËõС¡£¡£¡£ ¡£¡£¡£¡£ ¡£È»¶ø£¬ £¬£¬£¬£¬£¬£¬¹ØÓÚ¸üÆÕ±éµÄÇéÐν»»¥ÀàÎÊÌ⣨Èç Terminal-Bench Ëùº­¸ÇµÄʹÃü£©£¬ £¬£¬£¬£¬£¬£¬ÏÖÔÚÉÐûÓйûÕæµÄ¸ßЧºÍ¿É¹æÄ£»£»£»£»£»¯µÄÊý¾ÝÉú²ú¼Æ»®£¬ £¬£¬£¬£¬£¬£¬µ¼ÖÂÏà¹ØÊý¾Ý¹¹½¨ÄÑÌâÖØÖØ£¬ £¬£¬£¬£¬£¬£¬¸ß¶ÈÒÀÀµÈ˹¤¼ÓÈ룬 £¬£¬£¬£¬£¬£¬ÕâÒÑÈ»³ÉÎªÖÆÔ¼¸ÃÆ«ÏòÉú³¤µÄÆ¿¾±£¬ £¬£¬£¬£¬£¬£¬Ò²Ê¹µÃÔÚÏà¹ØÊ¹ÃüÉÏ¿ªÔ´Ä£×ÓµÄÌåÏÖ´ó·ùÂäÎéÓÚ±ÕÔ´Ä£×Ó¡£¡£¡£ ¡£¡£¡£¡£ ¡£

Òò´Ë CLI-Gym À´ÁË£¡ÎÒÃÇÊ×ÏÈʵÑéÓà Dockerfile ¶ÔÇéÐξÙÐнṹ»¯Óë¿É¸´ÏÖ½ç˵£»£»£»£»£»½øÒ»²½£¬ £¬£¬£¬£¬£¬£¬½«Êý¾ÝÉú²ú¹ÜÏß×Ô¼ºÖØÐ½¨Ä£ÎªÒ»ÖÖ Agentic Coding ʹÃü£ºÔÚ¿µ½¡ÇéÐÎÖÐÇý¶¯ Code Agent Ö´ÐÐÇéÐη´ÑÝ£¨¼´ ¡°ÁÓ»¯¡± ²Ù×÷£©£¬ £¬£¬£¬£¬£¬£¬×Ô¶¯ÌìÉúÎÊÌâÇéÐμ°Æä׼ȷµÄµ¥Î»²âÊÔ£¬ £¬£¬£¬£¬£¬£¬´Ó¶øÊµÏÖÎÊÌâʵÀýÓëÑéÖ¤¹¤¾ßµÄ×Ô¶¯»¯½á¹¹¡£¡£¡£ ¡£¡£¡£¡£ ¡£ÎÒÃÇÔÚ 29 ¸ö»ù´¡¾µÏñÉÏÖÆÔì³ö 1655 ¸öÕë¶Ô Terminal-Bench ʵÀý²¢²ú³ö 291 Ìõ¸ßÖÊÁ¿Àֳɹ켣£¬ £¬£¬£¬£¬£¬£¬PTÊÓѶ(ÖйúÇø)¹ÙÍøÎ¢µ÷Ä£×Ó LiberCoder 32B ºÍ 235B ÔÚ Terminal Bench ÉÏ»®·ÖʵÏÖÁË + 28.6%£¨ÖÁ 38.9%£©ºÍ + 21.1%£¨ÖÁ 46.1%£©µÄÌáÉý¡£¡£¡£ ¡£¡£¡£¡£ ¡£

PTÊÓѶ(ÖйúÇø)¹ÙÍø¹ÜÏßÁ¢ÒìÐÔµØÒÔCodebase¡¢Dockerfile Óë Base ImageΪ½¹µãÁýͳ£¬ £¬£¬£¬£¬£¬£¬ÍêÕûµØ½ç˵í§Òâ CLI Coding ʵÌ壬 £¬£¬£¬£¬£¬£¬Ê¹ÇéÐι¹½¨¡¢ÎÊÌâÌìÉúÓëÑéÖ¤»úÖÆÐγÉͳһ±í´ï¿ò¼Ü£¬ £¬£¬£¬£¬£¬£¬¾ß±¸ÓÅÒìµÄ¿É×éºÏÐÔÓëͨÓÃÐÔ¡£¡£¡£ ¡£¡£¡£¡£ ¡£ÎÒÃÇÏ£ÍûÕâÒ»·¶Ê½Äܹ»½øÒ»²½ÍØÕ¹ÖÁ¸ü¶à Agentic Coding ³¡¾°£¬ £¬£¬£¬£¬£¬£¬Íƶ¯¸üͨÓõÄÊý¾ÝÉú²úËã·¨Óë»ù×¼¹¹½¨ÒªÁìµÄÉú³¤¡£¡£¡£ ¡£¡£¡£¡£ ¡£

ÂÛÎÄ¡¢´úÂëºÍ¾µÏñÊý¾Ý¾ù»áÔÚÈçÏÂÁ´½Ó·Å³ö£º

ÂÛÎÄÁ´½Ó£ºhttps://arxiv.org/pdf/2602.10999¿ªÔ´´úÂ룺https://github.com/LiberCoders/CLI-Gym¾µÏñÊý¾Ý£ºhttps://huggingface.co/datasets/LiberCoders/CLI-Gym

Åä¾°ÏÈÈÝ

½üÄêÀ´£¬ £¬£¬£¬£¬£¬£¬Agentic Coding ÕýÔÚ¿ìËٸıäÈí¼þ¹¤³ÌʹÃüµÄ½â¾ö·½·¨£¬ £¬£¬£¬£¬£¬£¬Ä£×ÓÄÜÁ¦µÄ½çÏßÕýÔÚ´Ó ¡°Ð´´úÂ롱 Öð½¥À©Õ¹Îª ¡°½â¾öÕæÊµÈí¼þϵͳÖеÄÖØ´óÎÊÌ⡱¡£¡£¡£ ¡£¡£¡£¡£ ¡£Ä¿½ñµÄÑо¿Öص㻹ͣÁôÔÚÒÔ SWE-bench Ϊ½¹µãµÄµÄ´úÂë²ãÃæµÄÑо¿£¬ £¬£¬£¬£¬£¬£¬¶øÔÚÏÖʵµÄÈí¼þ¹¤³ÌºÍϵͳÔËά³¡¾°ÖУ¬ £¬£¬£¬£¬£¬£¬´ó×ÚÎÊÌâ²¢·ÇÔ´ÓÚ´úÂë×Ô¼º£¬ £¬£¬£¬£¬£¬£¬¶øÊÇÀ´×ÔÔËÐÐÇéÐΣ¬ £¬£¬£¬£¬£¬£¬ÀýÈçÒÀÀµ°æ±¾³åÍ»¡¢ÇéÐαäÁ¿¹ýʧ¡¢È¨ÏÞÉèÖÃÎÊÌ⡢ϵͳ¿âË𻵡¢ÍøÂçÉèÖùýʧµÈ¡£¡£¡£ ¡£¡£¡£¡£ ¡£ÕâÀàÎÊÌâͨ³£ÎÞ·¨»òºÜÄÑͨ¹ýÐ޸ĴúÂëÐÞ¸´£¬ £¬£¬£¬£¬£¬£¬¶ø±ØÐèÒÀÀµ agent ͨ¹ýÏÂÁîÐÐÃ÷ȷϵͳ״̬£¬ £¬£¬£¬£¬£¬£¬¶¨Î»ÎÊÌâȪԴ£¬ £¬£¬£¬£¬£¬£¬²¢Ö´ÐÐһϵÁÐϵͳ¼¶²Ù×÷»Ö¸´ÇéÐÎÔËÐÐ״̬¡£¡£¡£ ¡£¡£¡£¡£ ¡£Òò´Ë£¬ £¬£¬£¬£¬£¬£¬¶Ô agent µÄÇéÐÎÃ÷È·Óë¸ÉÔ¤ÄÜÁ¦µÄÒªÇóÔ½À´Ô½¸ß¡£¡£¡£ ¡£¡£¡£¡£ ¡£

Terminal-Bench µÄʹÃüǡǡÆõºÏÕâÒ»ÐèÇ󡣡£¡£ ¡£¡£¡£¡£ ¡£Æä»ù×¼ÖаüÀ¨´ó×ÚÒÔÇéÐÎÐÞ¸´Îª½¹µãÄ¿µÄµÄʹÃü£¬ £¬£¬£¬£¬£¬£¬¶Ô agent ÔÚ CLI ÇéÐÎϵĽ»»¥¡¢Õï¶ÏÓëÐÞ¸´ÄÜÁ¦Ìá³öÁ˸ü¸ßÒªÇ󡣡£¡£ ¡£¡£¡£¡£ ¡£È»¶ø£¬ £¬£¬£¬£¬£¬£¬´ÓÄ¿½ñ¹Ù·½ leaderboard ¿ÉÒÔÊӲ쵽£¬ £¬£¬£¬£¬£¬£¬¸ßÐÔÄܼƻ®ÍùÍùÒÀÀµÎ§ÈÆÇ¿±ÕÔ´Ä£×Ó¹¹½¨µÄÖØ´ó agent ¿ò¼Ü£¬ £¬£¬£¬£¬£¬£¬Í¨¹ý´ó×ÚÌáÐѹ¤³ÌÓë¶àÂÖ·´Ë¼»úÖÆÀ´Ìģ×ÓÔÚÇéÐÎÃ÷È·ÓëÎÊÌⶨλ·½ÃæµÄÄÜÁ¦È±·¦¡£¡£¡£ ¡£¡£¡£¡£ ¡£Ïà±È֮ϣ¬ £¬£¬£¬£¬£¬£¬Î§ÈÆ¿ªÔ´Ä£×ÓÔõÑùͨ¹ýϵͳÐÔѵÁ·ÌáÉýÆäÇéÐÎÐÞ¸´ÄÜÁ¦µÄÑо¿ÈÔÈ»Ï൱ÓÐÏÞ¡£¡£¡£ ¡£¡£¡£¡£ ¡£

Æä»ù´¡Æ¿¾±ÔÚÓÚ£ºÇéÐÎ÷缯ÐÍʹÃüÄÑÒÔ¹æÄ£»£»£»£»£»¯ÌìÉú¡£¡£¡£ ¡£¡£¡£¡£ ¡£´úÂëÀàÎÊÌâ¿ÉÒÔͨ¹ýÍÚ¾ò¿ÍÕ»ÀúÊ·Óë pull request ×Ô¶¯¹¹½¨ÑµÁ·Êý¾Ý£¬ £¬£¬£¬£¬£¬£¬µ«ÇéÐÎ״̬ͨ³£È±·¦¿É×·ËݵÄÑÝ»¯¼Í¼£¬ £¬£¬£¬£¬£¬£¬ÄÑÒÔ¾ÙÐÐ×Ô¶¯»¯ÖØÐÞÓë±ê×¢¡£¡£¡£ ¡£¡£¡£¡£ ¡£ÕâʹµÃÇéÐÎʹÃüµÄÊý¾Ýºã¾ÃÒÀÀµÈ˹¤½á¹¹£¬ £¬£¬£¬£¬£¬£¬¹æÄ£ÄÑÒÔÀ©Õ¹£¬ £¬£¬£¬£¬£¬£¬Ò²ÏÞÖÆÁËÄ£×ÓÔÚ¸ÃÆ«ÏòÉϵÄÒ»Á¬ÑµÁ·ÓëÄÜÁ¦ÌáÉý¡£¡£¡£ ¡£¡£¡£¡£ ¡£

CLI-Gym ÕýÊÇÔÚÕâÒ»Åä¾°ÏÂÌá³ö£¬ £¬£¬£¬£¬£¬£¬Ö¼ÔÚͨ¹ý×Ô¶¯»¯»úÖÆÍ»ÆÆÇéÐÎÒÀÀµÐÍʹÃüÊý¾ÝÄÑÒÔ¹æÄ£»£»£»£»£»¯µÄÎÊÌ⣬ £¬£¬£¬£¬£¬£¬Îª agent ÄÜÁ¦ÑµÁ·Ìṩ¿ÉÒ»Á¬µÄÊý¾ÝȪԴ¡£¡£¡£ ¡£¡£¡£¡£ ¡£ÎÒÃÇÁ¢ÒìÐԵؽ«Êý¾ÝÉú²ú¹ÜÏß×Ô¼ºÖØÐ½¨Ä£ÎªÒ»ÖÖ Agentic Coding ʹÃü£ºÔÚ¿µ½¡ÇéÐÎÖÐÇý¶¯ Code Agent Ö´ÐÐÇéÐη´ÑÝ£¨¼´ ¡°ÁÓ»¯¡± ²Ù×÷£©£¬ £¬£¬£¬£¬£¬£¬×Ô¶¯ÌìÉúÎÊÌâÇéÐμ°Æä׼ȷµÄµ¥Î»²âÊÔ£¬ £¬£¬£¬£¬£¬£¬´Ó¶øÊµÏÖÎÊÌâʵÀýÓëÑéÖ¤»úÖÆµÄ×Ô¶¯»¯¹¹½¨¡£¡£¡£ ¡£¡£¡£¡£ ¡£

ÈçÉϱíËùʾ£¬ £¬£¬£¬£¬£¬£¬¸Ã½¨Ä£Ë¼Ð÷¾ßÓÐÓÅÒìµÄͨÓÃÐÔ£¬ £¬£¬£¬£¬£¬£¬²»µ«ÊÊÓÃÓÚÇéÐÎÒÀÀµÐÍʹÃüµÄ½á¹¹£¬ £¬£¬£¬£¬£¬£¬Ò²ÔÚͳһ¿ò¼ÜϺ­¸ÇÁË´Ëǰ SWE ϵÁÐÒªÁìµÄ½¹µã·¶Ê½£¬ £¬£¬£¬£¬£¬£¬ÊµÏÖÁËÒªÁìÂÛ²ãÃæµÄÕûºÏÓëÀ©Õ¹¡£¡£¡£ ¡£¡£¡£¡£ ¡£

Pipeline£ºÍ¨¹ýÇéÐη´ÑÝ×Ô¶¯ÌìÉú¹ÊÕÏʹÃü

CLI-Gym µÄ½¹µãÍ·ÄÔºÜÊÇÇÉÃ £¬£¬£¬£¬£¬£¬Í¨¹ýÄ£ÄâÇéÐÎÀúÊ·×Ô¶¯ÌìÉú¹ÊÕϳ¡¾°¡£¡£¡£ ¡£¡£¡£¡£ ¡£Óë¹Å°åÒªÁìÏà·´£¬ £¬£¬£¬£¬£¬£¬ÎÒÃDz»ÊÇ´ÓÁã¹¹½¨ÊÜËðÇéÐΣ¬ £¬£¬£¬£¬£¬£¬¶øÊÇÇý¶¯Ò»¸ö ¡°ÆÆËðÕß¡± agent ×Ô¶¯¸Ä¶¯¿µ½¡ÇéÐΣ¬ £¬£¬£¬£¬£¬£¬ÖÆÔì¶àÑù»¯¹ÊÕÏ£¬ £¬£¬£¬£¬£¬£¬ÔÙ½«Æäת»¯Îª¿ÉÐÞ¸´µÄʹÃüʵÀý¡£¡£¡£ ¡£¡£¡£¡£ ¡£

CLI-Gym µÄ½¹µãÍ·ÄÔÔÚÓÚÖØÐÂ˼Ë÷ʹÃüÌìÉú·½·¨£º¼ÈÈ»ÕæÕæÏàÐÎÎÊÌâͨ³£Ô´ÓÚÇéÐÎ״̬µÄ¹ýʧ£¬ £¬£¬£¬£¬£¬£¬ÄÇôÎÒÃDz»ÔÙ´ÓÁãÈ˹¤½á¹¹Ëð»µÇéÐΣ¬ £¬£¬£¬£¬£¬£¬¶øÊÇ´Ó¿µ½¡ÇéÐγö·¢£¬ £¬£¬£¬£¬£¬£¬×Ô¶¯Ä£ÄâÇéÐÎÔõÑù±»ÆÆË𣬠£¬£¬£¬£¬£¬£¬´Ó¶ø·´Ïò½á¹¹³ö¿ÉÐÞ¸´Ê¹Ãü¡£¡£¡£ ¡£¡£¡£¡£ ¡£ÕâһͷÄÔ±»³ÆÎª ¡°ÇéÐη´ÑÝ¡±£¬ £¬£¬£¬£¬£¬£¬¼´Í¨¹ý agent ½«Ò»¸öÔ­±¾Õý³£ÔËÐеÄÇéÐÎ×Ô¶¯ÆÆË𣬠£¬£¬£¬£¬£¬£¬Ê¹Æä»ØÍ˵½°üÀ¨ÔËÐйýʧµÄ״̬£¬ £¬£¬£¬£¬£¬£¬ÔÙ½«ÕâÒ»ÍË»¯Àú³Ìת»»Îª agent ÐèÒªÐÞ¸´µÄÎÊÌâʵÀý¡£¡£¡£ ¡£¡£¡£¡£ ¡£ÔÚÏêϸÁ÷³ÌÖУ¬ £¬£¬£¬£¬£¬£¬ÏµÍ³Ê×ÏÈ´ÓÕæÊµ¿ªÔ´¿ÍÕ»Öй¹½¨°üÀ¨¿µ½¡ÇéÐ뵀 Docker ¾µÏñ£¬ £¬£¬£¬£¬£¬£¬¸ÃÇéÐÎÄܹ»ÀÖ³ÉÔËÐв¢Í¨¹ýËùÓе¥Î»²âÊÔ£¬ £¬£¬£¬£¬£¬£¬×÷ΪºóÐøÊ¹ÃüÌìÉúµÄÆðµã¡£¡£¡£ ¡£¡£¡£¡£ ¡£Ëæºóϵͳ×Ô¶¯´Ó Unit Tests ÖгéȡĿµÄ UT£¬ £¬£¬£¬£¬£¬£¬Í¨¹ýÓïÑÔÄ£×ÓÌìÉúÓÕµ¼ agent Ö´ÐÐÇéÐÎÆÆËðµÄÖ¸Á £¬£¬£¬£¬£¬£¬ÀýÈçɾ³ýÒªº¦ÒÀÀµ¡¢¸Ä¶¯ÉèÖÃÎļþ¡¢ÆÆËðϵͳ¿â¡¢Ð޸ķ¾¶»òȨÏ޵ȣ¬ £¬£¬£¬£¬£¬£¬agent ÔÚÖ´ÐÐÀú³ÌÖÐÒ»Ö±¸Ä±äÇéÐÎ״̬£¬ £¬£¬£¬£¬£¬£¬Ê¹µÃ²¿·Ö²âÊÔʧ°Ü£¬ £¬£¬£¬£¬£¬£¬´Ó¶øÄ£ÄâÕæÊµÏµÍ³ÍË»¯»òÉèÖùýʧ±¬·¢µÄÀúÊ·Àú³Ì¡£¡£¡£ ¡£¡£¡£¡£ ¡£

µ±ÇéÐÎÖзºÆðʧ°Ü²âÊÔºó£¬ £¬£¬£¬£¬£¬£¬ÏµÍ³Æ¾Ö¤Ê§°ÜÈÕÖ¾¡¢Ö´Ðй켣ÒÔ¼°ÇéÐα任×Ô¶¯ÌìÉúÎÊÌâÐÎòÓëÐÞ¸´Ä¿µÄ£¬ £¬£¬£¬£¬£¬£¬´Ó¶øÐγÉÍêÕû CLI ʹÃüʵÀý£¬ £¬£¬£¬£¬£¬£¬agent µÄÄ¿µÄÊÇͨ¹ýÏÂÁîÐвÙ×÷»Ö¸´ÇéÐΣ¬ £¬£¬£¬£¬£¬£¬Ê¹Ê§°Ü²âÊÔÖØÐÂͨ¹ý¡£¡£¡£ ¡£¡£¡£¡£ ¡£Õû¸öÁ÷³ÌÎÞÐèÈ˹¤¼ÓÈ룬 £¬£¬£¬£¬£¬£¬´Ó¿µ½¡ÇéÐÎÌìÉú¹ÊÕÏÇéÐΣ¬ £¬£¬£¬£¬£¬£¬ÔÙ´Ó¹ÊÕÏÇéÐνṹÐÞ¸´Ê¹Ãü£¬ £¬£¬£¬£¬£¬£¬ÊµÏÖÁËÇéÐÎÎÊÌâµÄ×Ô¶¯¹æÄ£»£»£»£»£»¯ÌìÉú¡£¡£¡£ ¡£¡£¡£¡£ ¡£ÕâÒ»Àú³Ì²»µ«Äܹ»Ä£ÄâÕæÊµÏµÍ³ÎÊÌâµÄ±¬·¢·½·¨£¬ £¬£¬£¬£¬£¬£¬Í¬Ê±ÓÉÓÚÿ´ÎÆÆËð·¾¶²î±ð£¬ £¬£¬£¬£¬£¬£¬Ò²´øÀ´Á˸»ºñ¶àÑùµÄʹÃüÀàÐÍ£¬ £¬£¬£¬£¬£¬£¬Ê¹µÃÌìÉúʹÃüÁýÕÖÈí¼þ¹¤³Ì¡¢ÏµÍ³ÖÎÀí¡¢Çå¾²µ÷ÊԵȶà¸ö³¡¾°£¬ £¬£¬£¬£¬£¬£¬ÏÔÖøÌáÉýѵÁ·Êý¾ÝµÄ¶àÑùÐÔÓëÕæÊµÐÔ¡£¡£¡£ ¡£¡£¡£¡£ ¡£

²ú³ö£º¹æÄ£»£»£»£»£»¯Óë¸ßÖÊÁ¿µÄÊý¾Ý

»ùÓÚÕâÒ»×Ô¶¯»¯ pipeline£¬ £¬£¬£¬£¬£¬£¬CLI-Gym ÔÚ 29 ¸öÕæÊµ¿ªÔ´¿ÍÕ»ÖÐÌìÉúÁË 1,655 ¸öÇéÐÎ÷缯ÐÍ CLI ʹÃüʵÀý£¬ £¬£¬£¬£¬£¬£¬¹æÄ£Ô¶³¬ Terminal-Bench µÄÈ˹¤½á¹¹Êý¾Ý£¬ £¬£¬£¬£¬£¬£¬Í¬Ê±Ê¹ÃüÀàÐÍÁýÕÖ¶à¸öÓ¦ÓÃÁìÓò£¬ £¬£¬£¬£¬£¬£¬Õ¹ÏÖ³ö¼«Ç¿µÄ¿ÉÀ©Õ¹ÐÔ¡£¡£¡£ ¡£¡£¡£¡£ ¡£ÓëÏÖÓÐ benchmark Ïà±È£¬ £¬£¬£¬£¬£¬£¬ÕâЩʹÃü¾ßÓиü¸ßÖØÆ¯ºó£¬ £¬£¬£¬£¬£¬£¬Ã¿¸öʹÃüƽ¾ù°üÀ¨Áè¼Ý 20 ¸öʧ°Ü²âÊÔ£¬ £¬£¬£¬£¬£¬£¬Îª agent Ìṩ¸ü¸»ºñµÄÕï¶ÏÐźźÍÐÞ¸´·´Ï죬 £¬£¬£¬£¬£¬£¬Ê¹Ä£×Ó±ØÐèÕæÕýÃ÷ȷϵͳ״̬²¢Ö´Ðжಽ²Ù×÷²Å»ªÍê³ÉÐÞ¸´£¬ £¬£¬£¬£¬£¬£¬¶ø²»ÊÇͨ¹ý¼òÆÓ´úÂëÐ޸ĻòͶÆõÕ½ÂÔͨ¹ý²âÊÔ¡£¡£¡£ ¡£¡£¡£¡£ ¡£±ðµÄ£¬ £¬£¬£¬£¬£¬£¬¸ÃÁ÷³ÌÍêÈ«×Ô¶¯»¯ÔËÐУ¬ £¬£¬£¬£¬£¬£¬½öÏûºÄÅÌËã×ÊÔ´¶øÎÞÐèÈ˹¤±ê×¢£¬ £¬£¬£¬£¬£¬£¬Ïà±ÈÒÀÀµ´ó×Ú¹¤³Ìʦ½á¹¹Ê¹ÃüµÄ¹Å°å·½·¨´ó·ù½µµÍ±¾Ç®£¬ £¬£¬£¬£¬£¬£¬Ê¹ÇéÐÎʹÃüÊý¾ÝÄܹ»Ò»Á¬À©Õ¹¡£¡£¡£ ¡£¡£¡£¡£ ¡£

Ôڹ켣Êý¾ÝÍøÂç½×¶Î£¬ £¬£¬£¬£¬£¬£¬ÏµÍ³Í¨¹ýǿģ×ÓÔËÐÐÕâЩ×Ô¶¯ÌìÉúʹÃü£¬ £¬£¬£¬£¬£¬£¬ÍøÂçÀÖ³ÉÐÞ¸´¹ì¼££¬ £¬£¬£¬£¬£¬£¬²¢Í¨¹ýÑÏ¿á¹ýÂË»ú֯ɍ³ý¹ýÓÚ¼òÆÓ»ò±£´æ×÷±×·¾¶µÄ¹ì¼££¬ £¬£¬£¬£¬£¬£¬½ö±£´æÕæÕýÌåÏÖÖØ´óÇéÐÎÐÞ¸´Àú³ÌµÄÊý¾Ý£¬ £¬£¬£¬£¬£¬£¬×îÖÕ»ñµÃÊý°ÙÌõ¸ßÖÊÁ¿ agent ÐÐΪ¹ì¼££¬ £¬£¬£¬£¬£¬£¬ÓÃÓÚºóÐøÄ£×ÓѵÁ·¡£¡£¡£ ¡£¡£¡£¡£ ¡£ÕâЩ¹ì¼£Õ¹Ê¾Á˸»ºñµÄÐÞ¸´Õ½ÂÔ£¬ £¬£¬£¬£¬£¬£¬°üÀ¨ÒÀÀµ»Ö¸´¡¢ÏµÍ³ÉèÖõ÷ÊÔ¡¢È¨ÏÞÎÊÌâ´¦Öóͷ£ÓëÇéÐÎ×é¼þÐÞ¸´µÈ£¬ £¬£¬£¬£¬£¬£¬ÎªÄ£×ÓÑ§Ï°ÕæÕæÏàÐÎÎÊÌâ½â¾öģʽÌṩÁËÃû¹ó¼àÊÓÐźÅ¡£¡£¡£ ¡£¡£¡£¡£ ¡£

ʵսЧ¹û£ºÏÔÖøÌáÉýÇéÐÎÎÊÌâ½â¾öÄÜÁ¦

»ùÓÚ CLI-Gym ÌìÉúµÄÊý¾Ý¶Ô Qwen3 ϵÁÐÄ£×Ó¾ÙÐÐ΢µ÷ºó£¬ £¬£¬£¬£¬£¬£¬»ñµÃ LiberCoder ϵÁÐÄ£×Ó£¬ £¬£¬£¬£¬£¬£¬ÔÚ Terminal-Bench ÉÏÈ¡µÃÏÔÖøÐÔÄÜÌáÉý¡£¡£¡£ ¡£¡£¡£¡£ ¡£LiberCoder-32B ÔÚ Terminal-Bench 1.0 É쵀 Pass@1 µÖ´ï 38.9%£¬ £¬£¬£¬£¬£¬£¬Ïà±È»ù´¡Ä£×ÓʵÏÖ´ó·ùÌáÉý£¬ £¬£¬£¬£¬£¬£¬¶ø¹æÄ£¸ü´óµÄ LiberCoder-235B-A22B µÖ´ï 46.1%£¬ £¬£¬£¬£¬£¬£¬Áè¼Ý´ó´ó¶¼¿ªÔ´Ä£×Ó£¬ £¬£¬£¬£¬£¬£¬²¢¿¿½ü²¿·Ö±ÕÔ´Ä£×ÓÐÔÄÜ¡£¡£¡£ ¡£¡£¡£¡£ ¡£½øÒ»²½ÆÊÎö·¢Ã÷£¬ £¬£¬£¬£¬£¬£¬Î¢µ÷ºóµÄÄ£×ÓÔÚÇéÐÎÎÊÌâ´¦Öóͷ£ÄÜÁ¦Éϱ¬·¢ÏÔ×Åת±ä£¬ £¬£¬£¬£¬£¬£¬Ä£×Ó²»ÔÙÆµÈÔʧ°ÜÓڱ༭¹ýʧ»òÎÊÌⶨ룬 £¬£¬£¬£¬£¬£¬¶ø¸ü¶àÊܵ½ÉÏÏÂÎij¤¶ÈÓëÖ´ÐÐʱ¼äµÈÍⲿÒòËØÏÞÖÆ£¬ £¬£¬£¬£¬£¬£¬ËµÃ÷Æä½¹µãÇéÐÎÐÞ¸´ÄÜÁ¦ÒѾ­ÏÔÖøÔöÇ¿¡£¡£¡£ ¡£¡£¡£¡£ ¡£Í¬Ê±ÔÚ¶à¸öʹÃüÖÖ±ðÖоùÊӲ쵽һÖÂÌáÉý£¬ £¬£¬£¬£¬£¬£¬°üÀ¨Èí¼þ¹¤³Ì¡¢ÏµÍ³ÖÎÀí¡¢Çå¾²ÐÞ¸´Óëµ÷ÊÔʹÃü£¬ £¬£¬£¬£¬£¬£¬ËµÃ÷ CLI-Gym Êý¾Ý²¢·ÇÕë¶Ô¼òµ¥³¡¾°ÓÅ»¯£¬ £¬£¬£¬£¬£¬£¬¶øÊÇÖÜÈ«ÔöÇ¿ÁËÄ£×ÓÔÚÇéÐν»»¥Ê¹ÃüÖеķº»¯ÄÜÁ¦¡£¡£¡£ ¡£¡£¡£¡£ ¡£

½áÓï

CLI-Gym ÊǵÚÒ»ÖÖÓÃÓÚŷ˳ÀäÁ´ÎïÁ÷ÓÐÏÞ¹«Ë¾À©Õ¹ CLI ÊðÀí±àÂëʹÃüѵÁ·ÇéÐεĹûÕæÒªÁì¡£¡£¡£ ¡£¡£¡£¡£ ¡£Ê¹Óà Dockerfile À´ÌåÏÖÿ¸öÇéÐΣ¬ £¬£¬£¬£¬£¬£¬ÒÔ¾ÙÐÐ׼ȷµÄÉèÖúͰ汾¿ØÖÆ£¬ £¬£¬£¬£¬£¬£¬²¢Ê¹Óà agent À´Ä£ÄâÇéÐÎÀúÊ·¡£¡£¡£ ¡£¡£¡£¡£ ¡£ÕûÀíÁË 1655 ¸öʹÃüʵÀý£¬ £¬£¬£¬£¬£¬£¬ÍøÂçÁË 291 ¸öÀֳɵĹ켣¡£¡£¡£ ¡£¡£¡£¡£ ¡£ÊµÑéÅú×¢£¬ £¬£¬£¬£¬£¬£¬¶ÔPTÊÓѶ(ÖйúÇø)¹ÙÍøÊý¾Ý¾ÙÐÐ΢µ÷¿ÉÒÔ´ó´óÔöÇ¿ÒÔÇéÐÎΪÖÐÐĵÄÊðÀí±àÂ룬 £¬£¬£¬£¬£¬£¬´Ó¶øÔÚ¿ªÔ´Ä£×ÓÖÐÔÚ Terminal Bench ÉÏʵÏÖ¶¥¼¶ÐÔÄÜ¡£¡£¡£ ¡£¡£¡£¡£ ¡£