LLM-in-Sandbox£º¸ø´óÄ£×Óһ̨µçÄÔ£¬£¬£¬ £¬£¬Òý·¢Í¨ÓÃÖÇÄÜÌåÄÜÁ¦
2026-02-26 20:14:59

´óÄ£×ÓµÄÄÜÁ¦ÕýÔÚ±»²î±ðµÄ·¶Ê½Öð²½½âËø£ºIn-Context Learning չʾÁËÄ£×ÓÎÞÐè΢µ÷¼´¿É·º»¯µ½ÐÂʹÃü £»£»£»£»£» £»Chain-of-Thought ͨ¹ýÖ¸µ¼Ä£×Ó·Ö²½ÍÆÀíÀ´ÌáÉýÖØ´óÎÊÌâµÄÇó½âÄÜÁ¦ £»£»£»£»£» £»½üÆÚ£¬£¬£¬ £¬£¬ÖÇÄÜÌå¿ò¼ÜÔò¸¶ÓëÄ£×ÓŲÓù¤¾ß¡¢¶àÂÖ½»»¥µÄÄÜÁ¦¡£¡£¡£¡£ ¡£¡£¡£

ÑØ×ÅÕâÌõÊÖÒÕÑݽøõè¾¶£¬£¬£¬ £¬£¬ÏÂÒ»²½ÊÇʲô £¿£¿£¿£¿£¿

¿ËÈÕ£¬£¬£¬ £¬£¬À´×ÔÖйúÈËÃñ´óѧ¸ßê²È˹¤ÖÇÄÜѧԺ¡¢Î¢ÈíÑо¿ÔººÍÇ廪´óѧµÄÑо¿ÕßÌá³öÁËÒ»¸ö¾«Á·¶øÓÐÓõķ¶Ê½£ºLLM-in-Sandbox¡ª¡ªÈôóÄ£×ÓÔÚ´úÂëɳºÐ£¨¼´ÐéÄâµçÄÔ£©ÖÐ×ÔÓÉ̽Ë÷À´Íê³ÉʹÃü¡£¡£¡£¡£ ¡£¡£¡£ÊµÑéÅú×¢£¬£¬£¬ £¬£¬ÕâÒ»·¶Ê½²»µ«ÔÚ´úÂëʹÃüÉÏÓÐÓ㬣¬£¬ £¬£¬¸üÄÜÏÔÖøÌáÉýÄ£×ÓÔÚÊýѧ¡¢ÎïÀí¡¢»¯Ñ§¡¢ÉúÎïҽѧ¡¢³¤Îı¾Ã÷È·¡¢Ö¸Áî×ñÕյȶà¸ö·Ç´úÂëÁìÓòµÄÌåÏÖ£¬£¬£¬ £¬£¬ÇÒÎÞÐèÌØÊâѵÁ·£¬£¬£¬ £¬£¬Í¬Ê±ÏÔÖøïÔÌ­³¤Îı¾³¡¾°Ï嵀 token ÏûºÄ£¬£¬£¬ £¬£¬²¢¼á³ÖÏ൱ˮƽµÄÍÆÀíËÙÂÊ¡£¡£¡£¡£ ¡£¡£¡£

Ñо¿ÕßÒѽ« LLM-in-Sandbox ¿ªÔ´Îª Python °ü£¬£¬£¬ £¬£¬¿ÉÓë vLLM¡¢SGLang µÈÖ÷Á÷ÍÆÀíºó¶ËÎ޷켯³É¡£¡£¡£¡£ ¡£¡£¡£LLM-in-Sandbox Ó¦µ±³ÉΪ´óÄ£×ÓµÄĬÈϰ²ÅÅ·¶Ê½£¬£¬£¬ £¬£¬È¡´ú´¿ LLM ÍÆÀí¡£¡£¡£¡£ ¡£¡£¡£

ÂÛÎÄÎÊÌ⣺LLM-in-Sandbox Elicits General Agentic IntelligenceÂÛÎÄÁ´½Ó£ºhttps://arxiv.org/abs/2601.16206´úÂëÁ´½Ó£ºhttps://github.com/llm-in-sandbox/llm-in-sandboxÏîÄ¿Ö÷Ò³£ºhttps://llm-in-sandbox.github.io

1. ½¹µãÍ·ÄÔ£º¸ø´óÄ£×Óһ̨µçÄÔ

µçÄÔ¿ÉÄÜÊÇÈËÀà´´Á¢µÄ×îͨÓõŤ¾ß£¬£¬£¬ £¬£¬ÏÕЩÈκÎʹÃü¶¼¿ÉÒÔͨ¹ýµçÄÔÍê³É¡£¡£¡£¡£ ¡£¡£¡£ÕâÖÖͨÓÃÐÔÔ´ÓÚÈý´óÔªÄÜÁ¦£¨Meta-Capabilities)£º

Íⲿ×ÊÔ´»á¼û£ºÍ¨¹ýÍøÂç»ñÊØÐÅÏ¢ºÍ֪ʶÎļþÖÎÀí£º³¤ÆÚ»¯µØ¶ÁдºÍ×éÖ¯Êý¾Ý³ÌÐòÖ´ÐУº±àд²¢ÔËÐÐí§Òâ³ÌÐò

ÕýÈçÈËÀà½èÖúµçÄÔÍê³ÉÖÖÖÖʹÃü£¬£¬£¬ £¬£¬Ñо¿Õß¼ÙÉ裺½«´óÄ£×ÓÓëÐéÄâµçÄÔ͎ᣬ£¬£¬ £¬£¬»òÐíÄܹ»½âËøÆäͨÓÃÖÇÄܵÄDZÁ¦¡£¡£¡£¡£ ¡£¡£¡£

2. LLM-in-Sandbox£º

´úÂëɳºÐÒý·¢Í¨ÓÃÄÜÁ¦

2.1 ÇáÁ¿¼¶Í¨ÓÃɳºÐ

ÓëÏÖÓÐÈí¼þ¹¤³ÌÖÇÄÜÌ壨SWE-Agent£©ÐèҪΪÿ¸öʹÃüÉèÖÃÌØ¶¨ÇéÐβî±ð£¬£¬£¬ £¬£¬LLM-in-Sandbox ½ÓÄÉÇáÁ¿¼¶¡¢Í¨Óû¯µÄÉè¼Æ£º

»ùÓÚ Docker µÄ Ubuntu ÇéÐνöԤװ Python Ú¹ÊÍÆ÷ºÍ»ù´¡¿ÆÑ§ÅÌËã¿â½«ÁìÓòÌØ¶¨¹¤¾ßµÄ»ñÈ¡½»¸øÄ£×Ó×ÔÖ÷Íê³É

ÕâÖÖÉè¼Æ´øÀ´Á½¸öÓÅÊÆ£º·º»¯ÐÔ£¨Í³Ò»ÇéÐÎÖ§³Ö¶àÖÖʹÃü£©ºÍ¿ÉÀ©Õ¹ÐÔ£¨ÎÞÐèΪÿ¸öʹÃüά»¤×ÔÁ¦¾µÏñ£©¡£¡£¡£¡£ ¡£¡£¡£ÀýÈ磬£¬£¬ £¬£¬µ±À©Õ¹µ½Êýǧ¸öʹÃüʱ£¬£¬£¬ £¬£¬SWE ÖÇÄÜÌå¿ÉÄÜÐèÒª¸ß´ï 6TB µÄ´æ´¢¿Õ¼äÓÃÓÚʹÃüÌØ¶¨¾µÏñ£¬£¬£¬ £¬£¬¶ø LLM-in-Sandbox ½öÐèÔ¼ 1.1GB µÄ¹²Ïí¾µÏñ¡£¡£¡£¡£ ¡£¡£¡£

2.2 ×îС»¯¹¤¾ß¼¯

Ñо¿ÕßΪģ×ÓÅ䱸ÁËÈý¸ö»ù´¡¹¤¾ß£º

execute_bash£ºÖ´ÐÐí§ÒâÖÕ¶ËÏÂÁîstr_replace_editor£ºÎļþµÄ½¨Éè¡¢Éó²éºÍ±à¼­submit£º±ê¼ÇʹÃüÍê³É

ÕâÈý¸ö¹¤¾ßÅäºÏʵÏÖÁ˵çÄԵĽ¹µãÄÜÁ¦£¬£¬£¬ £¬£¬×ãÒÔÖ§³ÖÖØ´óʹÃüµÄÍê³É¡£¡£¡£¡£ ¡£¡£¡£

2.3 ̽Ë÷ʽÊÂÇéÁ÷

LLM-in-Sandbox ½ÓÄɶàÂÖ½»»¥µÄÊÂÇéÁ÷£ºÄ£×ÓÔÚÿһÂÖÌìÉú¹¤¾ßŲÓ㬣¬£¬ £¬£¬ÎüÊÕÖ´ÐÐЧ¹û×÷Ϊ·´Ï죬£¬£¬ £¬£¬È»ºó¾öÒéÏÂÒ»²½Ðж¯£¬£¬£¬ £¬£¬Ö±µ½Å²Óà submit »òµÖ´ï×î´óÂÖ´ÎÏÞÖÆ¡£¡£¡£¡£ ¡£¡£¡£

2.4 ʵÑéЧ¹û£ºÎÞÐèѵÁ·µÄÏÔÖøÌáÉý

Ñо¿ÕßÔÚÁù¸ö·Ç´úÂëÁìÓò¾ÙÐÐÁËʵÑ飺Êýѧ¡¢ÎïÀí¡¢»¯Ñ§¡¢ÉúÎïҽѧ¡¢³¤Îı¾Ã÷È·ºÍÖ¸Áî×ñÕÕ¡£¡£¡£¡£ ¡£¡£¡£

ʵÑéЧ¹ûÅú×¢£¬£¬£¬ £¬£¬Ç¿Ê¢µÄÓïÑÔÄ£×ÓÔÚ LLM-in-Sandbox ģʽÏ»ñµÃÁËÒ»ÖÂÐÔµÄÌáÉý¡£¡£¡£¡£ ¡£¡£¡£ÖµµÃ×¢ÖØµÄÊÇ£¬£¬£¬ £¬£¬ÕâЩÌáÉýÍêÈ«ÎÞÐèÌØÊâѵÁ·£ºÄ£×ÓÄܹ»×Ô¾õµØÊ¹ÓÃɳºÐÇéÐÎÀ´ÔöǿʹÃüÌåÏÖ¡£¡£¡£¡£ ¡£¡£¡£

2.5 Ó¿ÏֵŤ¾ßʹÓÃÄÜÁ¦

Ñо¿Õßͨ¹ý°¸ÀýÆÊÎöÕ¹ÏÖÁËÄ£×ÓÔõÑù×ÔÖ÷ʹÓÃɳºÐµÄÈý´óÄÜÁ¦¡£¡£¡£¡£ ¡£¡£¡£

Íⲿ×ÊÔ´»á¼û£ºÔÚ»¯Ñ§Ê¹ÃüÖУ¬£¬£¬ £¬£¬Ä£×Ó±»ÒªÇóƾ֤»¯ºÏÎïÃû³ÆÕ¹Íû·Ö×ÓÐÔ×Ó¡£¡£¡£¡£ ¡£¡£¡£Îª´Ë£¬£¬£¬ £¬£¬Ä£×Ó×ÔÖ÷×°ÖÃÁË Java ÔËÐÐÇéÐΣ¬£¬£¬ £¬£¬²¢ÏÂÔØÁË OPSIN ¿âÀ´½«»¯Ñ§Ãû³Æ×ª»»Îª·Ö×ӽṹ£¬£¬£¬ £¬£¬ÕâЩ¹¤¾ß²¢·ÇԤװÔÚ»ù´¡ÇéÐÎÖС£¡£¡£¡£ ¡£¡£¡£

ÎļþÖÎÀí£ºÔÚ³¤Îı¾Ã÷ȷʹÃüÖУ¬£¬£¬ £¬£¬ÃæÁÙÁè¼Ý 100K tokens µÄÐÐÒµ±¨¸æ£¬£¬£¬ £¬£¬Ä£×Ó²¢Î´ÊµÑéÔÚ prompt Öд¦Öóͷ£Õû¸öÎĵµ£¬£¬£¬ £¬£¬¶øÊÇʹÓà grep¡¢sed µÈ shell ¹¤¾ß¶¨Î»Ïà¹Ø¶ÎÂ䣬£¬£¬ £¬£¬È»ºó±àд Python ¾ç±¾ÏµÍ³ÐÔµØÌáÊØÐÅÏ¢¡£¡£¡£¡£ ¡£¡£¡£

ÅÌËãÖ´ÐУºÔÚÖ¸Áî×ñÕÕʹÃüÖУ¬£¬£¬ £¬£¬Ä£×Ó±»ÒªÇóÌìÉúÈý¸öÖª×ãÑÏ¿áÔ¼ÊøµÄ¾ä×Ó£ºËùÓоä×Ó±ØÐè¾ßÓÐÏàͬµÄ×Ö·ûÊý£¬£¬£¬ £¬£¬Í¬Ê±Ê¹ÓÃÍêÈ«²î±ðµÄ´Ê»ã¡£¡£¡£¡£ ¡£¡£¡£Ä£×Ó±àдÁË Python ½ÅÔ­À´Í³¼Æ×Ö·û¡¢¼ì²â´Ê»ãÖØµþ£¬£¬£¬ £¬£¬²¢µü´úÓÅ»¯ºòÑ¡¾ä×Ó¡£¡£¡£¡£ ¡£¡£¡£

3. LLM-in-Sandbox RL£º

ͨ¹ýÇ¿»¯Ñ§Ï°ÔöÇ¿·º»¯ÄÜÁ¦

ËäȻǿʢµÄÖÇÄÜÌåÄ£×ÓÄܹ»Ö±½ÓÊÜÒæÓÚ LLM-in-Sandbox£¬£¬£¬ £¬£¬µ«½ÏÈõµÄÄ£×Ó£¨Èç Qwen3-4B-Instruct£©ÍùÍùÄÑÒÔÓÐÓÃʹÓÃɳºÐÇéÐΣ¬£¬£¬ £¬£¬ÉõÖÁÌåÏÖ²»Èç´¿ LLM ģʽ¡£¡£¡£¡£ ¡£¡£¡£

Ϊ´Ë£¬£¬£¬ £¬£¬Ñо¿ÕßÌá³öÁËLLM-in-Sandbox RL£ºÊ¹Ó÷ÇÖÇÄÜÌåÊý¾ÝÔÚɳºÐÇéÐÎÖÐѵÁ·Ä£×Ó¡£¡£¡£¡£ ¡£¡£¡£

3.1 ÒªÁìÉè¼Æ

½¹µãÍ·ÄÔÊǽÓÄÉ»ùÓÚÉÏÏÂÎĵÄʹÃü£¨context-based tasks£©£ºÃ¿¸öʹÃü°üÀ¨Åä¾°ÖÊÁϺÍÐèÒª»ùÓÚÕâЩÖÊÁÏÍê³ÉµÄÄ¿µÄ¡£¡£¡£¡£ ¡£¡£¡£ÓÉÓÚÍê³ÉÄ¿µÄÒÀÀµÓÚÌṩµÄÖÊÁÏ£¬£¬£¬ £¬£¬Ä£×Ó±ØÐè×Ô¶¯Ì½Ë÷ɳºÐÒÔÕÒµ½Ïà¹ØÐÅÏ¢£¬£¬£¬ £¬£¬´Ó¶ø×ÔÈ»µØÑ§»áʹÓÃɳºÐÄÜÁ¦¡£¡£¡£¡£ ¡£¡£¡£

3.2 ·º»¯ÄÜÁ¦

ʵÑéÔÚ Qwen3-4B-Instruct ºÍ Qwen3-Coder-30B-A3B Á½¸öÄ£×ÓÉϾÙÐС£¡£¡£¡£ ¡£¡£¡£Òªº¦·¢Ã÷ÊÇLLM-in-Sandbox RL Õ¹ÏÖ³öǿʢµÄ·º»¯ÄÜÁ¦£º

¿çÁìÓò·º»¯£ºÑµÁ·Êý¾ÝÀ´×ÔͨÓÃÁìÓò£¬£¬£¬ £¬£¬µ«Ä£×ÓÔÚÊýѧ¡¢ÎïÀí¡¢»¯Ñ§¡¢³¤Îı¾¡¢Ö¸Áî×ñÕյȶà¸öÏÂÓÎʹÃüÉ϶¼»ñµÃÁËÒ»ÖµÄÌáÉý£¬£¬£¬ £¬£¬ÉõÖÁÔÚÈí¼þ¹¤³ÌʹÃüÉÏÒ²ÓиÄÉÆ¡£¡£¡£¡£ ¡£¡£¡ £¿£¿£¿£¿£¿çÍÆÀíģʽ·º»¯£ºÓÐȤµÄÊÇ£¬£¬£¬ £¬£¬LLM-in-Sandbox RL ²»µ«ÌáÉýÁËɳºÐģʽµÄÌåÏÖ£¬£¬£¬ £¬£¬»¹Í¬Ê±ÌáÉýÁË´¿ LLM ģʽµÄÌåÏÖ¡£¡£¡£¡£ ¡£¡£¡£Õâ˵Ã÷ÔÚɳºÐÖÐѧµ½µÄ̽Ë÷ºÍÍÆÀíÄÜÁ¦¿ÉÒÔǨáãµ½·ÇɳºÐ³¡¾°¡£¡£¡£¡£ ¡£¡£¡ £¿£¿£¿£¿£¿çÄ£×ÓÄÜÁ¦·º»¯£ºÎÞÂÛÊǽÏÈõµÄͨÓÃÄ£×Ó£¨Qwen3-4B-Instruct£©ÕվɽÏÇ¿µÄ´úÂëרÓÃÄ£×Ó£¨Qwen3-Coder-30B-A3B£©£¬£¬£¬ £¬£¬LLM-in-Sandbox RL ¶¼ÄÜ´øÀ´Ò»ÖµÄÌáÉý£¬£¬£¬ £¬£¬Åú×¢ÕâÒ»ÒªÁì¾ßÓÐÓÅÒìµÄÄ£×ÓͨÓÃÐÔ¡£¡£¡£¡£ ¡£¡£¡£

4. ЧÂÊÆÊÎö£º

LLM-in-Sandbox µÄÏÖʵ°²ÅżÛÖµ

4.1 Token ÏûºÄ

ÔÚ³¤Îı¾³¡¾°Ï£¬£¬£¬ £¬£¬LLM-in-Sandbox ½«Îĵµ´æ´¢ÔÚɳºÐÖжø·Ç·ÅÈë prompt£¬£¬£¬ £¬£¬¿É½« token ÏûºÄ½µµÍ×î¶à 8 ±¶£¨100K ¡ú 13K tokens£©¡£¡£¡£¡£ ¡£¡£¡£

4.2 ÍÆÀíËÙÂÊ

ͨ¹ý½«ÅÌËãÐ¶ÔØµ½É³ºÐ£¬£¬£¬ £¬£¬LLM-in-Sandbox ½«ÊÂÇé¸ºÔØ´ÓÂýËÙµÄ×ԻعéÌìÉú£¨decode£©×ªÒƵ½¿ìËٵIJ¢ÐÐÔ¤Ìî³ä£¨prefill)£¬£¬£¬ £¬£¬ÔÚÆ½¾ùÇéÐÎϼá³ÖÓоºÕùÁ¦µÄÍÌÍÂÁ¿£¨QPM£©£ºMiniMax ¿ÉʵÏÖ 2.2 ±¶¼ÓËÙ¡£¡£¡£¡£ ¡£¡£¡£

5. LLM-in-Sandbox ÓâÔ½Îı¾ÌìÉú

Ç°ÃæµÄʵÑéÆÀ¹ÀµÄÊÇ LLM ºÍ LLM-in-Sandbox ¶¼ÄÜÍê³ÉµÄʹÃü¡£¡£¡£¡£ ¡£¡£¡£È»¶ø£¬£¬£¬ £¬£¬LLM-in-Sandbox »¹ÄÜʵÏÖ´¿ LLM »ù´¡ÎÞ·¨Íê³ÉµÄÄÜÁ¦¡£¡£¡£¡£ ¡£¡£¡£Í¨¹ý¸ø LLM ÌṩÐéÄâµçÄÔ£¬£¬£¬ £¬£¬LLM-in-Sandbox Í»ÆÆÁË text-in-text-out µÄ·¶Ê½£¬£¬£¬ £¬£¬½âËøÁËеĿÉÄÜÐÔ£º

¿çģ̬ÄÜÁ¦£ºLLM ¾ÖÏÞÓÚÎı¾ÊäÈëÊä³ö£¬£¬£¬ £¬£¬µ« LLM-in-Sandbox ¿ÉÒÔͨ¹ýÔÚɳºÐÖÐŲÓÃרҵÈí¼þÀ´´¦Öóͷ£ºÍÌìÉúͼÏñ¡¢ÊÓÆµ¡¢ÒôƵºÍ½»»¥Ê½Ó¦ÓÃÎļþ¼¶²Ù×÷£º²»ÔÙÊÇÐÎòÎļþÓ¦¸Ã°üÀ¨Ê²Ã´£¬£¬£¬ £¬£¬¶øÊÇÖ±½ÓÌìÉú¿ÉÓõÄÎļþ ¡ª¡ª.png¡¢.mp4¡¢.wav¡¢.html×ÔÖ÷¹¤¾ß»ñÈ¡£¡£¡£¡£ ¡£¡£¡£º²î±ðÓÚÔ¤½ç˵µÄ¹¤¾ßŲÓ㬣¬£¬ £¬£¬LLM-in-Sandbox ʹ LLM Äܹ»×ÔÖ÷·¢Ã÷¡¢×°ÖúÍѧϰʹÓÃí§ÒâÈí¼þ¿â

ÕâЩ°¸ÀýÕ¹ÏÖÁËÒ»¸öÓÐÔ¶¾°µÄÆ«Ïò£ºËæ×Å LLM ÄÜÁ¦µÄÔöÇ¿ºÍɳºÐÇéÐεÄÍêÉÆ£¬£¬£¬ £¬£¬LLM-in-Sandbox ¿ÉÄÜÑÝ»¯ÎªÕæÕýµÄͨÓÃÊý×Ö´´×÷ϵͳ¡£¡£¡£¡£ ¡£¡£¡£

6. ×ܽáÓëÕ¹Íû

LLM-in-Sandbox Ìá³öÁËÒ»¸ö¾«Á·¶øÓÐÓõķ¶Ê½£ºÍ¨¹ý¸ø´óÄ£×ÓÌṩһ̨ÐéÄâµçÄÔ£¬£¬£¬ £¬£¬ÈÃÆä×ÔÓÉ̽Ë÷À´Íê³ÉʹÃü¡£¡£¡£¡£ ¡£¡£¡£ÊµÑéÅú×¢£¬£¬£¬ £¬£¬ÕâÒ»·¶Ê½Äܹ»ÏÔÖøÌáÉýÄ£×ÓÔÚ·Ç´úÂëÁìÓòµÄÌåÏÖ£¬£¬£¬ £¬£¬ÇÒÎÞÐèÌØÊâѵÁ·¡£¡£¡£¡£ ¡£¡£¡£

Ñо¿ÕßÒÔΪ£¬£¬£¬ £¬£¬LLM-in-S½­ËÕ½ðÁê»·±£¹¤³ÌÓÐÏÞ¹«Ë¾andbox Ó¦µ±³ÉΪ´óÄ£×ÓµÄĬÈϰ²ÅÅ·¶Ê½£¬£¬£¬ £¬£¬È¡´ú´¿ LLM ÍÆÀí¡£¡£¡£¡£ ¡£¡£¡£µ±É³ºÐ¿ÉÒÔ´øÀ´ÏÔÖøµÄÐÔÄÜÌáÉý£¬£¬£¬ £¬£¬²¢ÇÒ°²Åű¾Ç®ÏÕЩ¿ÉÒÔºöÂÔ²»¼ÆÊ±£¬£¬£¬ £¬£¬ÎªÊ²Ã´»¹ÒªÓô¿ LLM £¿£¿£¿£¿£¿