»úе֮Ðı༲¿
Ìì½òº½ÐÇ×°±¸¿Æ¼¼ÓÐÏÞ¹«Ë¾ÔÚ×î½ü AI ÁìÓòÄÚ£¬£¬£¬£¬£¬ÖÇÄÜÌ壨Agent£©µÄÑо¿ºÍÓ¦ÓÃÔ½À´Ô½¶à£¬£¬£¬£¬£¬ÔÉú¶àÖÇÄÜÌåÊÂÇéµÄ»ù´¡Ä£×ÓÒ²ÒÑ×îÏÈ·ºÆð¡£¡£¡£¡£¡£
×÷Ϊһ¸öÄܹ»ÍÆÀí¡¢ÍýÏëºÍÐж¯µÄϵͳ£¬£¬£¬£¬£¬ÖÇÄÜÌåÕýÖð½¥³ÉΪÏÖʵÌìÏÂÈ˹¤ÖÇÄÜÓ¦Óõij£¼û·¶Ê½¡£¡£¡£¡£¡£´Ó±à³ÌÖúÊÖµ½Ë½ÈË¿µ½¡½ÌÁ·£¬£¬£¬£¬£¬AI Ó¦ÓÃÕý´Óµ¥´ÎÎÊ´ðתÏòÒ»Á¬µÄ¶à°ì·¨½»»¥¡£¡£¡£¡£¡£Ö»¹ÜÑо¿Ö°Ô±ºã¾ÃÒÔÀ´Ò»Ö±Ê¹Óüȶ¨Ö¸±êÀ´ÓÅ»¯¹Å°å»úеѧϰģ×ÓµÄ׼ȷÐÔ£¬£¬£¬£¬£¬µ« AI ÖÇÄÜÌåÒýÈëÁËеÄÖØ´óÐÔ¡£¡£¡£¡£¡£
ÓëÁæØêµÄÕ¹Íû²î±ð£¬£¬£¬£¬£¬AI ÖÇÄÜÌ屨ÐèÓ¦¶ÔÒ»Á¬µÄ¶à°ì·¨½»»¥£¬£¬£¬£¬£¬ÆäÖе¥¸ö¹ýʧ¿ÉÄÜ»áÔÚÕû¸öÊÂÇéÁ÷³ÌÖÐÒý·¢Á¬Ëø·´Ó¦¡£¡£¡£¡£¡£ÕâÖÖת±ä´ÙʹÎÒÃÇÓâÔ½±ê×¼µÄ׼ȷÐÔ¾ÙÐÐ˼Ë÷£ºÊÂʵ¸ÃÔõÑùÉè¼ÆÕâЩϵͳ²Å»ªÊµÏÖ×î¼ÑÐÔÄÜ£¿£¿£¿£¿£¿
ÔÚʵ¼ùÉÏ£¬£¬£¬£¬£¬ÎÒÃǾ³£ÒÀÀµÆô·¢Ê½ÒªÁ죬£¬£¬£¬£¬ÀýÈ硸ÖÇÄÜÌåÔ½¶àÔ½ºÃ¡¹µÄ¼ÙÉ裬£¬£¬£¬£¬ÒÔΪÔöÌíרҵÖÇÄÜÌå¾ÍÄÜÒ»Á¬ÌáÉýЧ¹û¡£¡£¡£¡£¡£ÂÛÎÄ¡¶More Agents Is All You Need¡·Ö¸³ö£¬£¬£¬£¬£¬´óÓïÑÔÄ£×Ó£¨LLM£©µÄÐÔÄÜ»áËæ×ÅÖÇÄÜÌåÊýÄ¿µÄÔöÌí¶øÌáÉý£¬£¬£¬£¬£¬¶ø¡¶Scaling Large Language Model-based Multi-Agent Collaboration¡··¢Ã÷£¬£¬£¬£¬£¬¶àÖÇÄÜÌåÐ×÷¡¸¡¡ ͨ³£Í¨¹ýÕûÌåÍÆÀíÓâÔ½µ¥¸öÖÇÄÜÌåµÄÐÔÄÜ¡¹¡£¡£¡£¡£¡£
ÔÚ Google DeepMind µÄÐÂÂÛÎÄÖУ¬£¬£¬£¬£¬Ñо¿Ö°Ô±¶ÔÕâÒ»¼ÙÉèÌá³öÁËÌôÕ½¡£¡£¡£¡£¡£Í¨¹ý¶Ô 180 ÖÖÖÇÄÜÌåÉèÖþÙÐдó¹æÄ£ÊÜ¿ØÆÀ¹À£¬£¬£¬£¬£¬DeepMind ÍÆµ¼³öÁËÖÇÄÜϵһÇеÄÊ׸ö¶¨Á¿¹æÄ£»£»£»£»£»¯ÔÔò£¬£¬£¬£¬£¬Õ¹ÏÖÁË¡¸ÔöÌíÖÇÄÜÌåÊýÄ¿¡¹µÄÒªÁìÍùÍù»áÓöµ½Æ¿¾±£¬£¬£¬£¬£¬ÈôÊÇÓëʹÃüµÄÏêϸÊôÐÔ²»Æ¥Å䣬£¬£¬£¬£¬ÉõÖÁ»á½µµÍÐÔÄÜ¡£¡£¡£¡£¡£

ÂÛÎÄ£ºTowards a Science of Scaling Agent SystemsÁ´½Ó£ºhttps://arxiv.org/abs/2512.08296
½ç˵¡¸ÖÇÄÜÌ塹ÆÀ¹À
ΪÁËÃ÷È·ÖÇÄÜÌåÔõÑùÀ©Õ¹£¬£¬£¬£¬£¬Ñо¿Ö°Ô±Ê×ÏȽç˵ÁË¡¸ÖÇÄÜÌåʹÃü¡¹µÄ×é³ÉÒªËØ¡£¡£¡£¡£¡£¹Å°åµÄ¾²Ì¬»ù×¼²âÊÔȨºâÄ£×ÓµÄ֪ʶˮƽ£¬£¬£¬£¬£¬µ«ÎÞ·¨²¶»ñ°²ÅŵÄÖØ´óÐÔ¡£¡£¡£¡£¡£ÆäÒÔΪÖÇÄÜÌåʹÃüÐèÒª¾ß±¸Èý¸öÌØ¶¨ÊôÐÔ£º
1. ÓëÍⲿÇéÐÎÒ»Á¬¾ÙÐжà°ì·¨»¥¶¯£»£»£»£»£»
2. ÔÚ²¿·Ö¿ÉÊÓ²ìÐÔÌõ¼þϾÙÐеü´úÐÅÏ¢ÍøÂ磻£»£»£»£»
3. »ùÓÚÇéÐη´ÏìµÄ×Ô˳ӦսÂÔˢС£¡£¡£¡£¡£
Ñо¿Ö°Ô±ÆÀ¹ÀÁËÎåÖֵ䷶¼Ü¹¹£ºÒ»ÖÖµ¥ÖÇÄÜϵһÇÐ (SAS) ºÍËÄÖÖ¶àÖÇÄÜÌå±äÌ壨×ÔÁ¦Ê½¡¢¼¯ÖÐʽ¡¢ÊèɢʽºÍ»ìÏýʽ£©£¬£¬£¬£¬£¬²¢ÔÚËĸö²î±ðµÄ»ù×¼²âÊÔÖоÙÐÐÁ˲âÊÔ£¬£¬£¬£¬£¬°üÀ¨ Finance-Agent£¨½ðÈÚÍÆÀí£©¡¢BrowseComp-Plus£¨ÍøÒ³µ¼º½£©¡¢PlanCraft£¨ÍýÏ룩ºÍ Workbench£¨¹¤¾ßʹÓã©¡£¡£¡£¡£¡£ÖÇÄÜÌå¼Ü¹¹½ç˵ÈçÏ£º
µ¥ÖÇÄÜÌ壨SAS£©£ºÒ»¸ö×ÔÁ¦µÄÖÇÄÜÌ壬£¬£¬£¬£¬Ê¹ÓÃͳһµÄÓ°ÏóÁ÷°´Ë³ÐòÖ´ÐÐËùÓÐÍÆÀíºÍÐж¯°ì·¨£»£»£»£»£»×ÔÁ¦£º¶à¸öÖÇÄÜÌå²¢Ðд¦Öóͷ£×ÓʹÃü£¬£¬£¬£¬£¬Ï໥²»¾ÙÐÐͨѶ£¬£¬£¬£¬£¬½öÔÚ×îºó»ã×ÜЧ¹û£»£»£»£»£»¼¯ÖÐʽ£ºÒ»ÖÖ¡¸ÖÐÐÄ·øÉäʽ¡¹Ä£×Ó£¬£¬£¬£¬£¬ÓÐÖÐÑëе÷Õß½«Ê¹ÃüίÅɸø×÷ÒµÕß²¢×ÛºÏËûÃǵÄÊä³ö£»£»£»£»£»È¥ÖÐÐÄ»¯£ºÒ»ÖÖµã¶ÔµãÍøÂ磬£¬£¬£¬£¬ÆäÖеÄÖÇÄÜÌåÖ±½ÓÏ໥ͨѶ£¬£¬£¬£¬£¬¹²ÏíÐÅÏ¢²¢¸æ¿¢¹²Ê¶£»£»£»£»£»»ìÏýÐÍ£ºÍŽá²ã¼¶¼àÊӺ͵ã¶Ôµãе÷£¬£¬£¬£¬£¬ÒÔÆ½ºâÖÐÑë¿ØÖÆºÍÎÞаִÐС£¡£¡£¡£¡£

±¾Ñо¿ÆÀ¹ÀÁËÎåÖֵ䷶µÄÖÇÄÜÌå¼Ü¹¹£¬£¬£¬£¬£¬²¢×ܽáÁËËüÃǵÄÅÌËãÖØÆ¯ºó¡¢Í¨Ñ¶¿ªÏúºÍе÷»úÖÆ¡£¡£¡£¡£¡£k = ÿ¸öÖÇÄÜÌåµÄ×î´óµü´ú´ÎÊý£¬£¬£¬£¬£¬ n = ÖÇÄÜÌåÊýÄ¿£¬£¬£¬£¬£¬ r = е÷Æ÷ÂÖÊý£¬£¬£¬£¬£¬ d = ±ç˵ÂÖÊý£¬£¬£¬£¬£¬ p = ¶ÔµÈͨѶÂÖÊý£¬£¬£¬£¬£¬ m = ÿÂÖÆ½¾ù¶ÔµÈÇëÇóÊý¡£¡£¡£¡£¡£Í¨Ñ¶¿ªÏúͳ¼ÆÖÇÄÜÌå¼äµÄÐÂÎŽ»Á÷´ÎÊý¡£¡£¡£¡£¡£×ÔÁ¦¼Ü¹¹ÒÔ×îСµÄе÷ʵÏÖ×îºéÁ÷ƽµÄ²¢Ðл¯¡£¡£¡£¡£¡£È¥ÖÐÐÄ»¯¼Ü¹¹½ÓÄÉ˳Ðò±ç˵ÂִΡ£¡£¡£¡£¡£»£»£»£»£»ìÏý¼Ü¹¹ÍŽáÁËе÷Æ÷¿ØÖƺͶ¨Ïò¶ÔµÈͨѶ¡£¡£¡£¡£¡£
Ч¹û£º¡¸ÔöÌíÖÇÄÜÌ塹ֻÊÇÉñ»°
ΪÁËÁ¿»¯Ä£×ÓÄÜÁ¦¶ÔÖÇÄÜÌåÐÔÄܵÄÓ°Ï죬£¬£¬£¬£¬DeepMind ÆÀ¹ÀÁËÕâЩ¼Ü¹¹ÔÚÈý´óÖ÷Á÷Ä£×ÓϵÁУ¨OpenAI GPT¡¢Google Gemini ºÍ Anthropic Claude£©ÉϵÄÌåÏÖ¡£¡£¡£¡£¡£Ð§¹ûÕ¹ÏÖÁËÄ£×ÓÄÜÁ¦Óëе÷Õ½ÂÔÖ®¼äÖØ´óµÄ¹ØÁª¡£¡£¡£¡£¡£
ÈçÏÂͼËùʾ£¬£¬£¬£¬£¬ËäÈ»ÐÔÄÜͨ³£»£»£»£»£»áËæ×ÅÄ£×ÓÄÜÁ¦µÄÌáÉý¶øÌá¸ß£¬£¬£¬£¬£¬µ«¶àÖÇÄÜϵһÇв¢·ÇÍòÄܽâ¾ö¼Æ»® ¡ª¡ª ƾ֤ÏêϸÉèÖõIJî±ð£¬£¬£¬£¬£¬ËüÃǼȿÉÄÜÏÔÖøÌáÉýÐÔÄÜ£¬£¬£¬£¬£¬Ò²¿ÉÄÜÒâÍâµØ½µµÍÐÔÄÜ¡£¡£¡£¡£¡£

¶ÔÈý´óÖ÷Ҫģ×ÓϵÁУ¨OpenAI GPT¡¢Google Gemini¡¢Anthropic Claude£©µÄÐÔÄܽÏÁ¿£¬£¬£¬£¬£¬Õ¹Ê¾Á˲î±ðµÄÖÇÄÜÌå¼Ü¹¹ÔõÑùËæ×ÅÄ£×ÓÖÇÄܵÄÌáÉý¶øÀ©Õ¹£¬£¬£¬£¬£¬ÆäÖжàÖÇÄÜϵһÇпÉÄÜ»áÆ¾Ö¤ÉèÖõIJî±ð¶øÌáÉý»ò½µµÍÐÔÄÜ¡£¡£¡£¡£¡£
ÒÔÏÂЧ¹û½ÏÁ¿ÁËÎåÖּܹ¹ÔÚ²î±ðÁìÓò£¨ÀýÈçÍøÒ³ä¯ÀÀºÍ½ðÈÚÆÊÎö£©µÄÐÔÄÜ¡£¡£¡£¡£¡£ÏäÏßͼÌåÏÖÿÖÖÒªÁìµÄ׼ȷÂÊÂþÑÜ£¬£¬£¬£¬£¬¶ø°Ù·Ö±ÈÔòÌåÏÖ¶àÖÇÄÜÌåÍŶÓÏà¹ØÓÚµ¥ÖÇÄÜÌå»ùÏßµÄÏà¶ÔˢУ¨»òϽµ£©¡£¡£¡£¡£¡£ÕâЩÊý¾ÝÅú×¢£¬£¬£¬£¬£¬ËäÈ»ÔöÌíÖÇÄÜÌå¿ÉÒÔÏÔÖøÌáÉý²¢ÐÐʹÃüµÄÐÔÄÜ£¬£¬£¬£¬£¬µ«ÔÚ˳ÐòÐÔ¸üÇ¿µÄÁ÷³ÌÖУ¬£¬£¬£¬£¬ÍùÍù»áµ¼ÖÂÊÕÒæµÝ¼õ£¬£¬£¬£¬£¬ÉõÖÁÐÔÄÜϽµ¡£¡£¡£¡£¡£

ÌØ¶¨Ê¹ÃüµÄÐÔÄÜÅú×¢£¬£¬£¬£¬£¬¶àÖÇÄÜÌåе÷Ôڿɲ¢Ðл¯µÄʹÃü£¨Èç Finance-Agent£©ÉÏÈ¡µÃÁËÏÔÖøµÄÊÕÒæ£¨+81%£©£¬£¬£¬£¬£¬µ«ÔÚ˳ÐòʹÃü£¨Èç PlanCraft£©ÉϵÄÐÔÄÜÈ´ÓÐËùϽµ£¨-70%£©¡£¡£¡£¡£¡£
¶ÔÆëÔÔò
¹ØÓÚÏñ½ðÈÚÍÆÀíÕâÑù¿É²¢Ðл¯µÄʹÃü£¨ÀýÈ磬£¬£¬£¬£¬²î±ðµÄÖÇÄÜÌå¿ÉÒÔͬʱÆÊÎöÊÕÈëÇ÷ÊÆ¡¢±¾Ç®½á¹¹ºÍÊг¡±ÈÕÕ£©£¬£¬£¬£¬£¬¼¯ÖÐʽе÷±Èµ¥¸öÖÇÄÜÌåµÄÐÔÄÜÌáÉýÁË 80.9%¡£¡£¡£¡£¡£½«ÖØ´óÎÊÌâÆÊÎöΪ×ÓʹÃüµÄÄÜÁ¦Ê¹µÃÖÇÄÜÌåÄܹ»¸ü¸ßЧµØÊÂÇé¡£¡£¡£¡£¡£
˳Ðò´¦·Ö
Ïà·´£¬£¬£¬£¬£¬ÔÚÐèÒªÑÏ¿á˳ÐòÍÆÀíµÄʹÃü£¨ÀýÈç PlanCraft ÖеÄÍýÏ룩ÖУ¬£¬£¬£¬£¬Ñо¿Ö°Ô±²âÊÔµÄÿ¸ö¶àÖÇÄÜÌå±äÌåµÄÐÔÄܶ¼Ï½µÁË 39% µ½ 70%¡£¡£¡£¡£¡£ÔÚÕâЩÇéÐÎÏ£¬£¬£¬£¬£¬Í¨Ñ¶¿ªÏú»á´ò¶ÏÍÆÀíÀú³Ì£¬£¬£¬£¬£¬µ¼ÖÂÏÖʵʹÃüËùÐèµÄ¡¸ÈÏÖªÔ¤Ë㡹ȱ·¦¡£¡£¡£¡£¡£
¹¤¾ßʹÓÃÆ¿¾±
DeepMind Ñо¿Ö°Ô±·¢Ã÷ÁËÒ»¸ö¡¸¹¤¾ßе÷Ȩºâ¡¹¡£¡£¡£¡£¡£Ëæ×ÅʹÃüÐèÒª¸ü¶à¹¤¾ß£¨ÀýÈçÒ»¸ö±àÂëÊðÀíÐèÒª»á¼û 16 ÖÖÒÔÉϵŤ¾ß£©£¬£¬£¬£¬£¬Ðµ÷¶à¸öÖÇÄÜÌåµÄ¡¸±¾Ç®¡¹»á²»¿É±ÈÀýµØÔöÌí¡£¡£¡£¡£¡£
Çå¾²ÌØÕ÷
»òÐí¶ÔÏÖʵ°²ÅŶøÑÔ×îÖ÷ÒªµÄÊÇ£¬£¬£¬£¬£¬¸ÃÊÂÇé·¢Ã÷Á˼ܹ¹Óë¿É¿¿ÐÔÖ®¼äµÄ¹ØÏµ¡£¡£¡£¡£¡£DeepMind ÕÉÁ¿ÁËÎó²î·Å´óÂÊ£¬£¬£¬£¬£¬¼´Ò»¸öÖÇÄÜÌåµÄ¹ýʧÈö²¥µ½×îÖÕЧ¹ûµÄËÙÂÊ¡£¡£¡£¡£¡£

¿ç¼Ü¹¹µÄ×ÛºÏÖ¸±êÏÔʾ£¬£¬£¬£¬£¬¼¯ÖÐʽϵͳÔÚÀÖ³ÉÂʺ͹ýʧ¿ØÖÆÖ®¼äʵÏÖÁË×î¼Ñƽºâ£¬£¬£¬£¬£¬¶ø×ÔÁ¦µÄ¶àÖÇÄÜϵһÇн«¹ýʧ·Å´óÁ˸ߴï 17.2 ±¶¡£¡£¡£¡£¡£
Ñо¿·¢Ã÷£¬£¬£¬£¬£¬×ÔÁ¦µÄ¶àÖÇÄÜϵһÇУ¨ÖÇÄÜÌå²¢ÐÐÊÂÇ鵫²»¾ÙÐÐͨѶ£©»á½«¹ýʧ·Å´ó 17.2 ±¶¡£¡£¡£¡£¡£ÓÉÓÚȱ·¦Ï໥¼ì²é»úÖÆ£¬£¬£¬£¬£¬¹ýʧ»á²»ÊÜ¿ØÖƵؼ¶ÁªÈö²¥¡£¡£¡£¡£¡£¼¯ÖÐʽϵͳ£¨´øÓÐе÷Æ÷£©Ôò½«ÕâÖÖ·Å´ó±¶Êý¿ØÖÆÔÚ 4.4 ±¶¡£¡£¡£¡£¡£Ðµ÷Æ÷ÓÐÓõس䵱ÁË¡¸Ñé֤ƿ¾±¡¹£¬£¬£¬£¬£¬ÔÚ¹ýʧÈö²¥Ö®Ç°½«Æä²¶»ñ¡£¡£¡£¡£¡£
ÖÇÄÜÌåÉè¼ÆµÄÕ¹ÍûÄ£×Ó
×îºó£¬£¬£¬£¬£¬×÷Õß²»ÔÙ¾ÖÏÞÓÚ»ØÊ×ÐÔÆÊÎö£¬£¬£¬£¬£¬¶øÊÇ¿ª·¢ÁËÒ»¸öÕ¹ÍûÄ£×Ó£¨R? = 0.513£©£¬£¬£¬£¬£¬¸ÃÄ£×ÓʹÓù¤¾ßÊýÄ¿ºÍ¿ÉÆÊÎöÐԵȿÉÕÉÁ¿µÄʹÃüÊôÐÔÀ´Õ¹ÍûÄÄÖּܹ¹ÐÔÄÜ×î¼Ñ¡£¡£¡£¡£¡£¸ÃÄ£×ÓÄܹ»×¼È·Ê¶±ð 87% δ¼û¹ýµÄʹÃüÉèÖõÄ×î¼Ñе÷Õ½ÂÔ¡£¡£¡£¡£¡£
ÕâÅú×¢ÎÒÃÇÕýÔÚÂõÏòÖÇÄÜÌåÀ©Õ¹µÄпÆÑ§¡£¡£¡£¡£¡£¿£¿£¿£¿£¿ª·¢Õß²»ÔÙÐèÒªÍÆ²âÊÇʹÓÃÖÇÄÜÌ弯ȺÕվɵ¥¸öǿʢµÄÄ£×Ó£¬£¬£¬£¬£¬¶øÊÇ¿ÉÒÔÆ¾Ö¤Ê¹ÃüµÄÌØÕ÷£¬£¬£¬£¬£¬ÌØÊâÊÇÆä˳ÐòÒÀÀµ¹ØÏµºÍ¹¤¾ßÃܶȣ¬£¬£¬£¬£¬×ö³ö»ùÓÚÔÔòµÄ¹¤³Ì¾öÒé¡£¡£¡£¡£¡£
½áÂÛ
Ëæ×Å Gemini µÈ»ù´¡Ä£×ÓµÄÒ»Ö±Éú³¤£¬£¬£¬£¬£¬Google DeepMind µÄÑо¿Åú×¢£¬£¬£¬£¬£¬¸üÖÇÄܵÄÄ£×Ó²¢²»¿ÉÈ¡´ú¶àÖÇÄÜϵһÇУ¬£¬£¬£¬£¬¶øÊǼÓËÙÁËÆäÉú³¤£¬£¬£¬£¬£¬µ«ÕâÖ»ÓÐÔڼܹ¹×¼È·µÄÇéÐÎÏ²ŻªÊµÏÖ¡£¡£¡£¡£¡£Í¨¹ý´ÓÆô·¢Ê½ÒªÁìתÏò¶¨Á¿ÔÔò£¬£¬£¬£¬£¬ÎÒÃÇ¿ÉÒÔ¹¹½¨ÏÂÒ»´ú AI ÖÇÄÜÌ壬£¬£¬£¬£¬ËüÃDz»µ«ÊýÄ¿¸ü¶à£¬£¬£¬£¬£¬²¢ÇÒ¸üÖÇÄÜ¡¢¸üÇå¾²¡¢¸ü¸ßЧ¡£¡£¡£¡£¡£
²Î¿¼ÄÚÈÝ£º
https://researÌì½òº½ÐÇ×°±¸¿Æ¼¼ÓÐÏÞ¹«Ë¾ch.google/blog/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work/