RebuttalÊÇ´ø×ÅÁÍîíÎ赸£¿£¿£¿£¿£¿£¿£¿ £¿¸Û¿ÆRebuttalAgentÐÄÖÇÀíÂÛ¶Á¶®Éó¸åÈË
2026-03-01 04:00:20

ÃæÁÙÙÉÐÐÆÀÉ󣬣¬£¬£¬£¬Ðí¶à×÷Õß¶¼ÓйýÕâÑùµÄÂÄÀú£ºÏÔׯظ²ÁËÉó¸åÈ˵Äÿһ¸öÎÊÌ⣬£¬£¬£¬£¬Ì¬¶ÈÒ²×㹻ǫ±°£¬£¬£¬£¬£¬ÎªÊ²Ã´×îÖÕÕÕ¾ÉûÄܸж¯¶Ô·½£¿£¿£¿£¿£¿£¿£¿ £¿

ÏÖÓеÄͨÓôóÄ£×ÓÔÚ´¦Öóͷ£ÕâÀàʹÃüʱ£¬£¬£¬£¬£¬ÍùÍùÏÝÈëÒ»ÖÖ ¡°ÍâòÀñò¡± µÄÏÝÚ壺ËüÃÇÉÃÓÀÌìÉúÁ÷ͨ¡¢Î¯ÍñµÄ ¡°Thank you for your insightful comment¡±£¬£¬£¬£¬£¬È´È±·¦¶ÔÉó¸åÈËÑÔÍâÖ®ÒâµÄÉî¶È¶´²ì£¬£¬£¬£¬£¬µ¼Ö»ظ´ËäÈ»¿ÍÌ×£¬£¬£¬£¬£¬µ«È±·¦Ö±»÷Í´µãµÄ˵·þÁ¦¡£¡£¡£¡£¡£¡£¡£¡£

ÊÂʵʲôÑùµÄ»Ø¸´Õ½ÂÔ£¬£¬£¬£¬£¬²Å»ªÔÚÓÐÏÞµÄÆª·ùÄÚ£¬£¬£¬£¬£¬ÓÐÓÃÏû³ýÎó½â¡¢Ó®µÃ¹²Ê¶£¿£¿£¿£¿£¿£¿£¿ £¿

Õë¶ÔÕâÒ»ÎÊÌ⣬£¬£¬£¬£¬À´×ÔÏã¸Û¿Æ¼¼´óѧµÄÑо¿ÍŶÓÌá³öÁËÒ»ÖÖȫеĿò¼Ü ¡ª¡ªRebuttalAgent¡£¡£¡£¡£¡£¡£¡£¡£¸ÃÑо¿Ê״ν«ÈÏÖª¿ÆÑ§ÖеÄÐÄÖÇÀíÂÛ£¨Theory of Mind, ToM£©ÒýÈëѧÊõ Rebuttal ʹÃü£¬£¬£¬£¬£¬Èà AI Äܹ»Ïñ×ÊÉîѧÕßÒ»Ñù ¡°¶Á¶®¡± Éó¸åÈË£¬£¬£¬£¬£¬´Ó¶øÌìÉú¼æ¾ßÕ½ÂÔÐÔÓë˵·þÁ¦µÄ»Ø¸´¡£¡£¡£¡£¡£¡£¡£¡£

ÏÖÔÚ£¬£¬£¬£¬£¬¸ÃÂÛÎÄÒѱ»ICLR 2026ÎüÊÕ¡£¡£¡£¡£¡£¡£¡£¡£

ÂÛÎÄÎÊÌ⣺Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of MindÂÛÎÄÁ´½Ó£ºhttps://arxiv.org/pdf/2601.15715´úÂëÁ´½Ó£ºhttps://github.com/Zhitao-He/RebuttalAgent

Rebuttal ÐèÒªÔõÑùµÄ²©ÞÄÖǻۣ¿£¿£¿£¿£¿£¿£¿ £¿

ÔÚѧÊõ½çµÄ²©ÞÄÂÛÊÓ½ÇÏ£¬£¬£¬£¬£¬Rebuttal ÊÇÒ»¸öµä·¶µÄ¡°²»ÍêÈ«ÐÅÏ¢¶¯Ì¬²©ÞÄ¡±£¨Dynamic Game of Incomplete Information£©¡£¡£¡£¡£¡£¡£¡£¡£×÷Õß²»µ«ÒªÃæÁÙÉó¸åÈËÏÔÐÔµÄÖÊÒÉ£¬£¬£¬£¬£¬»¹ÒªÓ¦¶ÔÒþÐÔµÄÐÅÏ¢²î³Ø³Æ£¬£¬£¬£¬£¬Äã²»ÖªµÀÉó¸åÈ˵Ä֪ʶÅä¾°¡¢Ç±ÔÚ˽¼û£¬£¬£¬£¬£¬Ò²²»ÖªµÀÄãµÄÚ¹ÊÍ»áÒý·¢ÔõÑùµÄÁ¬Ëø·´Ó¦¡£¡£¡£¡£¡£¡£¡£¡£

ÏÖÓеĻùÓÚ¼àÊÓ΢µ÷µÄÄ£×Ó£¬£¬£¬£¬£¬´ó¶àÖ¹²½ÓÚ¶ÔÈËÀà»Ø¸´µÄ¡®ÓïÑÔѧÄâ̬¡¯¡£¡£¡£¡£¡£¡£¡£¡£ËüÃǾ«×¼¸´¿ÌÁËÀñòµÄ¡®Íâ¿Ç¡¯£¬£¬£¬£¬£¬È´Î´ÄÜ´¥¼°Éó¸åÈËÒâͼµÄ¡®Äںˡ¯£¬£¬£¬£¬£¬¼´È±·¦¶ÔÉó¸åÈ˵ÄÉî¶È½¨Ä£¡£¡£¡£¡£¡£¡£¡£¡£ Õë¶ÔÕâһʹµã£¬£¬£¬£¬£¬Ñо¿ÕßÌá³öÁË RebuttalAgent£¬£¬£¬£¬£¬Æä½¹µã¶´²ì£ºÓÐÓõÄ˵·þ»úÖÆ£¬£¬£¬£¬£¬±ØÐ轨ÉèÔÚ¶ÔËûÈ˵ġ®ÐÄÖÇÀíÂÛ¡¯½¨Ä£Ö®ÉÏ¡£¡£¡£¡£¡£¡£¡£¡£

ͼһ£ºRebuttalAgent ¿ò¼Ü×ÜÀÀͼ£¬£¬£¬£¬£¬Õ¹Ê¾ Data Preparation, TSR Framework ºÍ Agent Training Èý¸ö½×¶Î

TSR ¿ò¼Ü ¡ª¡ª ÏÈ ¡°¶ÁÐÄ¡± ÔÙ ¡°Âä±Ê¡±£¬£¬£¬£¬£¬

ÖØ¹¹ AI µÄ˼Ë÷Á´Â·

RebuttalAgent ²¢Ã»ÓÐÖ±½Ó¶Ëµ½¶ËµØÌìÉú»Ø¸´£¬£¬£¬£¬£¬¶øÊÇÄ£ÄâÁËÈËÀàר¼ÒµÄÍ·ÄÔÀú³Ì£¬£¬£¬£¬£¬Í¨¹ýToM-Strategy-Response (TSR)¿ò¼ÜÀ´²ð½âÕâÒ»ÖØ´óʹÃü£º

1. ToM£¨ÐÄÖÇÀíÂÛ½¨Ä££©£º²»µ«½öÊǶÁÎı¾ AI Ê×Ïȳ䵱һÃû ¡°ÆÊÎöʦ¡±£¬£¬£¬£¬£¬¶ÔÉó¸åÒâ¼û¾ÙÐзֲãÆÊÎö¡£¡£¡£¡£¡£¡£¡£¡£

ºê¹Û²ãÃæ£¨Macro-level£©£º ÅжÏÉó¸åÈ˵ÄÕûÌåÁ¢³¡£¡£¡£¡£¡£¡£¡£¡£¨½ÓÊÜ / ¾Ü¾ø£©¡¢Ì¬¶È£¨½¨ÉèÐÔ / Ïû¼«£©ÒÔ¼°ÁìÓòרҵ¶È¡£¡£¡£¡£¡£¡£¡£¡£Î¢¹Û²ãÃæ£¨Micro-level£©£º ²ð½âÿһÌõ̸ÂÛ±³ºóµÄ½¹µã¹ØÇУ¨ÊÇÒªÁìÂÛȱÏÝ£¿£¿£¿£¿£¿£¿£¿ £¿Õվɴ¿´âµÄ±í´ï²»Ç壿£¿£¿£¿£¿£¿£¿ £¿£©¡£¡£¡£¡£¡£¡£¡£¡£ ÕâÖÖ½¨Ä£Èà AI ²»ÔÙäĿ»Ø¸´£¬£¬£¬£¬£¬¶øÊÇÏȹ¹½¨³öÉó¸åÈ赀 ¡°ÐÄÀí»­Ïñ¡±¡£¡£¡£¡£¡£¡£¡£¡£

2. Strategy£¨Ä±¶¨´Ëºó¶¯£©£º»ùÓÚÉÏÊö»­Ïñ£¬£¬£¬£¬£¬AI »áÌìÉúÒ»¸öÃ÷È·µÄÕ½ÂÔÍýÏë¡£¡£¡£¡£¡£¡£¡£¡£ÀýÈ磬£¬£¬£¬£¬ÃæÁÙÒ»¸ö ¡°×¨Òµ¶È¸ßµ«Ì¬¶ÈÏÓÒÉ¡± µÄÉó¸åÈË£¬£¬£¬£¬£¬Õ½ÂÔ¿ÉÄÜÊÇ ¡°ÏÈÈϿɾÖÏÞÐÔÒÔ½¨ÉèÐÅÍУ¬£¬£¬£¬£¬ÔÙÓÃÔö²¹ÊµÑéÊý¾Ý¾ÙÐÐÇ¿Á¦»¹»÷¡±£»£»£»£»£»£»£»£»¶øÃæÁÙ ¡°Îó½âÐÍ¡± ̸ÂÛ£¬£¬£¬£¬£¬Õ½ÂÔÔòÊÇ ¡°³ÎÇå¿´·¨£¬£¬£¬£¬£¬ÖØÊö½¹µãТ˳¡±¡£¡£¡£¡£¡£¡£¡£¡£

3. Response£¨¾«×¼¹¥»÷£©£º×îºó£¬£¬£¬£¬£¬AI ÍŽáԭʼÂÛÎÄÆ¬¶Ï¡¢Õ½ÂÔÍýÏëºÍÉó¸åÈË»­Ïñ£¬£¬£¬£¬£¬ÌìÉú×îÖյĻظ´¡£¡£¡£¡£¡£¡£¡£¡£

±íÒ»£ºÆÀ¹ÀµÄÒ»ÖÂÐÔ£ºRebuttal-RM ÔÚ¶ÔÆëÈËÀàÆ«ºÃÉÏÓâÔ½ GPT-4.1

ÎÞÐèÍⲿµ¼Ê¦£¬£¬£¬£¬£¬

¡°×ÔÎÒ²©ÞÄ¡± ÖÐϰµÃ˵·þµÄÒÕÊõ

ΪÁËѵÁ·ÕâÑùÒ»¸öÄܹ» ¡°Ô˳ïá¡á¢¡± µÄ Agent£¬£¬£¬£¬£¬Ñо¿ÍŶÓÃæÁÙµÄ×î´óÌôÕ½ÊÇÊý¾ÝµÄϡȱÓëÖ÷¹ÛÐÔ¡£¡£¡£¡£¡£¡£¡£¡£Îª´Ë£¬£¬£¬£¬£¬ËûÃǹ¹½¨ÁËRebuttalBench£¬£¬£¬£¬£¬°üÀ¨Áè¼Ý 7 ÍòÌõ¸ßÖÊÁ¿µÄ ¡°ÆÊÎö - Õ½ÂÔ - »Ø¸´¡± Á´ÌõÊý¾Ý¡£¡£¡£¡£¡£¡£¡£¡£

¸ü½øÒ»²½£¬£¬£¬£¬£¬Ñо¿ÕßÒýÈëÁËSelf-Reward »úÖÆµÄÇ¿»¯Ñ§Ï°Õ½ÂÔ¡£¡£¡£¡£¡£¡£¡£¡£Óë¹Å°åµÄÒÀÀµÍⲿ½±ÀøÄ£×Ó²î±ð£¬£¬£¬£¬£¬RebuttalAgent ʹÓÃ×ÔÉíÌìÉúµÄÆÀ¼ÛÐźžÙÐеü´ú£º

ÃûÌÃÓëÂß¼­½±Àø£º È·±£ AI ÕæµÄÔÚ¾ÙÐÐ˼Ë÷ºÍ½á¹¹£¬£¬£¬£¬£¬¶ø²»ÊÇÐÎʽÖ÷Òå¡£¡£¡£¡£¡£¡£¡£¡£¶àÑùÐÔ½±Àø£º ÕâÊÇÒ»¸öÒªº¦Éè¼Æ¡£¡£¡£¡£¡£¡£¡£¡£ÎªÁ˱ÜÃâ AI ͵ÀÁÌìÉú ¡°Íò½ðÓÍ¡± ʽµÄÌ×»°£¨ÈçÖØ¸´Ê¹ÓÃ"We thank the reviewer..." Ä£°å£©£¬£¬£¬£¬£¬Ñо¿ÕßÉè¼ÆÁ˶àÑùÐÔ´¦·Ö£¬£¬£¬£¬£¬ÆÈʹģ×Ó̽Ë÷¸ü¶àÑù¡¢¸üÏñÈËÀàר¼ÒµÄ±í´ï·½·¨¡£¡£¡£¡£¡£¡£¡£¡£

´Ó ¡°´ÇÔå¶ÑÆö¡± µ½ ¡°¹¥ÐÄΪÉÏ¡±£º

µ± AI ѧ»áÁË»»Î»Ë¼Ë÷

ΪÁËÁ¿»¯ÆÀ¹ÀЧ¹û£¬£¬£¬£¬£¬Ñо¿ÍŶӿª·¢ÁËRebuttal-RM£¬£¬£¬£¬£¬ÕâÊÇÒ»¸öרÃÅÕë¶ÔѧÊõÅú²µ³¡¾°ÑµÁ·µÄ½±ÀøÄ£×Ó¡£¡£¡£¡£¡£¡£¡£¡£ÔÚÓëÈËÀàר¼ÒÆÀ·ÖµÄÒ»ÖÂÐÔ²âÊÔÖУ¬£¬£¬£¬£¬Rebuttal-RM µÄÌåÏÖÓâÔ½ÁË GPT-4.1¡£¡£¡£¡£¡£¡£¡£¡£

ÔÚÕâÒ»ÆÀ¹ÀϵͳÏ£¬£¬£¬£¬£¬RebuttalAgent Õ¹ÏÖ³öÁËÏÔÖøÓÅÊÆ£º

ÔÚ×ۺϵ÷ÖÉÏ£¬£¬£¬£¬£¬RebuttalAgent µÖ´ïÁË9.42£¬£¬£¬£¬£¬ÏÔÖøÓÅÓÚ GPT-4.1 ºÍ O3 ¡£¡£¡£¡£¡£¡£¡£¡£ÔÚ˵·þÁ¦£¨Persuasiveness£©ÕâÒ»½¹µãÖ¸±êÉÏ£¬£¬£¬£¬£¬ÌáÉýÓÈΪÏÔ×Å£¬£¬£¬£¬£¬Åú×¢ÒýÈë ¡°ÐÄÖÇÀíÂÛ¡± ȷʵÔöÇ¿ÁËÄ£×ÓÔÚ¿´·¨½»·æÖеÄÓÐÓÃÐÔ¡£¡£¡£¡£¡£¡£¡£¡£

±í¶þ£ºRebuttalAgent ÓëÆäËûÇ¿»ùÏßµÄÐÔÄܱÈÕÕ

¡°¼´²å¼´Óá± µÄÍ·ÄÔÍâ¹Ò£º

ÈÃСģ×ÓÒ²ÄÜÏñר¼ÒÒ»Ñù˼Ë÷

RebuttalAgent ÌìÉúµÄ ¡°ÆÊÎö£¨Analysis£©¡± ºÍ ¡°Õ½ÂÔ£¨Strategy£©¡± ÊÇ·ñ¾ßÓÐÆÕÊÊÐÔ£¿£¿£¿£¿£¿£¿£¿ £¿Ñо¿ÕßÉè¼ÆÁËÒ»¸öÇÉÃîµÄʵÑ飺½« RebuttalAgent ÌìÉúµÄÕ½ÂÔ×÷ΪÉÏÏÂÎÄ£¨Context£©£¬£¬£¬£¬£¬Î¹¸ø²ÎÊýÄ¿½ÏСµÄ»ù´¡Ä£×Ó£¨Èç Qwen3-8B ºÍ Llama-3.1-8B£©£¬£¬£¬£¬£¬ÊÓ²ìËüÃǵÄÌåÏÖת±ä (Average Score)¡£¡£¡£¡£¡£¡£¡£¡£

ʵÑé·¢Ã÷£¬£¬£¬£¬£¬ÕâÊÇÒ»¸öͨÓÃµÄ ¡°Í·ÄÔÍâ¹Ò¡±¡£¡£¡£¡£¡£¡£¡£¡£½öÐèÒýÈë RebuttalAgent µÄÕ½ÂÔÖ¸µ¼£¬£¬£¬£¬£¬Qwen3-8B ÔÚ ¡°±í´ïÇåÎú¶È¡± Éϵĵ÷־ͱ©ÕÇÁË 21.0%£¬£¬£¬£¬£¬ÕâÓÐÁ¦µØÖ¤ÊµÎú TSR ¿ò¼ÜµÄ¿ÉǨáãÐÔ¡£¡£¡£¡£¡£¡£¡£¡£

×ö¿ÆÑзÉ쵀 ¡°ÀíÐÔ¸±¼ÝÊ»¡±£¬£¬£¬£¬£¬

¶ø·Ç ¡°ÓÄÁéдÊÖ¡±

RebuttalAgent µÄÌá³ö£¬£¬£¬£¬£¬Õ¹Ê¾ÁË LLM ÔÚ´¦Öóͷ£¸ß½×ÈÏ֪ʹÃü£¬£¬£¬£¬£¬ÌØÊâÊÇÉæ¼°ÖØ´óÈ˼ʲ©ÞĺÍÕ½ÂÔÏàͬ³¡¾°µÄÖØ´óDZÁ¦¡£¡£¡£¡£¡£¡£¡£¡£µ« Agent ÎÞ·¨ÌæÄãÍê³ÉʵÑ飬£¬£¬£¬£¬Ò²²»»áƾ¿ÕÄóÔìÊý¾Ý£¬£¬£¬£¬£¬Ä£×ÓÔÚѵÁ·Ö®³õ¾Í¿ÌÒâ°þÀëÁËÉæ¼°ÊµÑéЧ¹ûÌìÉúµÄÖ¸Á£¬£¬£¬£¬¶Å¾øÁË ¡°»Ã¾õÔì¼Ù¡± µÄ¿ÉÄÜ¡£¡£¡£¡£¡£¡£¡£¡£

Í»ÆÆ ¡°ÐÂÊÖǽ¡±£º¹ØÓÚÐí¶à¸Õ̤ÈëѧÊõȦµÄÐÂÊÖ¶øÑÔ£¬£¬£¬£¬£¬ÃæÁÙϬÀûÉõÖÁ¼âÈñµÄÉó¸åÒâ¼û£¬£¬£¬£¬£¬ÍùÍùÈÝÒ×ÏÝÈë¿Ö»Å»ò±¬·¢·ÀÓùÐÔÐÄ̬¡£¡£¡£¡£¡£¡£¡£¡£RebuttalAgent µÄ¼ÛÖµÕýÊÇÔÚÓÚÌṩսÂÔÐԵĽ¨ÒéÓëÊÊÓõļ¼ÇÉ£¬£¬£¬£¬£¬×ÊÖú×÷ÕßսʤÇéÐ÷×ÌÈÅ£¬£¬£¬£¬£¬ÀíÇåÂß¼­ÂöÂ磬£¬£¬£¬£¬×éÖ¯µÃÌåµÄÓïÑÔ¡£¡£¡£¡£¡£¡£¡£¡£Ôö½øÑ§Êõ½»Á÷£ºÂÛÎĵĽ¹µã¼ÛÖµÔÚÓÚ ¡°ÌáÉýѧÊõ¶Ô»°µÄÇåÎú¶ÈÓ뽨ÉèÐÔ¡±¡£¡£¡£¡£¡£¡£¡£¡£ËüÖÂÁ¦ÓÚÏû³ýÒò±í´ï²»µ±»òÏàͬսÂÔȱʧ¶øÔì³ÉµÄÎó½â£¬£¬£¬£¬£¬ÈÃÉó¸åÈËÓë×÷ÕߵĶԻ°»Ø¹éÕæÀí×Ô¼º£¬£¬£¬£¬£¬¶ø·ÇÏÝÈëÇéÐ÷¶Ô¿¹»ò´¿´âµÄÓïÑÔ¼¼Çɲ©ÞÄ¡£¡£¡£¡£¡£¡£¡£¡£

RebuttalAgent ʵÖÊÉÏÊǶԴóÓïÑÔÄ£×ÓÔÚÑÏÖØÐÅÏ¢²î³Ø³ÆÌõ¼þÏÂÕ½ÂÔ˵·þÄÜÁ¦µÄÒ»´Î̽Ë÷ÐÔÑо¿¡£¡£¡£¡£¡£¡£¡£¡£×îÖյĿÆÑ§ÅжÏÓëÔðÈΣ¬£¬£¬£¬£¬Ê¼ÖÕÕÆÎÕÔÚÈËÀà×÷ÕßÊÖÖС£¡£¡£¡£¡£¡£¡£¡£

×÷ÕßÏÈÈÝ£º

ºÎÖÂÌΣ¬£¬£¬£¬£¬Ïã¸Û¿Æ¼¼´óѧÅÌËã»úϵºÓÄÏáÔɽÎÄÂÿª·¢ÓÐÏÞ¹«Ë¾²©Ê¿Éú£¬£¬£¬£¬£¬µ¼Ê¦ Yi R. (May) Fung¡£¡£¡£¡£¡£¡£¡£¡£ÔøÔÚÖйú¿ÆÑ§Ôº×Ô¶¯»¯Ñо¿Ëù¡¢Ç廪´óѧ AIR¡¢ÂìÒϼ¯ÍÅ´ÓÊÂÑо¿£¬£¬£¬£¬£¬²¢ÔÚ ACL¡¢NeurIPS¡¢COLM¡¢ICLR µÈ»úеѧϰÓë×ÔÈ»ÓïÑÔ´¦Öóͷ£¶¥¼¶¾Û»áÉϽÒÏþ¶àƪÂÛÎÄ¡£¡£¡£¡£¡£¡£¡£¡£