Nature认定的论文综述神器来了 - 湖南洞庭生态生长有限公司

闻乐发自凹非寺量子位 |湖南洞庭生态生长有限公司公众号 QbitAI

AI写论文这事儿确实不新鲜了，，，，，，，，但天下苦假引用久矣。。。。。。

以往咱用大模子写个综述，，，，，，，，看着像模像样的，，，，，，，，效果一查参考文献——

好家伙，，，，，，，，论文不保存、期刊不保存、作者也不保存（扶额）。。。。。。

现在不必愁了，，，，，，，，Nature新揭晓了一篇研究，，，，，，，，艾伦人工智能研究所（Ai2）和华盛顿大学开源了一个叫OpenScholar的AI系统，，，，，，，，写文献综述绝不瞎编。。。。。。

背靠整整4500万篇科学论文库，，，，，，，，直接把GPT-4o那种78%-90%的虚伪引用率给干翻了。。。。。。

那么问题来了，，，，，，，，各人都在编，，，，，，，，OpenScholar为啥不编？？？？？

自我反响推理

着实主要照旧由于LLM的底层逻辑就是展望下一个词泛起的概率。。。。。。

当你问它一个很是生僻的学术问题时，，，，，，，，它为了维持语言的连贯性以及“我无所不知”的人设——

会强行凭证语料库里的作者名、期刊名、问题要害词，，，，，，，，拼集出一个看起来最像真论文的…幻觉产品。。。。。。

尚有，，，，，，，，通用AI缺乏事实锚点，，，，，，，，读过万卷书效果全记串了。。。。。。

张教授写过超导，，，，，，，，李教授写过质料，，，，，，，，当你问它超导质料时，，，，，，，，它能面不改色地给你编出一篇《张教授与李教授关于超导质料的巅峰对话》……

这种由于训练数据截断以及缺乏真实文献验证机制导致的假引用，，，，，，，，真的太太太离谱了！

OpenScholar就纷歧样了，，，，，，，，不再拍脑门展望下一个词，，，，，，，，直接接入了一个名为ScholarStore的重大数据库。。。。。。

这是现在果真的最大科学领域段落索引，，，，，，，，全开源可下载，，，，，，，，任何人都能外地安排或者扩展。。。。。。

内里实打实地存了4500万篇论文的全文和摘要，，，，，，，，再通过RAG手艺，，，，，，，，让每个知识点都背靠一篇真实保存的论文。。。。。。

当你抛出一个科研难题，，，，，，，，它会先在谁人拥有2.37亿个向量嵌入的超大数据库里猖獗检索，，，，，，，，把相关的论文片断全翻出来。。。。。。

给出初稿之后，，，，，，，，带着天生的“这里缺少讨论”“这里引文禁绝”“需要补搜最新希望”等反响再检索、再改稿，，，，，，，，通过搜索、天生、自我审查、再搜索、再修正这套闭环，，，，，，，，重复确认输出的内容是不是真有论文支持。。。。。。

这样一来显著降低了幻觉，，，，，，，，提高了输出内容的笼罩度和引文精度，，，，，，，，整个管道还会被用来天生高质量合成数据，，，，，，，，反哺训练。。。。。。

有多强？？？？？

可是！若是只是搜得准，，，，，，，，那它充其量是个高级搜索引擎，，，，，，，，OpenScholar不止云云。。。。。。

它在知识合成的深度上，，，，，，，，已经最先正面硬刚人类专家了。。。。。。

研发团队整了个叫Scholar QABench的测试集，，，，，，，，涵盖了盘算机科学、物理、生物医药等最吃逻辑的领域，，，，，，，，由3000个问题和250个长篇专家谜底组成。。。。。。

在自动测评上，，，，，，，，OpenScholar-8B这个体量不算大的模子，，，，，，，，在准确性上GPT-4o横跨5%，，，，，，，，比专业的PaperQA2也横跨7%，，，，，，，，引文准确度和人类专家持平。。。。。。

团队还搞了个“人机大战”双盲实验，，，，，，，，把AI写的谜底和实打实的博士、研究员写的谜底放一起，，，，，，，，然后让另一群顶级科学家来盲评打分。。。。。。

16位专家两两比照了108份学术谜底。。。。。。效果显示，，，，，，，，OpenScholar-8B的回覆有51%比人类研究者亲手写的更好，，，，，，，，升级组合版的OpenScholar-GPT4o胜率更是冲到70%，，，，，，，，而通俗GPT-4o只有32%。。。。。。

评审专家们普遍反响，，，，，，，，OpenScholar的优势集中在信息笼罩更周全、结构更清晰、逻辑连贯性更强，，，，，，，，适用价值也更高。。。。。。

作者团队

这篇研究的一作Akari Asai是艾伦人工智能研究所研究科学家，，，，，，，，2026年秋起将任卡内基梅隆大学助理教授。。。。。。

在此之前她获得了东京大学电气工程与盘算机科学专业的学士学位，，，，，，，，后在华盛顿大学完成博士学业，，，，，，，，研究聚焦于自然语言处置惩罚和机械学习，，，，，，，，尤其着重于大型语言模子。。。。。。

Jacqueline He现在在华盛顿大学读自然语言处置惩罚专业博士，，，，，，，，本科结业于普林斯顿大学，，，，，，，，曾是普林斯顿自然语言处置惩罚小组成员，，，，，，，，主要导师是陈丹琦。。。。。。

读研之前，，，，，，，，她还担当过Meta的软件工程师。。。。。。

Rulin Shao本科结业于西安交通大学，，，，，，，，取得了数学的学士学位，，，，，，，，后在卡内基梅隆大学完成了机械学习硕士学位，，，，，，，，现为华盛顿大学博士生，，，，，，，，同时也是Meta的会见研究员。。。。。。

团队的其他作者均来自伊利诺伊大学厄巴纳 - 香槟分校、卡内基梅隆大学、Meta、北卡罗来纳大学教堂山分校、斯坦福大学等高校和机构。。。。。。

论文地点：https://a湖南洞庭生态生长有限公司rxiv.org/abs/2411.14199

PT视讯(中国区)官网