震撼!OpenAI神秘模子连破6道前沿难题,,, ,,奥特曼:AI在造「新知识」
2026-03-01 20:32:11

新智元报道

编辑:犀牛

【新智元导读】OpenAI首席科学家震撼爆料,,, ,,其神秘内部模子仅凭一周乐成攻克了10道未揭晓顶尖数学难题中的6道 。 。。 。。。。这一名为First Proof的挑战标记着AI已从奥赛选手进化为前沿知识的创立者,,, ,,奥特曼更直言STEM研究范式将被彻底重塑 。 。。 。。。。

还记得两年前,,, ,,AI只能磕磕绊绊地解出一道小学奥数题 。 。。 。。。。

今天,,, ,,读完这篇文章时,,, ,,你可能会感应一种深入骨髓的战栗 。 。。 。。。。

由于谁人一经蹒跚学步的「孩子」,,, ,,在刚刚已往的一周里,,, ,,不但学会了奔驰,,, ,,还一脚踢开了人类智力皇冠上最结实的那扇门——前沿数学研究 。 。。 。。。。

就在刚刚,,, ,,OpenAI首席科学家Jakub Pachocki在X上扔出了一颗重磅炸弹——

「我们用内部模子对10道前沿数学研究题提倡挑战,,, ,,在仅有少量人工监视的情形下,,, ,,至少6道的解答有很高概率是准确的 。 。。 。。。。」

随后,,, ,,奥特曼亲自转发并感伤:「我们从AI连小学数学都做欠好,,, ,,到AI能解决研究级别的数学问题,,, ,,只用了短短几年 。 。。 。。。。」

奥特曼以一直的轻描淡写气概加了一句:「我也相当确定,,, ,,各人的主要反应会是『也没那么难嘛』 。 。。 。。。。」

嗯,,, ,,典范的奥式凡尔赛 。 。。 。。。。

奥特曼甚至体现,,, ,,AI已经有了爆发新知识的能力!

OpenAI总裁Brockman也转发体现振奋!

确实,,, ,,这不是奥数竞赛题,,, ,,不是考研真题,,, ,,不是任何已经有标准谜底的工具 。 。。 。。。。

这是11位天下顶级数学家刚刚从自己的研究中挖出来、谜底从未果真过的前沿问题 。 。。 。。。。

人类专家自己解这些题,,, ,,每道也需要好几天,,, ,,甚至更久 。 。。 。。。。

而OpenAI一个还没果真的神秘模子,,, ,,一周搞定了其中大部分 。 。。 。。。。

这究竟是怎么回事????????

一场硬核的数学考试

故事要从2月6日提及 。 。。 。。。。

那天,,, ,,来自斯坦福大学、哥伦比亚大学、哈佛大学、耶鲁大学、洛桑联邦理工学院等顶尖机构的11位数学家,,, ,,团结宣布了一篇名为「First Proof」(首次发酵)的论文 。 。。 。。。。

这个名字自己就很有意思——在烘焙中,,, ,,「first proof」指的是面团的第一次整体发酵,,, ,,在支解成型之前让它逐步膨胀 。 。。 。。。。

数学家们把这次实验比作面团发酵:先把问题撒出去,,, ,,让AI和社区一起「醒发」 。 。。 。。。。

这11位出题人来头可不小 。 。。 。。。。

其中Martin Hairer是2014年菲尔兹奖得主,,, ,,Daniel Spielman是耶鲁大学的谱图论大牛,,, ,,Lauren Williams是哈佛大学的代数组合学权威 。 。。 。。。。

Martin Hairer

他们每人孝顺了一道(或加入出了一道)从自己正在举行的研究中抽出来的真问题 。 。。 。。。。

这10道题笼罩了数学中极为普遍的领域:代数组合、谱图论、代数拓扑、随机剖析、辛几何、体现论、李群中的格、张量剖析、数值线性代数 。 。。 。。。。

网站地点:https://1stproof.org/

每一道题的证实长度约莫在五页左右——这不是那种需要几百页论文才华搞定的世纪难题,,, ,,而是数学家在研究历程中遇到的「引理」(lemma),,, ,,也就是通往更大定理路上的一块要害垫脚石 。 。。 。。。。

换句话说,,, ,,这是一个优异研究生可能需要苦苦琢磨一段时间的那种一样平常级研究使命 。 。。 。。。。

要害是,,, ,,这些问题的谜底从未在互联网上泛起过 。 。。 。。。。

没有揭晓过,,, ,,没有在任何聚会上讲过,,, ,,没有泛起在任何果真场合 。 。。 。。。。

谜底被加密后上传到了1stproof.org 。 。。 。。。。

这意味着,,, ,,AI模子不可能通过检索训练数据来作弊 。 。。 。。。。

数学家们的目的很明确:我们不想再看AI做奥数题了,,, ,,我们想知道,,, ,,AI究竟能不可做真正的数学研究 。 。。 。。。。

OpenAI的猖獗一周

新闻一出,,, ,,整个AI圈和数学圈都炸了 。 。。 。。。。

斯坦福大学数学教授、First Proof团队成员Mohammed Abouzaid厥后坦言:「我们完全没想到会引发这么大的新闻,,, ,,更没想到AI公司会这么认真地投入资源来做这件事 。 。。 。。。。」

其中最引人注目的参赛者,,, ,,虽然是OpenAI 。 。。 。。。。

凭证Jakub Pachocki的形貌,,, ,,这并不是OpenAI倾巢出动的大会战,,, ,,而是一次「Side-sprint」(副业冲刺) 。 。。 。。。。

就像是工程师们在午休时间随手搞的一个测试 。 。。 。。。。

他们使用的是一个内测模子 。 。。 。。。。

不是GPT-5.2,,, ,,不知道它是不是GPT-6,,, ,,照旧某种更激进的架构 。 。。 。。。。

这个模子在「有限的人工监视」下事情:OpenAI没有向模子提供数学思绪或解题建议,,, ,,但在某些解答上,,, ,,凭证专家反响要求模子举行了扩展和增补 。 。。 。。。。

他们还手动安排了这个内部模子与ChatGPT之间的对话,,, ,,用于验证、排版和气概润色 。 。。 。。。。

关于部分问题,,, ,,他们从一再实验中凭证人类判断选出了最优解 。 。。 。。。。

最终,,, ,,OpenAI在2月13日提交了一份67页的PDF,,, ,,包括了对所有10道题的解答实验 。 。。 。。。。

Pachocki自信地宣布:至少6道解答(第2、4、5、6、9、10题)有很高概率是准确的 。 。。 。。。。

文档地点:https://cdn.openai.com/pdf/a430f16e-08c6-49c7-9ed0-ce5368b71d3c/1stproof_oai.pdf

OpenAI的另一位焦点研究者Noam Brown也在社交媒体上高调喊话:「去年炎天IMO的效果宣布时,,, ,,有些人不以为然,,, ,,说那只是高中数学 。 。。 。。。。我们以为我们最新的模子将消除一切嫌疑——STEM研究即将爆发根天性厘革 。 。。 。。。。」

Noam Brown还在文中允许,,, ,,他们很快会宣布这个新模子 。 。。 。。。。

真相比宣传重大得多

2月14日,,, ,,First Proof团队宣布了所有10道题的正式谜底,,, ,,并宣布了他们自己用果真AI模子(GPT-5.2 Pro和Gemini 3.0 Deepthink)测试这些问题的履历报告 。 。。 。。。。

有趣的是,,, ,,官方论文中可能泛起了一个小过失 。 。。 。。。。

这里应该是2026,,, ,,不是2025 。 。。 。。。。

不过,,, ,,这都不主要 。 。。 。。。。

我们来看结论 。 。。 。。。。

结论相当冷峻:在单次实验的情形下,,, ,,果真可用的最强AI模子只答对了2道题——第9题(张量代数关系)和第10题(核化CP-ALS子问题) 。 。。 。。。。

并且第9题还保存疑似「数据污染」问题——一个险些等价的证实已经保存于已有文献中 。 。。 。。。。

第1题也被发明受到了污染,,, ,,出题人Hairer网站上一经有一个证实底稿的存档,,, ,,但即便云云,,, ,,AI也没能填上其中的要害缺口 。 。。 。。。。

更耐人寻味的是Abouzaid对AI产出气概的评价:「我看到的AI给出的准确解答,,, ,,有一种19世纪数学的味道 。 。。 。。。。但我们要构建的是21世纪的数学 。 。。 。。。。」

那么OpenAI自称的「6道很可能准确」究竟怎么样了????????

事态很快泛起了戏剧性转折 。 。。 。。。。

论文宣布不到一天,,, ,,数学社区就最先对OpenAI的解答举行逐题审查 。 。。 。。。。

Pachocki自己很快更新了声明,,, ,,认可第2题(关于扭曲局部Rankin-Selberg积分的非消没磨练向量)的解答「很可能不准确」 。 。。 。。。。

社区的自力评审则进一步发明,,, ,,第5题(关于等变稳固领域的O-顺应切片滤过)和第7题(关于Q-无环万有覆叠的匀称格)的解答也保存严重误差 。 。。 。。。。

到现在为止,,, ,,凭证《科学美国人》的报道以及社区数学家的自力评判,,, ,,较量确定准确的是第4题(有限加法卷积的调清静均不等式)、第8题(四价多面体拉格朗日曲面的平滑化)、第9题和第10题 。 。。 。。。。

其余几道仍在审查中,,, ,,但整体来看,,, ,,OpenAI的现实掷中率很可能低于其最初宣称的六成 。 。。 。。。。

依然是一个历史时刻

只管真实效果可能没有OpenAI宣传的那么绚烂,,, ,,但我们不应因此低估这件事的历史意义 。 。。 。。。。

哪怕最终确认只有3到4道题被准确解答,,, ,,这也意味着一个AI,,, ,,在面临从未见过的、真正前沿的数学研究问题时,,, ,,能在一周之内自力(或半自力地)给出严酷的数学证实 。 。。 。。。。

这在几年前是完全不可想象的事情 。 。。 。。。。

2022年,,, ,,其时ChatGPT还经常在分数加减法上出错 。 。。 。。。。

2024年,,, ,,AI最先能解一些竞赛数学题 。 。。 。。。。

2025年炎天,,, ,,OpenAI的模子在国际数学奥林匹克上拿到金牌效果 。 。。 。。。。

而现在——2026年2月——AI正在实验解答人类数学家正在研究的、从未揭晓过的原创问题 。 。。 。。。。

从小学算术到前沿研究,,, ,,这条路走了不到四年 。 。。 。。。。

这个速率,,, ,,才是真正让人心跳加速的地方 。 。。 。。。。

更值得关注的是那些被AI做对了的问题 。 。。 。。。。

好比第4题,,, ,,关于有限加法卷积中Φ_n函数的调清静均不等式——这需要一系列精巧的线性代数操作、对双随机矩阵的深刻明确、以及Jensen不等式的巧妙应用 。 。。 。。。。

OpenAI的模子写出了一个自包括的23页证实,,, ,,逻辑链条完整,,, ,,最终被专家确以为准确 。 。。 。。。。

一个AI,,, ,,自力完成了一篇可以揭晓在数学期刊上的研究级证实 。 。。 。。。。

这不是做题,,, ,,这就是做研究 。 。。 。。。。

数学家要失业了吗????????

至少现在,,, ,,还不会 。 。。 。。。。

《科学美国人》在报道这次事务时给出的判断很直接:「AI现在还不可取代数学家 。 。。 。。。。」

为什么????????

由于数学研究远不止「证实一个已知问题」这一个环节 。 。。 。。。。

真正的数学研究包括:发明值得研究的问题、创立新的看法和界说、构建新的理论框架——然后才是证实 。 。。 。。。。

First Proof测试的只是最后一步,,, ,,也是最机械化的一步 。 。。 。。。。

而在前面那些需要真正的洞察力、审美判断和开创性想象的环节,,, ,,AI现在连门都还没摸到 。 。。 。。。。

但奥特曼说的也没错:速率是要害变量 。 。。 。。。。

若是AI从做不了小学数学到能碰前沿研究只用了四年 。 。。 。。。。

那再过四年呢????????

有趣的是,,, ,,一些顶尖数学家已经最先用脚投票 。 。。 。。。。

哥伦比亚大学的数学天才Ashwin Sawhney从学术界休假加入了OpenAI 。 。。 。。。。意大利数学家Pagano则去了Google DeepMind 。 。。 。。。。

他们的理由出奇一致:「很显着这将改变我们做数学的方法,,, ,,与其以后被动顺应,,, ,,不如及早加入 。 。。 。。。。」

面团还在发酵

First Proof团队已经宣布,,, ,,他们将在3月14日(恰恰是π日)宣布更多细节和剖析,,, ,,并妄想在未来几个月内宣布第二批问题——附带更严酷的评判标准和更完善的规则 。 。。 。。。。

他们甚至愿意与AI公司签署协议,,, ,,在问题果真前举行受控测试 。 。。 。。。。

这不是一场考试的竣事,,, ,,而是一个新时代的最先 。 。。 。。。。

数学——这门人类最古老、最纯粹的智力运动——正在第一次面临一个真正的对话同伴 。 。。 。。。。

这个同伴有时乱说八道,,, ,,有时又惊人地深刻 。 。。 。。。。

它会用19世纪的语言语言,,, ,,但运算速率是21世纪的 。 。。 。。。。

它还不可取代数学家思索,,, ,,但它已经可以在某些要害节点上为数学家分担事情 。 。。 。。。。

面团还在发酵 。 。。 。。。。

我们已经闻到面包的香味了 。 。。 。。。。

参考资料:

https://x.com/merettm/status/2022517085193277874

https://x.com/polynoamial/status/2022527227049742779

https://x.com/湖北楚风文旅集团有限公司sama/status/2022729068949717182