陶哲轩宣布“等式理论计划”成功:人类 AI 协作,57 天完成 2200 万 + 数学关系证明

xxn 阅读:68490 2024-11-23 14:03:43 评论:0

在经过 57 天的时间,人工智能(AI)与人类合作成功处理了4694个等式之间的22028942个蕴含关系!

陶哲轩欣喜地宣布:等式理论计划获得成功。

“等式理论计划”于2024年9月25日由陶哲轩发起,旨在研究按蕴含关系排序的原群(magma)等式理论空间。

引人瞩目的是,该项目不仅汇集了人类数学家的智慧,还将AI工具作为合作伙伴,这些工具包括ChatGPTClaudeGitHub Copilot

“等式理论计划”在启动当日正式启动,仅仅用时9天,项目进展就完成了99.866%

目前,在2200万个待证明的蕴含关系中,已经证实了8178279个,已被证伪的有13855193个,仅有162个仍未定论。

陶哲轩表示,距离“完全成功宣布”只是时间问题:

因此,我们已经着手撰写论文。

什么是“等式理论计划”

现在来剖析一下陶哲轩此次的活动究竟是什么。

简而言之,“等式理论计划”是指:

采用“数学家 + AI(包括自动定理证明系统和大模型)+ 证明辅助语言 Lean”这样的合作方式,构建一个展示4694个magma等式(至多四次使用magma操作)之间所有蕴含关系的“蕴含图”。

该计划最初的灵感来源于陶哲轩对“去中心化”研究方法的设想。

传统上,大多数数学研究项目由少数专业数学家(通常1~5人)进行,每个人负责各自的领域,彼此可以互相验证。然而,由于验证环节的存在,组织规模较大的数学项目(特别是需要公众参与的项目)一直具有挑战性。

现在,通过AI工具和Lean这样的证明辅助语言,数学项目的大规模合作成为可能。

一个先例是开源社区成功寻找梅森素数的尝试,即GIMPS志愿项目,任何拥有强大 PC 或 GPU 的人都可以参与寻找梅森素数。

虽然在该项目中AI助手等工具使用较少,但所表达的理念是类似的。

在启动等式理论计划之前,陶哲轩打算进行一个实验:

在一个数学项目中,聚集专业/业余数学家、AI工具、证明辅助语言Lean等,一同开展重大项目!

受去年MathOverflow上一个等式问题的启发,这一次陶哲轩将目光投向了代数领域中的magma。

该问题当时是这样的:

交换恒等式和常量恒等式之间是否存在等价关系?

忽略具体问题不谈,这里主要讨论magma等式之间的关系。

简单来说,magma是一种代数结构,由一个集合和一个在该集合上定义的二元运算构成,但不需要满足其他代数性质,如结合律、交换律等。

我们熟知的与magma相关的等式有:

等式理论计划的目标是找出magma中不同等式之间的等价、推导和非推导关系。

以上述11个等式为例,最终的关系图将如下:

观察可知,常量公理等式(1)蕴含其他所有等式,即如果1成立,其他等式也自动成立;而反身公理等式(11)由于最宽松(x=x),几乎所有的magma都满足这一公理。

回到该计划本身,陶哲轩等人在初始阶段集中研究了那些只包含一个方程的magma定律,这类方程至多包含四个magma操作(即二元运算)。

举个例子,如果我们有一个magma(M,∗),其中M是元素的集合,∗是定义在M上的二元运算。

那么一个“最多四次使用magma操作”的表达式如下:

  • a∗b(一次操作)

  • (𝑎∗𝑏)∗𝑐(a∗b)∗c(两次操作)

  • 𝑎∗(𝑏∗(𝑐∗𝑑)) a∗(b∗(c∗d))(三次操作)

  • ((𝑎∗𝑏)∗𝑐)∗(𝑑∗𝑒)((a∗b)∗c)∗(d∗e)(四次操作)

其中𝑎,𝑏,𝑐,𝑑,𝑒都是集合M中的元素,每次∗的使用都计为一次magma操作。

这类等式定律共有4694个,由于每个定律可能蕴含其他4693个定律(一个定律不能蕴含自身),因此总共有4694*(4694-1) = 22,028,942个可能的蕴含关系需求进行证明或驳斥。

这里的蕴含关系包含“蕴含”和“反蕴含”,前者分为两种类型:

  • 已被证实的蕴含:在Lean中已验证

  • 假设的蕴含:尚未在Lean中验证,可能由人类或计算机生成

有关项目的更多细节,陶哲轩在项目日志中有详尽的记录——

9天进度99.866%,大模型发挥作用但未达预期

总结“等式理论计划”的进度简单来说就是一个词:

陶哲轩自己说:

这个项目的进度远超我的预期。

速度有多快?

在仅仅只有48小时的时间内,许多蕴含关系就已经“几近解决”。

项目开始的第5天,参与者们已经从2200万条蕴含关系中解决了许多简单的推导,剩下的300万左右需要进一步处理。

项目启动的第9天,伴随着第一轮重大重构的完成——合作者们改进了magma的运算符号,使Lean代码的编译速度大幅提高,以及一些研究问题的进展,项目完成度一举从87%跃升至99.866%

第19天,项目完成度达到99.9963%。陶哲轩在他的博客中指出,撰写论文的事情已经被列入计划,并且可能会有数十位作者参与。

GitHub显示该项目有45位贡献者:

至2024年11月21日,也就是项目的第57天,随着最后一个未解决的蕴含关系被解决(待确认),“等式理论计划”的目标已被宣布达成。

开始正式撰写论文。

陶哲轩透露,论文的框架已经设定,但尚需大量工作进行更新并转化为可提交的形式。

日志中还详细描述了大型模型工具的作用。

第一天,陶哲轩对GitHub Copilot表示赞赏:

GitHub Copilot在处理日常任务时非常有用,诸如输入需要证明的新Lean定理,或者更新蓝图以整合最新的PR结果。

他举例说明:如要将Lean转换为LaTeX,只需将Lean代码粘贴为注释,开始键入LaTeX,GitHub Copilot将自动完成剩余内容。

然而,陶哲轩也坦陈,大型模型在项目中的表现“低于预期”,在大多数情况下,数学家仍倾向于使用“经典AI”,如自动定理证明器Vampire等。

他补充道:

参与者来自各种领域,数学家和计算机科学家,学生和业余爱好者都有。Lean在整合人类和机器生成的贡献方面表现出色。机器生成的部分是最主要的贡献来源,但是许多自动生成结果最初是人类在特定情况下得出的,后来被进一步推广和形式化。

具体到项目中,GitHub Copilot主要用于加快代码的编写,而Claude则被用来创建可视化工具,例如“等式浏览器”:

ChatGPT则在激发数学家们的灵感方面扮演更为重要的角色。

对于陶哲轩来说,ChatGPT可以帮助他快速了解通用代数的一些细节。

而项目参与者lyphyser、Daniel Weber、Fan Zheng和Bhavik Mehta通过与ChatGPT的交流,证明了1659这个等式可能有着非平凡的性质。

尽管主项目里程碑已经达成,“等式理论计划”的其他衍生项目仍在进行中,其中包括在有限原群限定下的类似蕴含图研究、蕴含图数据分析等。

陶哲轩再次强调了该项目与AI的联系:

希望

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容