陶哲轩宣布“等式理论计划”成功：人类 AI 协作，57 天完成 2200 万 + 数学关系证明

xxn 阅读：68490 2024-11-23 14:03:43 评论：0

在经过 57 天的时间，人工智能（AI）与人类合作成功处理了4694个等式之间的22028942个蕴含关系！

陶哲轩欣喜地宣布：等式理论计划获得成功。

“等式理论计划”于2024年9月25日由陶哲轩发起，旨在研究按蕴含关系排序的原群（magma）等式理论空间。

引人瞩目的是，该项目不仅汇集了人类数学家的智慧，还将AI工具作为合作伙伴，这些工具包括ChatGPT、Claude和GitHub Copilot。

“等式理论计划”在启动当日正式启动，仅仅用时9天，项目进展就完成了99.866%。

目前，在2200万个待证明的蕴含关系中，已经证实了8178279个，已被证伪的有13855193个，仅有162个仍未定论。

陶哲轩表示，距离“完全成功宣布”只是时间问题：

因此，我们已经着手撰写论文。

什么是“等式理论计划”

现在来剖析一下陶哲轩此次的活动究竟是什么。

简而言之，“等式理论计划”是指：

采用“数学家 + AI（包括自动定理证明系统和大模型）+ 证明辅助语言 Lean”这样的合作方式，构建一个展示4694个magma等式（至多四次使用magma操作）之间所有蕴含关系的“蕴含图”。

该计划最初的灵感来源于陶哲轩对“去中心化”研究方法的设想。

传统上，大多数数学研究项目由少数专业数学家（通常1~5人）进行，每个人负责各自的领域，彼此可以互相验证。然而，由于验证环节的存在，组织规模较大的数学项目（特别是需要公众参与的项目）一直具有挑战性。

现在，通过AI工具和Lean这样的证明辅助语言，数学项目的大规模合作成为可能。

一个先例是开源社区成功寻找梅森素数的尝试，即GIMPS志愿项目，任何拥有强大 PC 或 GPU 的人都可以参与寻找梅森素数。

虽然在该项目中AI助手等工具使用较少，但所表达的理念是类似的。

在启动等式理论计划之前，陶哲轩打算进行一个实验：

在一个数学项目中，聚集专业/业余数学家、AI工具、证明辅助语言Lean等，一同开展重大项目！

受去年MathOverflow上一个等式问题的启发，这一次陶哲轩将目光投向了代数领域中的magma。

该问题当时是这样的：

交换恒等式和常量恒等式之间是否存在等价关系？

忽略具体问题不谈，这里主要讨论magma等式之间的关系。

简单来说，magma是一种代数结构，由一个集合和一个在该集合上定义的二元运算构成，但不需要满足其他代数性质，如结合律、交换律等。

我们熟知的与magma相关的等式有：

等式理论计划的目标是找出magma中不同等式之间的等价、推导和非推导关系。

以上述11个等式为例，最终的关系图将如下：

观察可知，常量公理等式（1）蕴含其他所有等式，即如果1成立，其他等式也自动成立；而反身公理等式（11）由于最宽松（x=x），几乎所有的magma都满足这一公理。

回到该计划本身，陶哲轩等人在初始阶段集中研究了那些只包含一个方程的magma定律，这类方程至多包含四个magma操作（即二元运算）。

举个例子，如果我们有一个magma（M，∗），其中M是元素的集合，∗是定义在M上的二元运算。

那么一个“最多四次使用magma操作”的表达式如下：

a∗b（一次操作）
(𝑎∗𝑏)∗𝑐(a∗b)∗c（两次操作）
𝑎∗(𝑏∗(𝑐∗𝑑)) a∗(b∗(c∗d))（三次操作）
((𝑎∗𝑏)∗𝑐)∗(𝑑∗𝑒)((a∗b)∗c)∗(d∗e)（四次操作）

其中𝑎,𝑏,𝑐,𝑑,𝑒都是集合M中的元素，每次∗的使用都计为一次magma操作。

这类等式定律共有4694个，由于每个定律可能蕴含其他4693个定律（一个定律不能蕴含自身），因此总共有4694*(4694-1) = 22,028,942个可能的蕴含关系需求进行证明或驳斥。

这里的蕴含关系包含“蕴含”和“反蕴含”，前者分为两种类型：

已被证实的蕴含：在Lean中已验证
假设的蕴含：尚未在Lean中验证，可能由人类或计算机生成

有关项目的更多细节，陶哲轩在项目日志中有详尽的记录——

9天进度99.866%，大模型发挥作用但未达预期

总结“等式理论计划”的进度简单来说就是一个词：快。

陶哲轩自己说：

这个项目的进度远超我的预期。

速度有多快？

在仅仅只有48小时的时间内，许多蕴含关系就已经“几近解决”。

项目开始的第5天，参与者们已经从2200万条蕴含关系中解决了许多简单的推导，剩下的300万左右需要进一步处理。

项目启动的第9天，伴随着第一轮重大重构的完成——合作者们改进了magma的运算符号，使Lean代码的编译速度大幅提高，以及一些研究问题的进展，项目完成度一举从87%跃升至99.866%。

第19天，项目完成度达到99.9963%。陶哲轩在他的博客中指出，撰写论文的事情已经被列入计划，并且可能会有数十位作者参与。

GitHub显示该项目有45位贡献者：

至2024年11月21日，也就是项目的第57天，随着最后一个未解决的蕴含关系被解决（待确认），“等式理论计划”的目标已被宣布达成。

开始正式撰写论文。

陶哲轩透露，论文的框架已经设定，但尚需大量工作进行更新并转化为可提交的形式。

日志中还详细描述了大型模型工具的作用。

第一天，陶哲轩对GitHub Copilot表示赞赏：

GitHub Copilot在处理日常任务时非常有用，诸如输入需要证明的新Lean定理，或者更新蓝图以整合最新的PR结果。

他举例说明：如要将Lean转换为LaTeX，只需将Lean代码粘贴为注释，开始键入LaTeX，GitHub Copilot将自动完成剩余内容。

然而，陶哲轩也坦陈，大型模型在项目中的表现“低于预期”，在大多数情况下，数学家仍倾向于使用“经典AI”，如自动定理证明器Vampire等。

他补充道：

参与者来自各种领域，数学家和计算机科学家，学生和业余爱好者都有。Lean在整合人类和机器生成的贡献方面表现出色。机器生成的部分是最主要的贡献来源，但是许多自动生成结果最初是人类在特定情况下得出的，后来被进一步推广和形式化。

具体到项目中，GitHub Copilot主要用于加快代码的编写，而Claude则被用来创建可视化工具，例如“等式浏览器”：

ChatGPT则在激发数学家们的灵感方面扮演更为重要的角色。

对于陶哲轩来说，ChatGPT可以帮助他快速了解通用代数的一些细节。

而项目参与者lyphyser、Daniel Weber、Fan Zheng和Bhavik Mehta通过与ChatGPT的交流，证明了1659这个等式可能有着非平凡的性质。

尽管主项目里程碑已经达成，“等式理论计划”的其他衍生项目仍在进行中，其中包括在有限原群限定下的类似蕴含图研究、蕴含图数据分析等。

陶哲轩再次强调了该项目与AI的联系：

希望

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。