下载客户端

AI可以帮助我们发现有趣的数学吗？

2026-05-27 15:56

来源：澎湃新闻·澎湃号·湃客

听全文

AI可以帮助我们发现有趣的数学吗？今年JMM2026数学联合会议首日乔迪・威廉姆森（Geordie Williamson）的案例分享。

作者：乔迪・威廉姆森（ Geordie Williamson，悉尼大学）2026-1-4

译者：zzllrr小乐（数学科普公众号）2026-5-27

求点赞

求分享

求喜欢

主持人：拉维・瓦基尔（Ravi Vakil）

各位好。我是拉维・瓦基尔，AMS美国数学会主席。

学术报告会是美国数学会会议中历史最悠久的系列讲座，首次举办于1896年，也就是学会的第二次会议。主讲者堪称数学界的群星璀璨。我本想列出五六位最知名的学者，但遗漏任何一位都会显得不妥。因此我建议大家上网查阅这份主讲人名单，而今天的演讲者也正式加入了这份名单 —— 来自悉尼大学的乔迪・威廉姆森（Geordie Williamson）。

他在数学领域成果丰硕，包括与贝尼亚莱斯共同证明圆周猜想、发现反驳利斯特猜想的反例，以及与乔治・利斯特格共同提出比尔猜想。他曾获得克雷研究奖、英国皇家学会会士、高等研究院杰出访问教授席位，并在国际数学家大会上作全会报告。他是一位真正的数学家，研究兴趣与贡献极为广泛，本次系列讲座便充分体现了这一点。

他跟我讲过这样一段经历：2018年，乔迪与谷歌DeepMind首席执行官德米斯・哈萨比斯同年当选英国皇家学会会士。当选仪式持续三天，茶歇期间两人多次长谈，这彻底改变了乔迪对人工智能的看法。回到悉尼后，两人仍持续交流，最终促成了乔迪与DeepMind的合作研究。

现在，让我们聆听乔迪本人的分享。有请乔迪・威廉姆森。

（掌声）

演讲人：乔迪・威廉姆森（ Geordie Williamson）

非常感谢拉维。同时感谢美国数学会与学术报告会委员会给予我这次演讲机会，这是一份真正的荣誉。也感谢你们让我来到这里，与老友重逢，感受世界这一侧的生活。昨天我可算是真切体会到华盛顿特区距离悉尼有多远。

（笑声）

我是一名数学家，自幼便对计算机及其能力边界充满兴趣。过去十年间，我尤其着迷于计算技术能为数学带来什么，特别是人工智能对数学的作用与局限 —— 这也正是本次系列讲座的主题。

在开始之前，我想先说明：当下对许多数学家而言，人工智能领域的快速发展正带来一段充满挑战的时期。如今是2026年，回望2016年DeepMind的系统击败了世界顶尖围棋棋手，那一刻许多人意识到神经网络正在发生非同凡响的突破。而过去十年，相关能力迎来了惊人的加速发展。

尤其是ChatGPT这类大语言模型，对教育乃至整个社会产生了巨大影响。对数学家而言，这种冲击尤为直观：我从未参加过国际数学奥林匹克竞赛，也绝不可能拿到金牌，但就在今年，多个实验室的AI系统在国际数学奥林匹克竞赛中取得了金牌成绩。

作为数学家，面对这一切难免会困惑：究竟发生了什么？我们该如何应对？

我想用一页内容说明我对此的态度。首先，我认为我们不应仅以无知与恐惧回应。我并非说无知不可取 ——（笑声）我刚才口误了。我本人也时常无知，偶尔会感到担忧，但我认为我们也可以带着兴趣与乐观看待这些发展。这并非硅谷式的盲目乐观，认定一切都会顺利，而是主动关注、认真了解这些技术，这本身就是重要的态度。

我不断提醒自己：数学在两千年间不断带来惊喜，未来必然还有更多。我们应当认真对待这些工具，它们为我们提供了理解数学世界的全新潜力 —— 这是我的基本信念。

但我也清楚，这并非只是象牙塔内的事。如果只按个人意愿，我会乐于用先进系统解决数学问题。但这些技术对整个世界意义重大，我们必须正视并积极参与。作为学术共同体，我们需要谨慎前行。

我先讲到这里。接下来用一页简要介绍当前数学与人工智能领域的整体态势，为本次讲座定位。

神经网络在应用数学中已发挥巨大作用，多年来皆是如此；但到目前为止，对纯数学的影响明显更小。与此同时，证明辅助工具迅速兴起，例如 Lean、Isabelle 等，计算机可以检验证明是否正确，就像验证程序能否编译一样 —— 编译通过即证明正确。

自动证明的实现仍有距离，这也是当前人工智能与数学创业公司的主要方向。大语言模型开始对研究级数学产生影响，我会在讲座末尾适当讨论。此外，数学在人工智能讨论中占据重要位置，大家可能好奇为何外界突然关注数学，简单来说，他们并非真正关心数学本身，而是数学像编程一样，是评估人工智能系统的优质基准。

本次系列共有三场讲座，我尽量让它们相对独立。今天的主题是用人工智能发现数学；明天，我虽非机器学习理论专家，但这一理论极具魅力，我会概述当前对神经网络数学基础的理解，这会以有趣的方式略微改变我们对数学的认知；周二的讲座则是我过去两年密集研究的工作 —— 利用神经网络进行海量搜索。

回到今天的内容。我先极简介绍机器学习与神经网络，不会占用太多时间，随后详细讲解三个案例，我认为这些案例中机器学习与人工智能方法真正催生了有趣的新数学 —— 并非解决重大猜想，但作为数学家，我认为这些成果真实而迷人。

前两个案例使用极低资源的人工智能，笔记本电脑即可运行；第三个则用到大语言模型。周二的第三场讲座会聚焦资源更少、但人工智能技术更复杂的案例，最后简要反思数学与人工智能的现状。

简单说明什么是机器学习与神经网络，仅作直观描述。用一句话概括机器学习：不妨把它看作人类的感知任务。比如看到一张老虎的图片，我们立刻知道那是老虎，这种感知任务毫不费力，但在机器学习出现之前，计算机极难实现。这类函数通常是高维的，右侧的老虎图片有约两百万像素，我们看到图片时，相当于在感知一个两百万维向量空间中的向量，并立刻赋予其意义，这本身就很了不起。

在我看来，机器学习的核心意义之一，是应对超高维空间中特有的难题，这些技术正是为处理这类问题而生。大家都应了解一些基础方法，比如回归分析、主成分分析，我们稍后会提到；而神经网络则提供了另一种途径 —— 简单来说，神经网络是在高维空间中逼近函数的工具。

举个最佳拟合线的例子，想象这些点云位于极高维空间，这条线是我试图逼近的超曲面，这能粗略反映其原理。即便在高维空间，这也可能带来洞察。我有个做金融的朋友说，我总跟他讲数学，但他除了每天做回归分析，根本用不到其他数学。

而神经网络，可以理解为在高维空间中以非线性方式逼近函数。大家看到的是神经网络训练过程，它在逼近数据集，并期望能泛化到未见过的数据。

如我所说，第二场讲座会更详细讲解神经网络。现在进入三个数学问题。

案例1：Bruhat图、Kazhdan-Lusztig多项式、组合不变性

第一个是我们几年前的工作，涉及一个重要猜想 ——组合不变性猜想，与多项式和一类特殊的有向图有关。我先描述这个图，再说明人工智能方法如何介入。

这个图叫作Bruhat图。我们取一个置换，即对 1 到 n 的重排，是从 1 到 n 到自身的双射。置换的长度是逆序个数，恒等置换长度为 0，完全逆序置换的长度为 n选2（组合数）。图中列出了 n=3 的所有置换，按长度分层：恒等置换在最下方，依次是长度 1、2、3 的置换。我们可以由此构建群的图，两个群元素相连当且仅当一个可通过对换（交换两个元素）得到另一个。从恒等置换可以到达交换相邻元素的置换，这些是边。

单看长度和Bruhat图本身并不复杂，但结合起来就成为非常有趣的对象。我们给边加上方向，依据是长度是否增加，这就导出对称群上的Bruhat序，是非常重要的序结构。若在Bruhat序中有 x≤y，我们可以取诱导子图，得到这个区间的Bruhat图。许多有趣的图都能作为Bruhat序的子图出现。比如 n=3 的例子比较平凡，但 n=4 时图就相当复杂，其中还包含类似八面体的有趣结构。

组合不变性猜想是Dyer和Lusztig在1980年代发现的：对两个置换，若对应的Bruhat图相同，那么相应的卡扎丹–卢斯蒂格多项式也相同。这一现象至今没有完整解释。

他们由此提出猜想：若图相同，则多项式相同；强版本则是可以直接从图推导出多项式。

面对这个问题，我们有大量例子可算，但图会迅速变得极其复杂，多项式则是对结构的高度凝练 —— 多项式长期保持简单，要看到复杂行为必须研究极复杂的例子。我越研究这个问题，越觉得从图到多项式的映射本应很简单，只是我们尚未找到。

我们从人工智能角度如何入手？我与DeepMind合作训练了图神经网络，输入Bruhat图，预测卡扎丹–卢斯蒂格（Kazhdan-Lusztig）多项式。我们使用的是图神经网络，而非全连接网络，图结构决定神经网络的结构。

当时我刚接触神经网络，很惊讶的是，我们只用了大约一周就整理好软件、生成图与多项式的数据集。DeepMind的一位研究员佩塔・维利奇科维奇开始运行图神经网络，很快就达到了很高的准确率 —— 这说明预测多项式本应很容易，只是我们不知道方法。

但随之而来的是一个难题：神经网络显然抓住了某种规律，可我们不知道它抓住了什么，这就是可解释性问题，极其困难。我们只能不断尝试，最终 DeepMind 的另一位研究员发现了一个关键模式：图中某些边对神经网络的预测格外重要。

这对我而言是极重要的线索，作为数学家，我能看懂神经网络关注的这些边的意义。凭借这条线索，我们最终给出了基于Bruhat图的卡扎丹–卢斯蒂格多项式新公式。

简单来说，公式需要做一些选择，其中一种选择能给出正确结果，但我们至今仍未能证明所有选择都给出相同答案。（轻笑）

但这被视为组合不变性猜想的重要进展。

时间线大致是：前两周完成数据与训练，两个月得到关键线索，七个月得出公式。在这个案例中，数学家仍承担大量核心工作，但神经网络提供了决定性线索。

最近，这个公式已被其他研究者沿用，其中一篇论文给出了组合不变性猜想目前最好的无条件结果，这令人十分欣慰。

案例2：椭圆曲线与椋鸟群飞现象（murmuration）

第二个主题是椭圆曲线与椋鸟群飞现象（murmuration），这是数论中令我兴奋的最新进展。

我们从有理数域上的椭圆曲线开始，属于丢番图几何，研究方程的有理数解，这一问题极其困难。有理数解构成有限生成阿贝尔群，这是莫德尔–韦伊（Mordell-Weil）定理。有限生成阿贝尔群可分解为挠部分与自由部分，挠部分相对容易计算，而确定秩是丢番图几何的核心难题。

一个简单的操作是对素数 p 取模，计算模 p 解数。小素数时可直接枚举，大素数也可高效计算，于是得到一列数：对所有素数 p，模 p 解的个数。

伯奇（Birch）和斯温纳顿–戴尔（Swinnerton-Dyer）在1960年代发表了极具影响力的论文，提出局部–整体启发式原则：若对大多数素数 p，曲线有异常多的点，那么它应有很多有理点。严格化这一想法，就引出伯奇 – 斯温纳顿–戴尔（BSD）猜想，是七大千禧年难题之一。

现在我们从数据科学与机器学习视角看待它：把椭圆曲线看作高维空间中的点，坐标就是这些模 p 计数，做一点标准化处理，使其均值为 0，这在数据科学中是很自然的处理方式。

令人惊叹的是，严肃对待这一高维空间中的点，让李（Kyu-Hwan Lee）、奥利弗（Thomas Oliver）、波兹尼亚科夫（Alexey Pozdnyakov）等人发现了椋鸟群飞现象，这是极重要的观测结果。详情参阅小乐数学科普：事关BSD猜想，AI人工智能发现椭圆曲线的“椋鸟群飞murmuration”现象——译自量子杂志

椭圆曲线有一个导子（conductor），是与其关联的整数，衡量曲线的复杂程度，非常精细的不变量。p 整除导子当且仅当曲线模 p 奇异。从数据科学角度研究椭圆曲线，应固定导子范围，查看该范围内所有椭圆曲线。

他们计算了给定秩的所有椭圆曲线的标准化系数平均值，发现了惊人的模式，称之为“椋鸟群飞murmuration”—— 如同鸟群在空中协同飞舞，由此得名。这一发现引发数论界的大量研究，此前完全被忽略。

如果以正确的方式看待，椭圆曲线可以像鸟一样成群。视频：Paul Chaikin | Quanta Magazine

这件事有几点值得注意：它源于用序列预测秩的研究，很多人包括我最初认为这在数论上是显然的，但我忽略了一点：它的精度高得惊人，深究精度来源才发现椋鸟群飞现象。

这或许是一个教训：如果神经网络表现异常好，我们应全力探究原因。按导子排序至关重要，没有导子与整理好的椭圆曲线列表，就看不到这一现象，而这些数据正是由LMFDB数据库提供的。这一数据库精心整理了数论信息，想要验证猜想，直接下载数据即可开展实验。

由此得到一个更普遍的启示：若想在其他领域复现这类成果，应寻找那些投入大量精力生成高质量数据、但尚未从机器学习角度系统分析的领域。当然，这一切建立在算术几何领域长期艰苦的工作之上。

案例3：通过AlphaEvolve Bruhat图和超立方体

第三个案例，我再次强调：前两个案例都使用非常基础的机器学习技术，图神经网络不算简单，但也不算特别尖端；椋鸟群飞现象用到的更是最基础的人工智能方法 —— 回归与主成分分析。我记得亚历克西斯跟我说，他父亲是统计学教授，听说用AI做出重大成果觉得很轰动，结果发现不过是回归和主成分分析，觉得很有趣。（笑声）

现在我们进入更前沿的系统，使用最先进的大语言模型，我要介绍的是AlphaEvolve系统，由DeepMind开发，是此前FunSearch系统的升级版。其核心思想是：用大语言模型生成大量可能的Python程序，这些程序能生成有趣的数学对象。

假设我们要找一个具体的数学对象，比如100个顶点、无4-圈且满足七个条件的图，或有限域上向量空间的某个子集。直接给出对象很困难，比如邻接矩阵、点列表等；但数学家通常的做法是给出构造方法，而非对象本身。

在很多具体问题中，Python程序本质上就是构造方法 —— 精确描述如何生成对象。而大语言模型非常擅长写 Python 代码，因此我们可以在程序空间中搜索。

换个角度理解：传统局部搜索在图空间中进行，有点分函数，有局部移动（增删顶点、边）；而FunSearch与AlphaEvolve是在Python程序空间中做局部搜索。没有大语言模型，谈论两个程序的距离没有数学意义，但有了大语言模型，就可以精确定义距离，并让模型生成邻近程序。

这也可以类比遗传算法：保留一批好的构造，随机选择一些进行 “杂交”，筛选优秀后代，不断迭代。在这里就是告诉大语言模型：这里有五个在该问题上得分高的程序，再生成一些类似的，自动评估并迭代。

回到Bruhat图，两个月前我们有一个令人兴奋的结果。这是一个随机问题，源于一些研究动机，我理解并非所有人都像我一样喜欢Bruhat序。问题是：对称群的Bruhat序中最大的超立方体是什么？我们不知道答案。

我研究这个问题的动机之一，是 S₄ 中存在一个神秘的超立方体，我十多年来一直无法理解其来源。我们面对一个大图，寻找高度结构化的特殊子图。我们让Python程序生成区间的上下界置换，运行程序得到两个置换，对应一个子图，用d不变量打分，衡量其与超立方体的相似程度。

AlphaEvolve 在很多问题上效果平平，只能给出平凡答案，但在这个问题上出现了令人惊喜的突破。

使用方式就像提示大语言模型：扮演组合代数与组合优化专家，完整提示长度大约是这里的三倍，可以给出提示。亚当・瓦格纳做过大量这类实验，他坚信心理激励至关重要，总是对模型说 “你可以的，我相信你”，给模型信心。

程序跑一整晚，早上就能得到有趣结果。我们得到的程序不长，运行后能对所有n生成区间上下界，对应Bruhat序中的子图。测试后发现，它在远超测试范围的n上依然成立 —— 这极不寻常。根据我的经验，AlphaEvolve 通常只会在指定范围内优化，超出范围就失效，但这次没有，说明确实发现了有趣结构。

我们花了一天时间运行、检验、观察例子，确认它抓住了关键规律，但程序本身比较复杂。如果有人直接给你一个程序，问你它在数学上做了什么，并不容易回答。

乔丹发来一封很棒的邮件指出：当n取2的幂时，程序变为确定性，行为清晰可辨。凭借这一观察，我们反编译了程序的逻辑，发现了Bruhat序中一类优美的结构：一类特殊置换构成巨大而漂亮的超立方体，恰好对应我十多年来想理解的 n=4 时的怪异超立方体。

这是一个不大的结果，但令人非常满足。

我必须强调：人们常批评数学人工智能领域只讲成功、不提失败。我明确说明：这种方法通常不奏效，但偶尔会成功，而这种偶尔的成功就很有价值，有点像数学研究本身 —— 通常不顺利，但偶尔成功就足够令人满足。

效果究竟如何？博格丹・乔加诺、陶哲轩与亚当・瓦格纳有一篇论文，在67个问题上测试了该系统，涉及分析、组合、几何、数论等领域。我必须强调，这些并非重大公开难题，大多是改进不等式常数、优化图构造等增量式进展，但这篇论文是对系统有效性与适用场景的重要研究。

这是陶哲轩博客公布的结果：绿色代表改进已知界，红色代表变差，灰色是未改进或仅得到已知结果。

这是我第一次见到，在数学人工智能层面，绝大多数数学家都能在某些问题上有效使用的工具。

作为这项工作的衍生成果，陶哲轩在11月将两篇论文挂到arXiv，凭借他对问题的理解结合AlphaEvolve，改进了若干数学定理，方式与我刚才讲的超立方体例子类似。我相信未来会出现更多这类论文，这一切都还非常新。

以上是三个案例，最后我简要谈谈数学人工智能的更广泛背景。

数学人工智能的更广泛背景

首先是近期挑战。第一个挑战：技术发展太快，我们来不及建立相应的学术文化，这是非常大的问题。我们必须规范资源使用报告，我刚才没有说明AlphaEvolve的资源消耗，因为我还不习惯这么做。顺便一提，我们大概用了50美元的算力额度。

还有大量关于如何规范使用的重要问题。另外，这类工作需要一套特殊技能，纯数学家并不熟悉，我们必须让学生了解这个领域、学会与之互动。跨学科性也带来诸多困难，我想提及卡内基梅隆大学（CMU）新成立的美国国家科学基金会（NSF）研究所 ICARM（数学计算机辅助推理研究所），其使命之一就是降低这类跨学科工作的门槛。

更广泛地说，我很欣赏迈克尔・哈里斯关于数学与人工智能的博客，他的观点与我的乐观形成平衡。我认为必须记住一个事实：工业界的人工智能实验室的首要动机并非学术好奇心，我有时会忽略这一点。

我也承认，共同体中部分成员对此极为担忧，我并非其中一员 —— 我热爱这项工作，热爱与计算机合作，但有些人并非如此，他们的担忧应当被倾听与重视。

我们共同体的基本诚信是最宝贵的资产。当下我们谈论人工智能时，听众不仅限于数学家，这一点至关重要。人工智能研究者非常重视数学家的评价，因为我们拥有扎实的学术操守，而这份操守必须坚守。

总结来说，我主张谨慎地参与人工智能，而非排斥。我认为我们能做出独特贡献。我展示了三个案例，其中机器学习与人工智能真正带来了我作为数学家能够欣赏的有趣新数学，这份清单还会继续增长。

数学人工智能尚处于起步阶段，我个人对未来几年的发展充满期待。

谢谢大家。

（掌声）

Q&A问答环节

主持人：这场演讲极具启发性，我们还有少量时间提问。过道设有麦克风，有问题的听众可以上前。

问：您提到用神经网络理解Python程序空间，进而探索该空间。这很有前瞻性，我想请问您是否考虑过用神经网络、人工智能理解定理的证明空间？MathOverflow曾有讨论：如何判断两个定理证明本质相同或不同？您认为您提到的工具能否帮助这类问题？

答：这是非常有趣的问题。从形式上看，如果你相信证明可以用 Lean 证明近似，那么证明空间就可以被赋予几何结构 —— 大语言模型可以给出证明之间的距离概念。我对这个空间的拓扑没有任何理解，但相关问题非常有趣。

我看过一个很有启发性的工作：蒂姆・高尔斯在某次学术研讨会上提到，紧性这类关键概念就像证明空间中的局部极小值。我们在基础分析中卡壳的很多问题，突破口就是紧性，它帮我们跳出局部极小。这个观点很有说服力，如果你对这个方向感兴趣，值得一看。

问：在椋鸟群飞现象的图中，红色和蓝色分别代表什么？

答：抱歉没说明，红色是秩 0，蓝色是秩 1。

问：您对刚入学的研究生有何建议，在人工智能时代如何培养数学素养？

答：我最直接的建议是：了解并动手尝试这些工具。我要求我的学生掌握 git，会训练简单神经网络，会用AI编码快速检验例子。除此之外，我没有统一答案，这个问题值得研讨会上所有人讨论。

问：您如何看待将人工智能用于化学、核物理、医学等其他领域？相关伦理讨论很多，您的看法是？

答：我很难超越数学研究者的身份回答。（笑声）但我可以说，这些都是重大问题。一个基本点：我们可以证明软件正确，这正是形式化证明的动机之一。如果能生成证明，就能生成验证过的软件，这类软件可以安全用于核电站等关键场景。

当前的人工智能大多是预测模型，会犯错；但形式化验证的软件则不同。我只能说这些。

问：您如何看待Lean的可靠性问题？有人担心AI，尤其是强化学习，会利用Lean的漏洞生成虚假证明，因此主张换用其他证明系统。

答：AI “作弊” 是事实，只要有漏洞，AI就会利用，我见过无数次。但人们对Lean内核的可靠性信心非常高。当然必须小心定义本身是否正确—— 定义无法形式化验证，模型可能通过错误定义 “证明” 任何结论，比如直接把纳维–斯托克斯方程定义为零。

主持人：这场讲座非常精彩，期待大家参加后两场。再次感谢威廉姆森教授。

参考资料

https://www.youtube.com/watch?v=0Tgftb5ELvE

https://www.youtube.com/watch?v=5LDagOaWZnw

https://www.youtube.com/watch?v=hVIBiwWWaqM

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报

扫码下载澎湃新闻客户端

澎湃矩阵

新闻报料

报料热线: 021-962866
报料邮箱: news@thepaper.cn

沪ICP备14003370号

沪公网安备31010602000299号

互联网新闻信息服务许可证：31120170006

增值电信业务经营许可证：沪B2-2017116

反馈