- +1
00后播客主对话陶哲轩 :AI将如何彻底变革数学
经常采访顶级大佬的00后播客主Dwarkesh Patel近日采访陶哲轩,从科学史和数学史的角度,深度探讨AI如何彻底变革数学。

作者:Dwarkesh Patel(德瓦凯什・帕特尔,播客主)2026-3-21
译者:zzllrr小乐(数学科普公众号)2026-4-2
采访者Dwarkesh Patel(以下简称DP):
本期节目,我们从开普勒发现行星运动定律的绝妙且出人意料的方式开始。
人们常说,AI 在科学发现领域会进展飞快,因为存在严密的验证闭环。
但人类探索太阳系行星轨道形状的历程表明,正确理论的验证闭环可能长达数十年,甚至数千年。
在这段时间里,我们今天认为更优的理论,在当时的预测效果往往更差 —— 哥白尼以太阳为中心的圆形轨道模型,精度其实不如托勒密的地心模型。
这些理论能熬过这段认知困境,靠的是判断力与启发式方法的结合,而我们至今都难以清晰阐述,更别说把它编码进强化学习闭环里。
希望你喜欢本期内容!
目录:
一、开普勒就像一个高温大模型
二、如何在海量AI生成的杂乱结果中发现全新的统一概念?
三、演绎冗余
四、AI发现报道中的选择性偏差
五、AI让论文更丰富、覆盖面更广,但不会更深刻
六、如果AI解决了一个问题,人类能从中获得理解吗?
七、我们需要一种半形式化语言,来描述科学家真实的交流方式
八、陶哲轩如何分配时间
九、人机协作模式将长期主导数学领域
你还可在 YouTube 观看https://youtu.be/Q8Fkpi18QXU ,苹果播客https://podcasts.apple.com/us/podcast/terence-tao-kepler-newton-and-the-true/id1516093381?i=1000756353875 或 Spotify 收听https://open.spotify.com/episode/24xF8YGra2w3HXZYbhgVKU?si=U5V-SgvSQ8eVIcG2Z86wfQ 。
访谈内容精华压缩版:(完整版请在更下方查阅)
一、开普勒就像一台 “高温大模型”
开普勒的核心特点:花数年时间不断试错,在大量错误想法中最终找到真实规律。
他坚信行星轨道符合柏拉图立体(正方体、正四面体等)的排布,只因当时有 6 颗行星、5 种立体,在他看来这是 “神的设计”。
数据显示他的理论偏差达10%,但他没有放弃,持续研究多年。
整个故事的关键:第谷・布拉赫的数据集。这是当时全球唯一高精度天文数据,由第谷在专属天文台连续数十年、每个晴朗夜晚观测积累而成。
开普勒几乎是 “偷走” 了这些数据,抄录后还与第谷的后人争夺使用权。
没有这套验证数据,开普勒只会是个写行星音律幻想书籍的普通人。
主持人观点
开普勒本质就是一台高温大模型:不断输出随机猜想,直到一个碰巧符合数据。
行星运动第三定律,只是他在《世界的和谐》一书中随手写下的旁注。
后来牛顿以这条经验规律为基础,用数学严格推导出万有引力平方反比定律。
陶哲轩观点
提出假设只是科学过程的一步,科学还包括数据收集、分析、验证与传播,而我们只歌颂天才灵光一现的瞬间。
科学范式已从 “先提出想法,再验证”转变为“先收集海量数据,再挖掘规律”。
开普勒的类比非常贴合 AI:AI 能低成本生成海量假设,如同开普勒不断尝试各种几何模型。
二、如何在海量AI生成内容中,发现全新的统一概念?
AI把想法生成的成本降到近乎零,如同互联网把通信成本降到近乎零。
科学的瓶颈已不再是提出假设,而是验证与评估。
学术期刊已被 AI 生成投稿淹没,人类审稿人完全跟不上。
深层问题
当一个划时代的统一思想出现(如香农的比特概念),如何在数百万篇平庸论文中识别它?
“比特” 横跨概率、计算机、工程等领域,但在当时只是贝尔实验室一篇普通论文。
深度学习也曾是小众、受争议的方向,多年后才统治领域。
陶哲轩回答
伟大思想往往需要时间检验,刚提出时常被冷落。
Transformer 成为现代大模型基石并非必然,完全可能是其他架构胜出。
思想能否被采纳,不只取决于质量,还取决于文化与现有基础设施。
我们正在经历认知哥白尼革命:曾经认为人类智能是宇宙中心,如今发现存在完全不同类型的智能,各有优劣。
这意味着,我们对“什么任务困难、什么需要真正智能”的整套判断必须彻底重构。
三、演绎冗余
天文学极度擅长从微量数据中榨取结论,因为数据一直是瓶颈。陶哲轩提到:量化对冲基金特别偏爱招聘天文学博士,正是看中这项能力。
演绎冗余核心
任何领域,只要找到分析现有数据的正确方法,就能挖掘出远超想象的信息。
案例:科学家通过追踪引用中的错别字复制传播,证明很多作者根本没读过原文。
启示:科学社会学家应大规模分析引用、会议提及、论文传播数据,识别真正有影响力的思想。
四、AI成果报道中的选择性偏差
过去数月,AI 解决了 1100 多个埃尔德什问题中的约 50 个,看似惊人,实则有完整背景。
录制节目时,进展已停滞:低垂果实已被摘完。
多个团队用前沿模型同时攻击剩余问题,基本无新突破。
山脉类比
在黑暗中攀爬峭壁,不知道哪些墙矮、哪些高不可攀。
AI 像跳跃机,能跳 2 米高,超过人类,但经常跳错方向。
它们快速清空了最矮的墙,现在所有人在等待下一代模型。
关于选择性偏差的关键事实
对单个问题,AI 成功率仅1%~2%。
只有成功案例会被发到社交媒体,外界误以为是革命。
AI极不擅长局部进展:要么解决,要么失败,无法像人类一样在半腰立足、逐步推进。
被 AI 解决的 50 个问题,几乎都是无文献积累的冷门题,只需组合冷门技巧即可。
目前正在建立AI 数学标准化基准数据集,避免 AI 公司只报喜不报忧。
陶哲轩:这种进步既惊人又令人失望,看着这些工具工作,感觉非常奇怪。
五、AI 让论文更丰富、更广,但不更深
陶哲轩 2023 年预测:2026 年 AI 会成为数学领域可靠的合著者。如今他表示预测应验,非常满意。
他的论文现在代码、图表、数值计算大幅增多,AI 让这些内容成本极低。
过去几小时的图表,现在几分钟完成;但 AI 出现前他根本不会加这些图表。
数学研究的核心 —— 攻克最难部分,依然靠纸笔。
AI 极大加速次要任务,但未触及核心难点。
论文更丰富、覆盖面更广,但未必更深刻。
人类智能 vs 人工智能 真正的区别:AI 无法从局部进展中累积构建。
人类合作:从零开始,动态试错、迭代、梳理路径。
AI:不断跳跃失败,无法立足支点、逐步推进。
新开会话,AI 完全遗忘之前操作,数学理解没有任何进步。
六、如果 AI 解决难题,人类能获得理解吗?
这是节目最令人不安的问题:如果 AI 用 Lean 证明黎曼猜想,证明过程会不会是一堆无法理解的乱码?
四色定理靠暴力计算证明,至今无优雅概念证明。
黎曼猜想不同:多数数学家相信,解决它需要开创全新数学领域。
好消息:Lean 证明可以原子化拆解研究
每个引理可单独分析。
可识别哪些是标准步骤,哪些是关键创新。
可做消融实验,删除部分看哪里失效。
陶哲轩认为:未来会出现专门数学家,把 AI 生成的巨型证明提炼得优雅易懂。
埃尔德什问题已出现这套流程:AI 生成 3000 行代码 → 其他 AI 总结 → 人类写出可读版本。
只要有证明产物,就有大量工具解读它。
七、我们需要半形式化语言,描述科学家真实交流方式
我们有形式逻辑与 Lean 处理证明,但没有工具描述科学策略、可信度、猜想。
数学公理直到 20 世纪初才完整建立,非常晚近。
现在需要类似框架,处理科学中更人性、更模糊的部分。
素数案例
高斯靠前 10 万个素数的数据,发现密度与自然对数成比例,无证明,纯数据驱动。
数学家逐步建立素数随机模型,非严格但极度准确。
孪生素数猜想完全未证明,但学界普遍相信,只因这个模型。
科学 = 数据 + 模式匹配 + 叙事 + 共同体共识,不只是定理证明。
黎曼猜想的防御意义
如果黎曼猜想不成立,意味着素数存在未知隐藏模式
直接威胁素数密码学安全,因为如果有一个未知的模式,可能还会有更多。
我们需要一套防后门、半形式化框架,捕捉概率性、叙事性、共同体驱动的推理,让 AI 能有效介入。
目前强化学习需要清晰反馈,但 “这个猜想可信” 没有清晰信号。
框架还需要防被黑客攻击,因为强化学习非常擅长寻找后门。
八、陶哲轩如何分配时间
他自称为狐狸型学者:通晓万事;合作者多为刺猬型:精通一事。
学习新领域的动力:不甘心
别人能做到他认为自己也该做到的事,他会耿耿于怀,直到弄懂技巧。
他有完美主义强迫症,因此戒掉游戏 —— 不打通所有关卡不罢休。
学习方式
与其他领域数学家合作,交朋友,学习对方基础方法。
博客是外部记忆硬盘:
年轻时学完易忘,写成博客强迫自己消化。
写博客通常是在逃避更讨厌的工作,所以他真心享受。
关键感悟:日程需要偶然性与低效性。
疫情远程会议失去了走廊闲聊、咖啡间偶遇。
图书馆翻期刊的意外发现,现在基本消失。
完全无干扰环境,几个月后会灵感枯竭。
适度干扰带来随机性,保持思考的 “高温”。
九、人机协作将长期主导数学
陶哲轩明确:人机协作主导数学的时间,比大多数人预期更长。
AI 已在做人类无法完成的前沿数学,但属于另一类前沿(如计算器做数值计算)。
十年内,数学学生与论文的大部分工作,AI 都能完成。
但这些从来不是数学最重要的部分。
历史规律:工具自动化一层数学,数学家就向上升级:
19 世纪数学家手工解微分方程 → 现在用 Wolfram Alpha。
遗传学家整个博士测序一个基因组 → 现在 1000 美元几天完成。
领域没有消亡,只是研究尺度升级。
给数学从业者的建议
传统路径暂时仍重要,需要学历与基础。
前沿研究门槛快速降低,高中生借助 AI 与 Lean 也能做出贡献。
主动寻找前所未有的机会
保持适应力与好奇心。
世界现在极不可预测。
AI 也可能因破坏偶然性,抑制某些类型的进步。
在这个阶段,一切皆有可能。
一、开普勒就像一个高温大模型

DP
今天我和陶哲轩对谈,他无需过多介绍。陶哲轩,我想先请你讲讲开普勒发现行星运动定律的故事,我认为这是探讨 AI 与数学的绝佳切入点。
陶哲轩
我一直对天文学抱有业余兴趣,很喜欢早期天文学家探索宇宙规律的故事。开普勒的工作建立在哥白尼之上,而哥白尼又继承了阿里斯塔克斯的思想。哥白尼最著名的贡献是提出日心说:行星与太阳并非绕地球运转,而是太阳位于太阳系中心,其他行星围绕太阳运行。
哥白尼认为行星轨道是完美的正圆,这套理论契合了希腊、阿拉伯与印度学者历经数百年积累的观测数据。开普勒在学习中发现,哥白尼预测的轨道尺寸比例似乎蕴含某种几何意义。
他提出:如果把地球轨道放进一个正方体,包裹正方体的外接球面几乎完美匹配火星轨道,以此类推。当时已知有 6 颗行星,行星之间有 5 个空隙,而恰好存在 5 种完美的柏拉图立体:正方体、正四面体、正二十面体、正八面体、正十二面体。

于是他提出了一套在他看来无比优美的理论:可以在行星天球之间嵌入这些柏拉图立体。这套理论看似吻合数据,他认为上帝设计行星时,正是用柏拉图立体的数学完美性来排布。
他需要数据验证这套理论。当时只有一份真正高质量的数据集 —— 第谷・布拉赫,这位富有且特立独行的丹麦天文学家,说服丹麦政府资助了一座造价极高的天文台,甚至占据了一整座岛。他用肉眼坚持数十年观测行星,只要天气晴朗,每晚都会记录火星、木星等天体数据,他也是最后一位肉眼天文学家。
开普勒得以使用这些数据,但第谷对数据极为珍视,每次只给一小部分。最终开普勒 “偷” 走了数据,抄录下来,还和第谷的后人发生争执。
拿到数据后,他失望地发现,这套优美的理论并不完全成立,数据与柏拉图立体模型偏差约 10%。他尝试各种修正、调整圆形轨道,都无济于事。但他长年钻研,最终学会用数据推导出行星的真实轨道。
这是极其天才的数据分析。他发现轨道实际是椭圆而非正圆,这对他冲击巨大。他由此得出前两条行星运动定律:轨道为椭圆,以及单位时间扫过面积相等。
十年后,在收集更多数据(最远的土星、木星最难分析)之后,他终于得出第三条定律:行星公转周期与到太阳距离的某次方成正比。这就是著名的开普勒三大定律。他无法解释这些定律的成因,完全来自实验归纳。一个世纪后,牛顿才用理论一次性解释了全部三条定律。
DP
我想提出一个观点:开普勒就像一个高温大模型。而牛顿给出了三大定律为何必然成立的解释。当然,开普勒发现定律的过程是天才之作,但他的职业生涯里一直在尝试各种随机关系。
事实上,记载第三定律的著作《世界的和谐》只是旁支内容,这本书满是行星 “音律” 之类的猜想,甚至认为地球饥荒苦难是因为地球发出 “咪 - 发 - 咪” 的音调。全是这类牵强的星相学内容,但其中藏着平方 - 立方定律,揭示了周期与行星到太阳距离的关系。如你所说,把它结合牛顿的 F=ma 与向心加速度公式,就能推导出万有引力平方反比定律,而这正是牛顿完成的工作。
我认为这个故事很有启发:大模型完全可以做类似的事 —— 持续二十年尝试各种随机关系,哪怕大部分毫无意义,只要有第谷这样可验证的数据库就行。“我来试试音律、柏拉图立体、各种几何关系,我先验地相信轨道几何里藏着重要规律。”
然后其中一个关系成立。只要能验证,这些经验规律就能推动真正深刻的科学进步。
陶哲轩
传统上,我们谈论科学史时,思想生成一直是最受推崇的部分。科学问题包含很多步骤:定位问题、挑选有价值的问题、收集数据、设计分析策略、提出假设、验证假设、撰写与解释成果,足足十几个环节。
我们歌颂的是灵光一现的天才时刻。开普勒确实试过大量想法,很多都失败了,我敢说还有大量想法他根本没发表,因为完全不匹配数据。不断试错、验证,是过程中重要的一环。
但如你所说,必须有等量的验证工作,否则就是一堆杂乱无意义的内容。我们歌颂开普勒,也应该歌颂第谷的勤勉观测 —— 精度比以往高十倍。多出来的这一位小数精度,对开普勒得出结论至关重要。他用当时最先进的欧氏几何把模型与数据拟合,数据、理论、假设生成缺一不可。
我不认为如今假设生成还是瓶颈。科学在几个世纪里已经改变。经典科学的两大范式是理论与实验;20 世纪出现数值模拟,可以用计算机模拟检验理论;20 世纪末进入大数据时代,数据分析成为主流。
如今大量新进展,是先分析海量数据集,从中提取模式、推导结论。这和传统科学方法略有不同:传统是先做少量观测或突发奇想,再收集数据验证;现在几乎反过来,先收集大数据,再从中提炼假设。
开普勒或许是早期数据科学家之一,但他也不是从第谷数据直接开始分析,而是先有预设理论。但现在数据规模与价值极大,这种方式越来越不主流。
DP
很有意思。我觉得你描述的 20 世纪科学,和开普勒的经历非常吻合。他在 1595-1596 年提出多边形与柏拉图立体理论,但都是错的。几年后拿到第谷数据,经过二十年随机试错,才得到经验规律。
这很像第谷的数据对应海量模拟数据库,有了数据就能持续试错。没有数据,开普勒只会写关于音律与立体的书,没有任何东西可以验证。
陶哲轩
数据极端重要。我想强调的区别是:传统是先提出假设,再用数据检验;而现在借助机器学习、数据分析、统计学,可以从数据出发,用统计方法发现前所未知的规律。
开普勒第三定律有点像这样,只不过他只有 6 个数据点(而非第谷的上千个):每颗行星的轨道长度与日距,五六组数据,做了我们今天所说的回归分析,拟合出平方 - 立方定律,非常惊人。但他很幸运,这 6 个点给出了正确结论,数据量其实不足以保证可靠。
后来有位天文学家波德,用同样的行星距离数据,受开普勒启发,提出行星距离符合偏移等比数列的预测。他拟合曲线时发现火星与木星之间有缺口,预言存在一颗缺失的行星。这理论有点民科色彩,但赫歇尔发现天王星时,距离完美符合这个模式;谷神星在小行星带被发现时也符合。人们激动地认为波德发现了伟大的自然定律。
但海王星被发现时,数据完全偏离。本质上只是数值巧合,只有 6 个数据点。开普勒之所以没有像强调前两条定律那样强调第三定律,可能是直觉上知道:只有 6 个点,结论必须谨慎 —— 尽管他没有现代统计学知识。
二、如何在海量 AI 生成的杂乱结果中发现全新的统一概念?
DP
更直白地问这个类比:未来 AI 越来越强,出现数百万个 AI 去搜寻各类经验规律,这个类比还成立吗?你似乎不认为科学的瓶颈是找到各领域 “开普勒第三定律” 式的规律,留待后人解释、推导数学、得出引力平方反比定律。
陶哲轩
我认为 AI 把思想生成的成本降到近乎零,就像互联网把通信成本降到近乎零。这很了不起,但它本身不会自动带来知识爆炸。现在瓶颈变了:人们可以为一个科学问题生成上千种理论,我们必须验证、评估它们。科学体系必须随之调整。
传统上我们筑起壁垒。在 AI 大量生成内容之前,业余科学家也会提出各种宇宙理论,大部分价值很低。我们建立同行评审与发表体系,过滤筛选高信号想法。
但现在 AI 可以大规模生成可能的解释,其中少数优秀、大量糟糕,人类评审已经不堪重负。很多期刊报告 AI 生成投稿泛滥。
AI 能生成各种内容固然好,但意味着科学的其他环节必须跟上:验证、评估、判断哪些想法推动学科前进,哪些是死胡同或干扰项。我们还不知道如何大规模做这件事。单篇论文,科学家可以辩论并在数年内达成共识;但每天生成上千篇时,这套机制失效。
DP
这是个极有意思的问题:如果有数十亿 AI 科学家,不仅要判断哪些是真正的进展,还要…… 这其实是人类科学曾经面对并解决的问题,我甚至不确定我们当年是怎么解决的。
比如 1940 年代贝尔实验室,新技术层出不穷:脉冲编码调制、信号传输、数字化、模拟线传输…… 大量论文讨论工程约束与细节,然后有人提出比特的概念,影响横跨多个领域。我们需要一套系统识别它,并应用到概率、计算机科学等领域。
未来 AI 会提出下一代统一概念,如何在数百万篇看似有进展、但缺乏统一思想的论文里识别它?
陶哲轩
很大程度上要靠时间检验。很多伟大思想刚提出时反响平平,直到其他科学家推进、应用到自己的工作中才发光。深度学习在很长一段时间里只是 AI 小众领域,完全靠数据训练而非第一性原理推理的思路曾备受争议,经过很久才开始产出成果。
你提到比特。当年还有三值逻辑等其他计算机架构提案,在另一个平行世界可能成为主流。Transformer 是现代大模型的基础,是第一个足够成熟捕捉语言的深度学习架构,但也完全可能是其他架构率先做到并成为标准。
很难判断一个想法是否有前景,因为它依赖未来、依赖文化与社会环境,依赖哪些被采纳、哪些被忽略。比如十进制对数学极有用,远胜罗马数字,但 “十” 本身没有特殊性,只是因为所有人都用,形成标准,计算机与表示系统都围绕它构建,形成巨大惯性。
你无法孤立地评判一项科学成就,脱离过去与未来的上下文给出客观评分。因此,它可能永远无法像局部问题那样用强化学习直接优化。
DP
科学史上,很多事后被证明正确的新理论,刚提出时的推论要么荒谬错误(后来才明白错因),要么正确但当时极度反直觉。
如你所说,公元前 3 世纪阿里斯塔克斯就提出日心说。古雅典人认为不可能:如果地球绕太阳转,应该观测到恒星视差,除非恒星远到无法察觉 —— 而这正是正确推论。
也有些推论是错的,需要升级认知。莱布尼茨曾批评牛顿引力理论,认为它隐含超距作用,而当时无人知道机制;牛顿本人也对惯性质量与引力质量相等感到困惑。这些后来都被爱因斯坦解决,但即便如此,牛顿理论依然是进步。
所以 AI 时代的同行评审体系要面对的问题是:即便一个理论可被证伪,如何识别它相对旧理论依然是进步?
陶哲轩
往往最终正确的理论,初期在很多方面更差。哥白尼行星模型精度不如托勒密模型。地心说历经千年打磨,加入大量修正与特设补丁,越来越精确;哥白尼理论更简洁,但精度低得多,直到开普勒才让它超越托勒密。
科学永远在发展中。只得到部分解时,它看起来不如一个错误但被修补到能回答所有问题的理论。如你所说,牛顿理论有巨大谜团:质量等效、超距作用,几个世纪后才被全新概念框架解决。
进步往往不是靠增加理论,而是删除脑中的预设假设。地心说长期统治的原因之一,是亚里士多德物理认为物体自然静止,那么地球运动的话,人类为何不会倾倒?有了牛顿运动定律(运动物体保持运动),一切才合理。
意识到地球在运动,是概念上的巨大飞跃,因为感官上毫无感觉。达尔文进化论等最伟大的突破,核心是打破 “物种静止不变” 的直觉 —— 这在一生中难以观测,看似永恒不变。
我们现在正在经历认知层面的哥白尼革命:曾经认为人类智能是宇宙中心,现在发现存在完全不同类型的智能,优缺点迥异。我们对哪些任务需要智能、哪些不需要的判断,必须大幅重构。
把 AI 塞进我们现有的科学进步、难易判断框架里,我们非常挣扎。我们必须提出前所未有的问题,或许哲学家曾经思考过,但现在所有人都要面对。
DP
这让我想到一个好奇的点。你提到达尔文进化论,有本《宇宙的时钟》讲这段历史,作者有个有趣观察:《物种起源》1859 年出版,《自然哲学的数学原理》1687 年出版。
《物种起源》比《原理》晚两百年,但概念上更简单。与达尔文同时代的生物学家赫胥黎读完《物种起源》说:“我怎么这么笨,没想到这个。”
但从没人对《原理》说过这种话,自责没抢在牛顿之前发现引力。问题是:为什么花了更久?
很大原因如你所说:自然选择的证据在某种意义上压倒性,但它是累积、回溯的;而牛顿可以直接给出方程,用月球周期与距离验证,立刻看到进展。
卢克莱修在公元前 1 世纪就提出物种适应环境,但直到达尔文才被重视,因为卢克莱修无法做实验强迫人们关注。我怀疑未来回顾时,会发现那些数据闭环紧密、易于验证的领域进步更大,哪怕概念上更困难。
陶哲轩
科学的一面不只是创建与验证理论,还有传播。达尔文是极优秀的科学传播者,用自然语言英文写作,不用方程,综合大量零散事实。进化的碎片前人已有发现,但他给出极具说服力的图景。他仍有缺失:不知道遗传机制、没有 DNA,但写作风格极具说服力,起到巨大作用。
牛顿用拉丁语写作,为了解释自己的工作,发明了全新数学领域。他所处的时代,科学家更隐秘、更具竞争性,学术界如今仍有竞争,但当年更甚。他隐瞒部分顶尖洞见,防止对手获得优势。据记载,他人格也不算友善。牛顿去世几十年后,其他科学家用更简单的语言解释,他的理论才广泛传播。
阐述、论证、叙事的艺术,也是科学极其重要的一部分。有数据固然好,但需要说服他人,否则他们不会推进、不会投入成本学习与探索你的理论。这也是很难用强化学习优化的事:如何量化说服力?整个营销部门都在尝试,或许 AI 还没被优化成极具说服力,反而是件好事。
科学有社会属性。尽管我们自豪于客观的一面:数据、实验、验证,但我们仍要讲故事、说服同行。这是柔软、模糊的部分,是数据与叙事的结合,是填补空白的叙事。
即便达尔文,理论中也有无法解释的部分,但他能论证未来会找到过渡形态、找到遗传机制 —— 而后来确实如此。我不知道如何用精确方式量化这一点,进而做强化学习。或许这永远是科学的人类部分。
三、演绎冗余
DP
我从你关于宇宙距离阶梯的内容中得到一个结论:顺便推荐大家看你和 3Blue1Brown 合作的宇宙距离阶梯系列。很多领域的演绎冗余可能远超人们想象。只要找到正确的研究思路,就能从世界中学习到多得多的信息。
我好奇这是你研究的历史时期天文学的特有现象,还是基于当前抵达地球的数据,我们本可以推导出远超现有认知的结论?
陶哲轩
天文学是最早拥抱数据分析、榨干数据每一滴信息的学科之一,因为数据一直是瓶颈,至今仍是。天文数据极难收集。
天文学家擅长从微量痕迹中提取结论,像福尔摩斯。我听说很多量化对冲基金优先招聘天文学博士,他们也擅长从随机数据碎片中提取信号。
我们确实没有充分探索如何从信号中提取额外信息。举个随机研究:有人想测量科学家引用论文时是否真的读过。怎么测量?可以调查,但他们用了巧妙方法:
很多引用有小错误,比如数字、标点错误。他们测量错误被逐一遍历复制的频率,推断作者是否只是复制粘贴引用而未核对,从而衡量人们的认真程度。这就是巧妙的提取方法。
你之前提出的问题:如何判断一项科学进展是否有价值、有趣、代表真正进步?或许数据中存在有用的指标或痕迹,我们可以分析引用、会议提及频率。科学社会学领域可以做大量研究来探测这些现象,或许真该请天文学家来做。
四、AI发现报道中的选择性偏差
DP
这自然过渡到外界眼中 AI 在数学领域的进展。你最近发文指出,过去几个月 AI 程序解决了 1100 多个埃尔德什问题中的 50 个。我不知道现在是否依然如此,但一个月前你说进入停滞期,因为低垂果实已被摘完。
首先我好奇:是否依然处于摘完低垂果实、进入平台期的状态?
陶哲轩
看起来确实如此。AI 辅助解决了约 50 个问题,很不错,但还有约 600 个待解决。现在人们还在慢慢攻克一两个。
现在纯 AI 一次性解决问题的情况大幅减少。曾经有一个月频繁出现,现在已经停止,并非没人尝试。我知道有三个独立团队尝试用前沿模型同时攻击所有问题,它们能找到微小观察,或发现某些问题已在文献中解决,但没有进一步纯 AI 独立解决的成果。
现在人们大量使用 AI:有人用 AI 生成可能的证明策略,另一个人用另一款 AI 工具批判、重写、生成数值数据、文献调研。有些问题是人类与多款 AI 工具持续对话解决的,但那种一次性成功确实是偶发事件。
打个比方:这些问题像一片布满峭壁的山区,有 3 英尺、6 英尺、15 英尺高的墙,还有英里高的悬崖。我们在黑暗中攀爬,不知道墙的高低,只能点蜡烛、画地图,慢慢找出可攀爬的部分,识别墙上可先抵达的局部路径。
AI 工具像跳跃机,能跳两米高,超过人类。有时跳错方向,有时坠毁,但有时能抵达人类到不了的矮墙顶端。我们把它们放进山区四处跳跃,曾经有一段兴奋期,它们找到所有矮墙并攻克。或许下一次模型重大突破,会再次尝试,攻克更多。
但这是不同的数学研究方式。传统数学是逐步爬坡、标记节点、识别局部进展;这些工具要么成功要么失败,极不擅长制造局部进展或识别应优先关注的中间阶段。回到之前的讨论:我们没有办法像评估一次性成败那样评估局部进展。
DP
你刚才的话可以从两种角度解读:一种对 AI 进展偏悲观,一种偏乐观。悲观角度:“它们只能爬到一定高度,不如人类能抵达的高度。”
乐观角度:它们有强大特性 —— 一旦达到某条水位线,就能解决该水位线的所有问题,而人类做不到。我们无法复制一百万个陶哲轩,给每人一百万美元算力,让他们同时研究一百万个问题、耗时百年。
但 AI 达到陶哲轩水平后就能做到;达到中等水平就能做中等规模的事。现在悲观的理由,正是未来极度乐观的理由 —— 不是达到超人类智能,只是达到人类水平,它的人类水平在广度上就远超人类。
陶哲轩
我同意。AI 擅长广度,人类(至少专家)擅长深度,两者高度互补。但我们现有的数学与科学方式聚焦深度,因为这是人类专长,人类不擅长广度。我们必须重新设计科学方式,才能充分利用 AI 的广度能力。
我们应该投入更多精力研究极广泛的问题类,而不只是一两个深刻重要的问题。深刻重要的问题依然要保留,人类继续研究。但现在我们有了新的科学方式:先用广度足够、能力中等的 AI 探索全新科学领域,完成所有简单观察,识别出难点岛屿,再由人类专家攻克。
我非常看好互补型科学的未来。最终希望同时拥有广度与深度,兼得两者优势。但我们需要在广度一侧积累经验,它太新,我们甚至没有充分利用它的范式。但我们会做到,到那时科学将变得面目全非。
DP
说到互补性,程序员发现 AI 工具让他们效率大幅提升。我不知道你作为数学家是否有同样感受,但 “感觉编码” 与 “感觉研究” 似乎有个重大区别:软件的目标是通过工作对世界产生效果,若能更好理解问题、提出干净的抽象并写入代码,就有助于达成目标。
而研究领域,我们关心千禧年大奖难题,是因为解题过程中会发现新数学对象、新技术,提升人类对数学的理解。证明本身是中间过程的工具。我不知道你是否认同这个二分法,它能否解释软件与研究领域相对提升幅度的差异。
陶哲轩
在数学里,过程往往比问题本身更重要,问题只是衡量进步的标尺。即便在软件领域,也有不同类型任务:如果只是做和上千个网页一样的页面,没有技能可学;但模板类代码,确实应该交给 AI。
有时代码写出来还要维护、升级、兼容其他系统。我听程序员说,即便 AI 能生成工具原型,让它与其他系统融合、按预期与现实交互,是持续过程。如果没有编写代码积累的技能,可能影响后续维护能力。
数学家确实用问题培养直觉、训练学生判断真伪、预期、可证性与难度。直接拿到答案,反而可能阻碍这个过程。
我之前区分过理论与实验。大多数科学中理论与实验平分秋色,数学很特殊,几乎完全是理论性的。我们重视连贯、简洁的理论,解释真伪,很少做实验 —— 比如比较两种解题方法哪种更高效。我们有直觉,但没有大规模测试一千个问题的研究。
但现在我们可以了。我认为 AI 类工具将真正革新数学的实验侧:不再那么关心单个问题与解题过程,而是收集大规模数据,看哪些方法有效、哪些无效。就像软件公司要上线一千款软件,不想手工打造每一个并从中学习,只想找到可规模化的工作流。
规模化做数学的想法还处于萌芽阶段,但这正是 AI 将彻底变革数学的地方。
DP
我觉得这类关于 AI 对科学价值的讨论,核心分歧在于:如你所说,AI 在用现有技术并做修改。很想知道,仅靠现有技术能取得多大进展。
如果看顶尖数学期刊,有多少论文提出新技术,多少是把现有技术用在新问题上?冗余有多大?把所有已知技术应用到所有开放问题,会带来知识的巨大提升,还是效果一般?
陶哲轩
这是极好的问题,我们还没有足够数据完整回答。但人类数学家的大量工作确实如此:遇到新问题,首先尝试类似问题中有效的标准方法,逐一试验。有时有效,依然值得发表,因为问题重要。
有时接近有效,只需再加一点微调,也很有趣。但顶尖期刊的论文,通常是现有方法能解决 80%,剩下 20% 顽固阻碍,必须发明新技术填补缺口。
现在几乎不可能完全不依赖文献、凭空想出所有想法解决问题。过去更常见,但数学如今已非常成熟,不先使用文献成果会极度吃亏。
AI 工具非常擅长第一步:把所有标准方法试一遍,应用错误往往比人类更少。它们仍会出错,但我在小任务上测试过,有时它们能发现我的错误,有时我能发现它们的错误,目前基本打平。
但我还没见过它们迈出下一步:当论证出现漏洞、所有方法都无效时怎么办?它们会建议随机思路,但我发现顺着这些思路追查、验证无效,往往浪费更多时间。
我们目前认为困难的问题中,有一部分会被这种方法攻克,尤其是那些关注度不足的问题。以埃尔德什问题为例,AI 解决的 50 个几乎都是几乎没有文献的问题:埃尔德什只提过一两次,有人随意尝试但未成功,也没写论文。
但解法确实存在,只是把一种少有人知的冷门技术与文献中另一项结果结合。这是 AI 能达到的中等水平,已经很棒,清理了 50 个问题。所以你会看到一些孤立成功。
但我们发现:有人大规模扫描埃尔德什问题。如果只看成功案例、社交媒体宣传,效果惊人 —— 几十年未解的问题纷纷被攻克。但系统性研究显示,对任意给定问题,AI 工具成功率只有 1%~2%,只是靠规模取胜,再挑选成功案例,看起来很厉害。
未来几百个高难度著名数学难题也会类似:某个 AI 可能幸运解决,找到所有人忽略的后门,引发大量宣传。但人们用这些高级工具解决自己关心的问题时,又会遇到 1%~2% 的成功率。
有效与无效之间会有大量噪音。收集标准化数据集将越来越重要。现在已有团队建立 AI 挑战标准问题集,而不是只依赖 AI 公司公布成功案例、隐瞒失败结果,这会让我们更清楚当前所处位置。
DP
不过值得强调:AI 已经能把没人记录过适用于某问题的技术应用上去,这本身已是巨大进步。
陶哲轩
这种进步既惊人又令人失望,使用这些工具的感觉很奇怪。而且人们适应得极快。
我记得 20 年前谷歌搜索刚出现时,碾压所有其他搜索引擎,首页直接给出精准结果,非常震撼。几年后,我们就把谷歌搜索当成理所当然。
2026 年的 AI 放在 2021 年是震撼的:人脸识别、自然语音、求解大学数学问题,现在我们都习以为常。
五、AI 让论文更丰富、覆盖面更广,但不会更深刻
DP
说到 2026 年的 AI,你在 2023 年预测:到 2026 年,AI 会像数学领域的一位同事?
陶哲轩
用得好的话,是可靠的合著者。
DP
现在回头看,预测相当准。
陶哲轩
是的,我很满意。
DP
那继续这个预测:你个人因为 AI 效率提升一倍,你觉得会是哪一年?
陶哲轩
效率很难用单一维度衡量。我明显感觉到自己做数学的风格在改变,研究内容也在变。比如我的论文现在代码更多、图表更多,因为生成这些变得极易。过去要花几小时的图表,现在几分钟搞定;换作以前,我可能根本不会把图表放进论文,只用文字描述。所以很难衡量 “两倍” 是什么意思。
一方面,如果没有 AI 辅助,我今天写的这类论文肯定要花五倍时间。但我不会用过去的方式写论文。
DP
五倍?
陶哲轩
对,但这些是辅助任务:更深入的文献调研、补充大量数值结果,它们让论文更丰富。我工作的核心 —— 解决数学问题最困难的部分 —— 变化不大,我依然用纸笔。
但有很多琐碎工作:我现在用 AI 代理重新排版,比如括号大小不对,过去手动修改,现在 AI 代理能在后台完美处理。
它们大幅加速了大量次要任务,还没有加速我工作的核心,但让我能给论文增加更多内容。同样地,如果我重写 2020 年的一篇论文 —— 不添加新功能,只保持同等功能 —— 说实话并没有节省太多时间。AI 让论文更丰富、覆盖面更广,但未必更深刻。
DP
你区分过人工机智与人工智能,我想更好理解这两个概念。什么是不只是机智的智能?举个例子。
陶哲轩
智能众所周知难以定义,属于 “一见便知” 的东西。当我和别人合作解决数学问题时,对话是这样的:一开始没人知道解法,其中一人提出有希望的想法,形成初步策略,测试、失败、修改,想法不断自适应、持续改进。最终系统梳理无效与有效路径,看到前进方向,整个过程随讨论不断演化。
AI 目前还不是这样。它们有点模仿,但回到跳跃机器人的类比:它们跳、失败、再跳,但无法跳一点、抓住支点、停留、拉别人上来、再从那里起跳。没有交互式累积过程,更多是试错与重复、暴力穷举。它能规模化,在某些场景效果极好,但从局部进展中累积构建的能力仍然欠缺。
DP
有意思。你是说,如果 Gemini 3、Claude 4.5 之类解决了一个问题,它对数学的理解并没有进步。
陶哲轩
没有。
DP
即便它处理问题但没解决,它对数学的理解也没有进步。
陶哲轩
对。新开一个会话,它就忘了刚才做过什么,没有在相关问题上积累新技能。你刚才做的事,可能只占下一代训练数据的 0.001%,或许最终会吸收一部分。
六、如果AI解决了一个问题,人类能从中获得理解吗?
DP
我有个大问题:如果我们持续训练 AI,让它们越来越擅长用 Lean 解决问题,它们会不会解决越来越多重磅问题,而我们惊讶于:从 Lean 证明黎曼猜想这类成果中,得到的洞察少得可怜?
还是你认为:即便 AI 完全用 Lean 解决黎曼猜想,必要条件是 Lean 程序中创造的构造与定义必须提升人类对数学的理解?还是可能只是一堆无法理解的汇编代码?
陶哲轩
我们不知道。有些问题基本靠纯暴力解决,四色定理就是著名例子。我们至今没有找到概念优雅的证明,或许永远不会有。有些问题可能只能靠拆分海量情形,用计算机做无洞察的暴力分析。
我们珍视黎曼猜想这类问题,部分原因是确信必须创造全新数学,或建立数学领域之间前所未知的连接,才能解决。我们不知道解的形状,但感觉它不会靠穷举情形解决。
当然也可能是错的:存在小概率场景,猜想不成立,只要算出一个离线零点,用大规模计算验证即可 —— 那会非常令人失望。我确实认为完全自主、一次性的方法不适合这类问题,人类与工具协作会有效得多。
我能想象:聪明的人类借助极强 AI 工具解决其中一个问题,但具体模式可能与我们现在想象的完全不同,是一种尚未存在的协作方式。
或许可以生成一百万个黎曼 ζ 函数变体,用 AI 辅助数据分析,发现未知模式,把问题转化到另一个数学领域。各种可能性都存在。
DP
假设 AI 找到解法,Lean 代码中隐含全新构造 —— 一旦意识到其重要性,就能广泛应用。我们该如何识别?
这是个很朴素的问题:比如笛卡尔提出坐标系,统一代数与几何,在 Lean 代码里看起来只是 R→R,并不显眼。肯定还有其他具备这种潜力的构造。
陶哲轩
用 Lean 这类工具形式化证明的好处是:可以把任意片段拆出来原子化研究。我读一篇解决难题的论文,通常有一连串引理与定理,理想情况下作者会说明哪些重要、哪些只是标准步骤,但有时不会。
你可以孤立研究每个引理:有些看起来很标准,似曾相识,确定没有新意;但另一个引理前所未见,而且能看出它对证明主结论至关重要。你可以判断一个步骤是否是论证的关键,Lean 极大方便了这一点,每个步骤都被精确定义。
我认为未来会出现一类数学家:他们拿到巨型 Lean 生成证明,做消融实验,尝试删除部分内容、寻找更优雅方式,用其他 AI 做强化学习让证明更优雅,再用另一批 AI 评估证明优劣。
不远的将来,论文写作方式会大幅改变。直到不久前,写论文还是最耗时、成本最高的工作,所以很少做,只有论证所有环节验证完毕才会撰写,因为重写与重构极其痛苦。现在有了现代 AI 工具,这变得容易很多,论文不必只有一个版本,有了一版,可以生成上百版。
一个巨型杂乱的 Lean 证明本身可能意义有限、难以理解,但其他人可以重构、加工。埃尔德什问题网站就是如此:AI 生成证明,给出 3000 行验证代码,然后有人用其他 AI 总结证明,有人写出自己的证明。
这是后处理:一旦有了一个证明,我们就有大量工具解构、解读。这是数学的新兴领域,我并不太担心。有人担心黎曼猜想被无法理解的证明解决会怎样,但我认为:一旦有了证明这个产物,我们就能做大量分析。
七、我们需要一种半形式化语言,来描述科学家真实的交流方式
DP
你最近发文说:比起 Lean 擅长的数学证明,我们更需要一套形式化或半形式化语言来描述数学策略。我想更多了解这会是什么样子。
陶哲轩
我们其实不知道。数学很幸运,已经理清逻辑与数学规律,但这是较近的成就。欧几里得两千年前开启,但直到 20 世纪初,我们才最终列出数学公理 ——ZFC 标准公理、一阶逻辑公理、证明的定义。这部分我们已经实现自动化,有形式化语言。
我们还需要评估可信度的方法:提出猜想,测试几个例子成立,可信度如何提升?我们有贝叶斯概率等数学建模方法,但往往需要设定基础假设,仍有大量主观性。
提出这类语言更像一个愿望,而非成熟计划。但看到 Lean 这样的形式化框架成功让演绎证明更容易自动化与 AI 训练,就知道其价值。用 AI 生成策略、提出猜想的瓶颈是:必须依赖人类专家与时间检验来验证可信度。
如果有半形式化框架能半自动完成这件事,且不容易被钻空子…… 形式化证明助手至关重要的一点是没有后门,不能绕过证明直接拿到认证,因为强化学习太擅长找后门。
如果有框架能模仿科学家半形式化的交流方式,用数据与论证,也构建叙事…… 科学中有主观部分,我们还不知道如何捕捉,让 AI 有效介入。这是未来问题,已有研究尝试自动生成猜想,或许可以做基准测试与模拟,但都是非常新的科学。
DP
能帮我建立直觉吗?我有两个小问题:第一,举个具体例子,说明科学家现在能交流、但无法形式化的内容。
第二,说一边构建叙事、自然语言解释,一边又能形式化,这在定义上似乎矛盾。我相信背后有直觉交集,很想理解。
陶哲轩
举个猜想的例子:高斯关心素数,创建了最早的数学数据集之一,计算前 10 万个素数,寻找模式。他确实找到模式,但不是预期的模式:统计模式 —— 数到 100、1000、100 万的素数数量越来越稀疏,密度下降与数域自然对数成反比。
于是他猜想出今天的素数定理:小于 X 的素数个数约为 X 除以 lnX。他无法证明,完全数据驱动。这在当时是革命性的,可能是数学史上第一个重要的统计型猜想。传统猜想关注具体模式,比如素数间距规律,而它不给出精确数量,只给出越来越精确的近似。
它开创了解析数论领域,是众多同类猜想的开端,很多后来被证明,巩固了 “素数无固定模式、近似随机集” 的观念。它们有模式(几乎全是奇数),但并非真随机,而是伪随机,生成过程没有随机数,但长期来看,把素数当作 “上帝掷骰子生成的随机集合” 来研究,越来越有成效。
这让我们做出大量预测。数论中仍有开放问题孪生素数猜想:存在无穷多对相差 2 的素数(如 11 与 13)。我们无法证明,也有合理原因,但基于素数统计随机模型,我们绝对相信它成立。如果素数由抛硬币生成,像无限猴子定理,孪生素数会反复出现。
我们长期基于统计与概率,建立了极其准确的素数行为概念模型,大多是启发式、非严格的,但极度准确。少数能严格证明的结果,与素数随机模型的预测完全吻合。我们拥有这套人人信服的猜想性概念框架,这也是我们相信黎曼猜想、相信基于素数的密码学安全的原因,都源于这份信念。
事实上,我们关心黎曼猜想的原因之一是:如果黎曼猜想不成立,将严重冲击这个模型,意味着素数存在我们未知的秘密模式。我们会迅速放弃所有基于素数的密码学 —— 因为有一个未知模式,就可能有更多,这些模式会导致密码系统被攻破,冲击巨大。所以我们真心不希望发生这种事。
我们长期相信黎曼猜想这类结论,部分来自实验证据,部分来自少数理论结果始终吻合。共识可能错误,我们可能都忽略了基础事实,科学史上发生过范式转移。但我们没有办法衡量这一点,部分原因是我们没有足够的数学与科学发展数据,只有一条历史时间线,约 100 个转折点故事。
如果我们能观测一百万个外星文明,每个都有不同顺序的科学发展历史,或许就能很好地衡量什么是进步、什么是好策略,甚至开始形式化、建立框架。或许我们需要创建大量迷你宇宙或模拟,让 AI 解决算术等基础问题,形成自己的策略,用这些小实验室测试。有人研究能做 10 位乘法的最小神经网络等问题,我认为从简单问题上进化小型 AI,我们能学到很多。
八、陶哲轩如何分配时间
DP
你必须快速且深入地学习新领域,达到前沿贡献水平。从某种意义上说,你也是世界上最顶尖的自学者。你学习数学新分支的流程是什么?
陶哲轩
我们之前谈过深度与广度,这不只是人类与 AI 的区别。人类也分两类,柏林所说的刺猬与狐狸:刺猬精通一件事,狐狸通晓万事。我显然把自己归为狐狸。我经常和刺猬合作,必要时我也能当刺猬。
我一直有点强迫症倾向:读到某件事,觉得自己有能力理解,但不懂原理、感觉有魔力 —— 有人用我不熟悉的数学方法得到我想证明的结果,我做不到,但他们做到了,我想知道他们的诀窍。别人能做我觉得自己能做的事,我却做不到,这让我难受。我一直有这种强迫、完美主义倾向,甚至不得不戒掉电脑游戏,因为一开始就想通关、打穿所有关卡。这是我学习新领域的方式之一。
我和很多人合作,他们教我不同类型的数学。我和其他领域的数学家交朋友,觉得他们的问题有趣,他们就教我基础技巧、已知与未知内容,我从中学到很多。
我发现写下所学内容很有帮助。我有博客,有时记录学到的东西。年轻时学会一个酷炫技巧,心想 “我会记住”,半年后就忘了,只记得自己曾经懂,却重构不出证明。前几次经历让我非常沮丧,我下定决心:学到任何酷炫的东西都要写下来。博客就是这么来的。
DP
你写一篇博客要多久?
陶哲轩
我经常在不想做其他工作时写,比如审稿报告这类当时有点讨厌的事。写博客感觉有创造性、有趣,是为自己做的事。
看主题,快则半小时,长则数小时。因为是自愿做的,写的时候时间飞逝,不像行政任务那样枯燥。顺便说一句,这类任务现在 AI 帮了大忙。
DP
如果人类文明能从第一原则决定如何使用陶哲轩的时间这一有限资源,最大的不同是什么?如果在无知之幕背后决定如何使用你的时间,和现在相比,这个播客就不会存在了。
陶哲轩
尽管我抱怨某些不想做但必须做的任务…… 在学术界职位越高,责任越多、委员会工作等。我也发现,很多因为义务勉强参加的活动,因为走出舒适区,往往带来与平时不会交流的人的互动,比如你。我会学到有趣的东西,拥有有趣的经历,获得前所未有的社交机会。
所以我非常相信偶然性。我会仔细规划一天中的部分时间,但也愿意留出一部分时间做不常规的事。可能浪费时间,也可能学到东西。大多数时候,我会得到计划外的积极体验。
我很相信偶然性。现代社会或许存在危险 —— 不只是 AI—— 我们太擅长优化一切,却不优化 “优化” 本身。比如新冠期间,我们大量转向远程会议,一切都被安排,学术界依然忙碌,见面人数几乎与线下相同,但所有事都要提前计划。我们失去了走廊里随意敲门、喝咖啡偶遇的机会。这些偶然互动看似不优化,却极其重要。
我读研究生时,去图书馆找期刊论文,必须实体借阅、阅读,偶尔会发现下一篇文章也很有趣,有时不会,但会偶然发现有意思的东西。现在基本消失了:想读一篇论文,直接搜进搜索引擎或 AI,立刻得到想要的结果,但失去了低效浏览带来的意外收获。
我曾在高等研究院待过一年,那里非常棒,没有干扰,只做研究。前几周效果极好,写完积压已久的论文,长时间思考问题。但待超过几个月,就会灵感枯竭、无聊,上网时间变多。
生活中确实需要一定程度的干扰,带来足够的随机性与 “高温”。我不知道最优的生活安排方式,但目前这样似乎有效。
九、人机协作模式将长期主导数学领域
DP
我很好奇:你预计什么时候 AI 能做出至少与顶尖数学家同等水平的前沿数学?
陶哲轩
在某些方面,它们已经在做人类无法完成的超智能前沿数学,但和我们习惯的前沿不同。可以说计算器早就做了人类无法完成的前沿数学,但只是数值计算。
DP
但完全取代陶哲轩。
陶哲轩
我是说,你想要我做什么?
DP
你之后还能上所有播客。
陶哲轩
这个问题可能问得不对。我认为十年内,数学学生现在做的大量工作 —— 我们花费大部分时间做、写进今天论文的内容 —— 都可以由 AI 完成。但我们会发现,那其实不是我们工作中最重要的部分。
一百年前,很多数学家只是解微分方程:物理学家需要某个系统的精确解,雇佣数学家费力做微积分,解出流体方程等。19 世纪数学家的大量工作,现在调用 Mathematica、Wolfram Alpha、计算机代数包,或最近的 AI,几分钟就能解决。但我们前进了,转向了不同类型的问题。
计算机出现后,“计算机” 曾经是人类职业,人们费力制作对数表、像高斯那样计算素数,现在全都外包给计算机,但我们前进了。
遗传学领域,过去测序一个生物的基因组,是遗传学家的整个博士课题,小心分离染色体;现在只要花 1000 美元送测序仪就能完成。但遗传学并没有消亡,研究尺度变了,从个体转向整个生态系统。
DP
我明白你的意思,但什么时候大部分、甚至几乎所有数学进步由 AI 完成?如果今年发现某个千禧年大奖难题被解决,你会认为 95% 概率是 AI 自主完成的。肯定会有这么一年。
陶哲轩
我确实认为人机协作模式将长期主导数学领域。这需要现有技术之外的额外突破,所以是随机的。目前 AI 非常擅长某些事,另一些极其糟糕。尽管可以叠加更多框架降低错误率、让它们更好协作,但感觉我们还没有拥有真正能替代所有智力任务的全部要素。
目前是互补,不是替代。因为当前水平的 AI 会从很多方面加速科学,希望新发现与突破更快到来。但也可能因为破坏偶然性而抑制某些类型的进步。现阶段一切皆有可能,世界非常难以预测。
DP
对考虑从事数学职业、或处于数学职业早期的人,你有什么建议,尤其结合 AI 进展?他们应该如何不同地规划职业?
陶哲轩
我们身处变革时代,如我所说,尤其难以预测。数百年来理所当然的事情可能不再成立。不只是数学,我们做所有事的方式都会改变。在很多方面,我更偏爱无聊、平静的时代,与 10 年、20 年前差不多。但必须接受即将到来的巨大变化。你学习的东西,有些可能过时或被革新,有些会保留。
必须始终关注前所未有的机会。数学领域,过去需要多年教育、拿到数学博士学位才能参与前沿研究;现在,高中生就有可能借助 AI 工具、Lean 等参与数学项目,做出真正贡献。
会有大量非传统学习机会,需要高度适应的心态。依然有空间为好奇心、探索而学习。你仍然需要学历,传统教育、用传统方式学习数学与科学在一段时间内依然重要。但也应该对全新的科学方式保持开放,有些甚至还不存在。这是令人不安的时代,也是极度激动人心的时代。
DP
这是很好的结尾。陶哲轩,非常感谢。
陶哲轩
我的荣幸。
参考资料
https://www.dwarkesh.com/p/terence-tao
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。





- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2026 上海东方报业有限公司




