下载客户端

2026.5数学未来研讨会系列——菲尔兹圆桌讨论主题：价值体系

2026-06-01 10:42

来源：澎湃新闻·澎湃号·湃客

听全文

FMS（Future of Mathematics Symposium）“数学未来”研讨会，于2026年5月1日至2日在斯坦福大学举行。本文为菲尔兹圆桌讨论全文，研讨嘉宾为迪尔德丽・哈斯凯尔（Deirdre Haskell，菲尔兹研究所所长）、玛丽娜·维亚佐夫斯卡（Maryna Viazovska，2022年菲尔兹奖得主）、陶哲轩（2006年菲尔兹奖得主）、拉维・瓦基尔（Ravi Vakil，美国数学会主席）。

人工智能和形式化方法的双重革命正在改变数学。世界知名的数学家、计算机科学家和人工智能研究人员齐聚一堂，举办一系列专题讲座和专题讨论。研讨会将探讨机器学习、形式验证和前沿推理模型如何开始重塑数学实践。参与者将探索人工智能在纯数学和应用数学中的创新应用，揭示人工智能作为证明助手、协作者和数学发现引擎的新兴时代。这是一个关键时刻，可以塑造该领域的未来。

本次研讨会由斯坦福大学HAI、SISL联合主办，并与数学未来研究所（FMI）合作，并得到文艺复兴慈善Renaissance Philanthropy、BroadRiver Asset Management、OpenAI和KeyBank的支持。

作者：斯坦福数学未来FMS（Future of Mathematics Symposium）研讨会 2026-5-2

译者：zzllrr小乐（数学科普公众号）2026-5-31

开场人：

贾里德・杜格尔・利克曼（Jared Duker Lichtman，斯坦福大学助理教授）

最后一场研讨将以圆桌讨论形式展开，由哈斯凯尔（Deirdre Haskell）主持。她同时也是菲尔兹数学研究所的所长。

主持人：

迪尔德丽・哈斯凯尔（Deirdre Haskell）

感谢贾里德。正如刘易斯所言，我们打算在这场收官研讨中，和在座各位杰出数学家一同探讨价值体系相关话题。我们珍视什么？人工智能时代下，数学领域的价值评判标准正在发生怎样的转变？

几天前我草拟了一些问题，听完此前所有报告后，部分问题需要稍作调整，但我还是会依次展开探讨。传统而言，我们非正式交流探讨数学时，格外看重数学直觉与洞察力。猜想往往归功于提出者，例如存在朗兰兹纲领这类大型研究项目。但现行体系并不认可这类成果，我们只嘉奖完整的证明、学术论文与研究结论。

至少传统上，仅提出研究思路、规划研究框架的论文很难得以发表。如今形势显然即将变化，各类报告都提及AI能够辅助完成定理证明，这套评判激励体系势必迎来变革。

该如何调整数学成果评价激励机制？调整的利弊如何？

陶哲轩，你在报告中对此已有深入阐述，不妨由你率先发言。

陶哲轩：

我不重复此前讲过的内容，但人类数学家必须提升自身能力。过去完成一篇定理证明论文，只需罗列定理、标注参考文献、附上证明过程，再辅以一页简短论述便可定稿，这也是常规学术论文的普遍标准。

如今我撰写论文时，会增加大量分析论述，补充如今极易获取的数值演算内容，文献检索也做得更为详尽。同时我会进一步延伸思考，提出更多以往需要耗费大量精力才能钻研的问题。

整体而言，这是循序渐进的演变过程，无需颠覆论文撰写、成果署名评定的固有模式。我们可以稳步优化论文质量，现在我参与的论文常达到五至十人合著规模。为此我们也借鉴了自然科学的行文规范，增设贡献说明板块，每位作者清晰列明自身负责的工作内容。以往数学界默认所有合著者对整篇论文全部内容负责，如今团队协作模式愈发复杂，有人负责数值运算，有人调试AI指令，有人执笔成文。我们可以借鉴科学界过往的转型经验，从容适应变化。

数学人才招聘评审与研究生教育体系的变革

主持人：还有哪位想谈谈看法？玛丽娜？

玛丽娜：

我们的工作模式必然会改变，但具体走向我还不清楚。学术发展不止关乎论文产出，职业发展路径同样关键，后者甚至更为重要。拥有稳定教职后，研究者便能随心开展研究，行事尺度相对宽松。

但我认为数学文化的定义，取决于青年学者对从业方向的认知。

主持人：

这实际上非常重要，这是他们需要做的、他们认为他们需要做的，这是文化的一部分。体系引导着年轻人的努力目标，这套固有认知未来也将迎来变动吗？拉维，你来聊聊吧。

拉维・瓦基尔：

我认同大家的观点，行业只会逐步演变而非彻底革新，但改变已然到来，研究者的从业初心也随之产生变化。招聘评审环节将会涌现诸多新探讨，我们需要重新界定人才评判标准。

我认为我们的基本原则未曾改变，坚守的理念始终如一，但成果呈现形式、评判侧重点，正如陶哲轩所言，都会有所调整。不少问题本就该尽早做出优化。我相信多数评审团队能够合理应对变化，不过受团队理念差异影响，部分院系会做出不同决策，会做出奇怪的决定，以及尝试一些实验，他们会随决策优劣而发生兴衰，尤其因为新颖而做出糟糕决策。

当数学家们用新的但不全新（取决于你如何看待）的方式证明定理时，如何对其评估影响招聘，但和立场迥异的同事深入探讨后，我的想法也常会随之转变。

陶哲轩：

除却人才招聘，研究生教育体系也亟待重新评估。如今用于培养研究生成为优秀数学家的习题，很多AI都能够顺利解答，这已然成为现实问题。

之所以成为问题，是因为当下学界过度看重论文发表与初期成果产出，我们需要调整培养研究生的文化。布置的习题即便可以借助AI解答，也要求学生独立完成。如何顺利完成这份观念转变，是我们亟待解决的问题。

主持人：

既然是循序渐进的变革，我们是否会更加看重内容阐释与解读能力，而非单纯完成命题证明？

陶哲轩：

确实如此，阐释解读依旧是人类相较于AI的优势领域。数学成果的受众目前仍是人类，遥远未来或许会出现AI之间交互研究的场景，但现阶段并非如此。

正如威廉·瑟斯顿所言，数学研究的意义不止于破解难题，并非只为完成量化指标、刷新年度定理产出数量。我们更希望向他人阐释数理逻辑。过去攻克证明难关是首要目标，内容解读长期处于次要地位，如今恰好迎来改善契机。

拉维・瓦基尔：

我深表赞同，内容阐释在过往就很重要，我们本就该更加重视。在指导博士生的过程中，我最深的教育心得便是锤炼学生的思维能力。透彻理解知识，才能清晰讲解知识；讲解知识的过程，又能反过来深化自身理解。

有个事实是，部分研究者数学原始功底不相上下，但其中有的人擅长讲故事、做出解释、表达观点，有的人却难以阐述自身想法，二者差距十分明显。出色的表达能力能够推动数理科学发展，现在如此，未来仍将如此，这一能力如今我们愈发重视，之所以更加关注，是因为我们剥离了一些表面的装饰。

关于这些问题，我认为陶哲轩提到的观点非常关键。我们给学生布置的问题，AI均可解答，研究生训练模式随之面临风险。最终能成功的学生将是那些真正具备坚韧毅力、独立完成任务并思维训练良好的人。我们布置问题的原因就是锻炼思维，这和计算器普及的道理相通，计算工具便捷高效，但培养数感依旧必不可少。

我们设立基准测试的原因，就是让大模型和人类解答相同问题，但目的不同。给孩童布置算术习题，目的是锻炼思维；计算器算出答案，体现的是技术进步。同理，竞赛题、本科习题、高中练习题，人工智能都能作答。危险在于有人会认为：太好了，我再也不用学这个了。我不需要学习科学了，因为我可以随时问AI任何科学问题。不需要学习科学思维，也不需要历史思维。

类似地，在研究生阶段，我们常布置“玩具问题”（toy problem），这个说法至少提过一次。设计优质的玩具问题就是一门艺术。其价值就在于琢磨它，甚至未必要解出答案。因此我们必须做出改变，从心理层面强化学生的能力，就像我们强化小孩子的能力，即便计算器存在，也仍需学习乘法运算。

数学论文署名方式与借鉴其他学科

主持人：陶哲轩，你提到了成果署名问题，以及多人合著论文中划分工作贡献的方式。你是否认为这类标注方式应当全面普及？

陶哲轩：

总体而言，我认为提高透明度，如实梳理论文创作全过程、公开贡献细节，会带来诸多益处。当合作规模超过一定程度，比如5人以上时，就很难维持“所有人参与所有工作”的表象。或许这与论文阐述方式有关。一篇论文可以有15位作者，但其中有多少人能真正能够当众讲解论文、答疑解惑、吃透全部内容？未来，解读阐释能力会比单纯的证明推演能力更具价值，或许所有演讲都会被记录下来。如今数学家的声望，既源于其学术成果，也源自报告宣讲与思想表达方式。重视内容阐释和清晰提炼和解释能力，也能妥善化解成果归属判定的难题。

现场观众补充：

有个极佳范例，就是人类基因组计划采用的公平数据准则，同样可以应用于形式化数学研究。这套准则包含可检索、可访问、可兼容、可复用四大特性，不局限于数据范畴。数学研究如今的发展模式，堪比数学版基因组计划。依托这套准则，便能精准追溯成果出处。其他领域成熟的规范体系，值得数学界借鉴参考。

关于数学教育和数学教学的问题

主持人：

我们应当向其他学科学习。接下来聊聊教育教学相关话题。拉维此前谈及研究生教育，我们将视角下沉至中小学、本科阶段。

或许我们天真地认为，我们的研究生都清楚，研习习题是为锻炼思维，理应杜绝直接借助人工智能找答案。但低学段，无论小学、中学、本科，各类习题均可由人工智能解答，学生很容易贪图省事，放弃独立思考。因此我认为教学需要做出调整，侧重锻炼解题思路、观点表达、逻辑论证的批判性能力。但教学时长有限，新增内容的同时，我们该删减哪些知识板块？

玛丽娜：

抱歉，刚才说我们会增加什么内容？

主持人：

我们会将焦点放在问题解决、观点交流以及批判性的逻辑论证。若要教授这些，哪些现有内容需要放弃？

玛丽娜：

但这些内容我们不是已经在教了吗？难道不是吗，我不确定。

主持人：

希望如此。

陶哲轩：

原则上，借助新技术，可以在不同阶段教授不同部分。解答数学应用题，分为消化题意、分清所有变量、制定解题策略、确定采用何种代数变换、运算推导多个步骤。现在一个优秀的“老师”可能会说，我来替你完成所有的计算。你精通算术与代数运算，但你不擅长构建问题模型。智能辅导工具可以针对性分工，协助完成演算步骤，让学生专注构思解题思路。依托这类智能工具，能够实现精准化教学，根据学生短板定制学习方案。不同的学生可以针对各自的薄弱环节进行训练。

拉维・瓦基尔：

我完全赞同。数学学科的处境相较其他专业更为缓和，但正因为我们尝试传递的很相似。正如玛丽娜所说，这不正是我们已经在做的吗。至少在理想状态下，这已涵盖在我们现有工作中。但特别的是，我们的职责包括育人。我们追求的教学目标始终没变，只是教学形式、考核方式需要优化调整，不意味着要改变评分和评估体系。

数学学习离不开攻克长期复杂难题，学习者常会陷入思维困境。现在的问题是，我们始终依赖短时间内测试都替代指标，它们并不完美，只能间接评判能力，评判本身本就存在局限性。

日常作业无法杜绝人工智能作弊的情况，学生可以自主选择独立钻研或是借助工具。心智成熟的学生会借助AI工具补齐短板，懈怠的学生则难以得到能力提升，考核阶段便能显现差距。

只要考核与发展机会向健康思考的学习者倾斜，教学便能稳步推进。论文写作极易借助AI完成，这类长期能力也很难通过短时考核评判。只要秉持严谨的教学思路，学生需要掌握的核心知识不会发生大幅变动，只是学习路径、考核形式有所调整。

但我们希望学生能够拥有数学思维、算法逻辑、数值推演、编程应用这些素养。纯粹数学与应用数学的划分本就相对模糊，我们可以借着变革契机，聚焦核心教学目标。我们应该将其视为一个机会，专注于我们希望学生理解的内容。

玛丽娜：

或许我可以再补充一点，我认为数学核心授课内容无需大幅改动，现有知识体系足以满足你提到的各项能力培养需求。但当然新的问题会涌现，例如如何评估学生。

我每周都会布置课后作业，优秀学生能够独立完成，收获完整学习成效；也有部分作业行文风格明显出自ChatGPT之手。当然如果学生只是通过指令，确实令人遗憾。直接索要答案的行为难以管控核查。

不过或许他们只是借助ChatGPT梳理解题思路、核对作答内容。本科生心智成熟，应当从自身长远发展角度规范学习行为。我们必须相信他们会做出最有利于自己的选择。

陶哲轩：

或许需改变的一种文化观念是，我们应该更开放地鼓励犯错并拥有失败的自由。传统数学考核体系向来严苛，对错直接划分分数等级，致使学习困难者开始隐藏，不愿暴露错误，这时转而依靠工具走捷径获取答案。

但如果我们营造包容试错的学习氛围，将失误视作学习契机作为指向正确解题的路径，或许就会很健壮。这样学生便不会一味依赖AI寻求标准答案，因为他们真想参与这个学习过程。如果能将解题和从失败中恢复的过程变得有趣，许多问题就会迎刃而解。

主持人：

在我看来这完全是一种高度个性化的体验。要与学生合作并说服他们，让他们理解失败是学习过程中不可避免的一部分，实际上需要师生一对一互动。面对三百人的微积分大班课堂，很难实现针对性指导。我认为本科教学模式或许需要彻底革新，深度互动式教学难以适配大规模授课场景。不知您是否认同这种观点？

陶哲轩：

理论上AI助教程序可以缓解这一难题。简易互动设备已经能够实现大班课堂互动，全员搭载AI聊天机器人后，便可快速完成个性化学情调研。

新模式探索需要勇敢地尝试，初期效果或许不及传统教学，积累经验后便能打造成熟可行的教学范本。

主持人：

还有你提到的评估问题，在这个作业成为某种形式的时代，批改作业变得毫无意义。因为学生为取得高分投机取巧，学习初衷沦为分数至上而非真正掌握知识。你能想象某种方式优化考核机制，引导学生潜心求知而非追逐分数？

玛丽娜：

我不确定，我认为某种程度上，学生确实渴望学习知识，否则为何选择这个特定领域？

主持人：

那么您教授微积分的那些大一工科学生呢？他们会不想学吗？

拉维・瓦基尔：

我认为精心设计的常规测试依旧具备考核价值，备考过程本身就能巩固知识。

线下闭卷考试是有效的考核方式或许可以恢复，全程禁止电子设备使用，杜绝智能工具作弊，规范更严格的考核机制能够约束学生行为。AI也可协助批改试卷，或许很快就能完美胜任这项工作。

所以我认为如果考试设计得当，即使分数驱动，也仍可通过合理的评估方式引导学生端正态度。如果他们想学，我确信大多数学生都渴望学有所获，这时精心设计的考核就能起到引导作用。我想这些都是教学领域的老问题了，数百年间教育领域始终在应对各类考核难题。

陶哲轩：

也可以设计更具创意型拓展作业，允许借助AI完成复杂任务。例如代数课程中，设计融入代数元素的桌游，答对问题就能得分。自主制定游戏规则，借助AI创造3D打印的卡牌、代币等配套道具。

这类创意项目以往很难直接布置给随便一个高中生，因为实在太过宏大，但这类非常复杂的项目或许可行，其复杂度无法依靠AI工具一键生成，能够调动学生钻研热情。当然这个并非适合所有人，有些学生可能会望而生畏。或许这是个好课题，可能更容易被接受。

主持人：

这对授课教师提出了更高要求。

陶哲轩：

确实如此，如今AI时代，所有从业者都需要精进自身能力，这也是当下的核心趋势。

玛丽娜：

不过根据我和学生的交流发现，当大家日常频繁接触电子设备后，黑板板书、纸质演算、口头汇报这类传统授课形式，反而更具吸引力。我认为在某种程度上，当我们走进教室时，确实缺少那些基础元素。

教室里有一位导师，你可以与他交谈，而这位导师是真实的人类而非AI，我认为这方面仍然存在希望。

主持人：

为了获得分数，我绝对会选择口头报告。但这会耗费大量时间。

玛丽娜：

也许对于300人的工程课不适用，但对某些课程而言，这实际上是一种很好的训练方式，从人类大脑的角度，何乐而不为呢？

人工智能伦理与抄袭界定

主持人：

OK，我想把话题转向一个可能截然不同的角度，即关于伦理的思考，探讨AI剽窃界定问题。目前有很多讨论说，AI依托海量人类知识库训练生成内容，这类创作行为是否构成抄袭？这与人类的学习方式，二者数据规模差距悬殊，本质上是否不同？

陶哲轩：

通常人类引用过往文献的方法思路，如果他们受过专业训练，创作时都会主动标注出处，遵循学术规范。

AI无法识别自身输出内容的文献溯源，引用过往研究成果时不会主动标注。或许这个问题可以通过更好的提示词或成本验证等方式解决，但AI确实有时并未意识到自己正在使用文献中的已有技术。这些技术通过训练被AI吸收消化，然后又从另一头输出。

短期内的折中办法，是在AI生成期刊论文后，额外开展人工文献溯源核查，最好由行业专家凭其记忆甄别内容出处。但论文产出量成千上万飞速增长后，溯源核查的难度也会大幅增加。

短期内期刊很可能直接拒收AI占比高的文稿；如若收录，则坚持要求作者必须尽到勤勉核查观点来源的义务，目前尚未形成完善的溯源规范。

玛丽娜：

技术层面不难实现内容检索、参考文献匹配，毕竟AI已经遍历了整个互联网，它们在网络检索方面表现优异，最终能生成优质的参考文献列表，或帮我查找相似论文。可能我这个想法错了，但这看起来是个技术可解的问题。从伦理角度，它该被解决，我也有望尽快落地。

拉维・瓦基尔：

我并没有多少补充，认同上述观点。观察法律界的应对也很有趣。论文署名的人类作者，需要对全部内容承担责任，这一点和法律行业使用AI工具的准则一致。因此我认为这将会成为常态，当使用AI时，不能以AI生成内容为由规避学术责任，不当使用工具会损害个人学术声誉，同样会产生某种软实力方面的后果。

对于行为不当者，这些后果往往可能不会受到惩处，但有时仍会引发相应后果，这会涉及声誉影响。关键在于，只要论文由人类签署且人类需承担责任，我们就会看到与人类现有情况类似的现象，不同个体的声誉存在优劣之分。

在此情境下，声誉将取决于他们使用AI的负责程度。因为若AI未标明出处，过错在于人类，生产论文的人类完全应当负责核查来源。不难通过提示词就能尝试追溯内容来源。因此我认为尽管现行社会监督体系并不完善，但仍可适用于此。

陶哲轩：

但这也可能让行业滋生灰色数学学术文稿，大量智能生成的真伪定理混杂在正统研究成果中，其他学科也曾遭遇同类乱象，这可能也是我们的未来。

拉维・瓦基尔：

我认为确实如此，这正是我们审稿流程面临的真正风险之一。可能会出现这种灰色论文市场，海量灰色文稿涌入期刊审核环节后，编辑会直观拒收疑似AI生成的内容。部分极具价值的突破性证明，也可能因行文风格被误判驳回。但面对海量论文时，我认为期刊这么做可能是正确的。灰色市场的论文还会流入营利性掠夺性期刊，进入文献体系，被收录进学术文库后，情况就会越来越糟，最终我们将陷入某种可怕的反乌托邦。

主持人：

好吧，既然话题如此悲观，接下来我们可以开放现场提问。

Q&A 问答环节

现场观众1问：

我有两个简短的问题，我想反转一下关于伦理和引用的问题。问题1：如何引用那些新提出的观点？问题2：大语言模型如何引用其他大语言模型产出的内容或自己的旧版本提出的新观点？

陶哲轩答：

我认为我们的引用范围，包含正式论文、预印本、博客论述、会议私下交流内容，AI产出内容同样可以依规引用。

我的近期论文中，就标注过AI推导的结论。公开说明使用情况，远比隐瞒信息更为妥当，即使披露内容看起来有些怪异。我甚至也曾引用麦当劳商业广告内容，虽然它没有直接启发某个偏微分方程的解，其逻辑思路和数学解题思路存在相通之处。

现场观众2问：

陶哲轩此前提出一个深刻问题：数学的本质是什么？在我看来，数学就像文本语言，是对客观世界高度抽象的符号语言。计算机领域如今兴起世界模型研究，融合视觉数据、状态安全环境等多元数据，不再局限于文本运算。这类模型能否助力数学探索？例如发现新颖性、具有好的品味和审美判断，甚至支持推理等等。你认为这对数学发现有启发吗？

陶哲轩答：

我并非世界模型的专家，但它们尚未迎来chatGPT时刻，即展现出重大潜力的阶段。如果它们到了这个阶段，和大语言模型会各有优劣。正如你说，数学研究高度依托语言逻辑，可以想象某些模拟类问题，例如求解一个偏微分方程，或许这些模型有些用处，我认为这是个非常新的领域。

现场观众3问：

我想再聊回教学话题，可能不算提问而是评论，但很想听听各位的见解。教学的艺术一方面要激发学习动力，结合重要的开放难题、课堂上实操科学实验，另一方面是清晰地阐述解释内容，但如今AI可以清晰讲解几乎所有本科阶段各类知识，教师是否可以专职负责激发学习动机，说明学习这门学科的意义，并激发学生的学习热情？

玛丽娜：

目前AI讲解的准确性我不确定，我不确定我们是否已经到达这种阶段。举个案例，我儿子有时用Gemini检查高中微积分作业，结果有一半的次数给出错误答案。AI还可能容易误导某些主题的理解让学生困惑。常有学生拿着AI解析的内容求教，知识点和课堂所学偏差较大。有时的确AI准确，但并非总是如此。

激发学习热情确实至关重要，不同学科可能有所差异。但就数学而言，有位同行的观点我十分认同，教师的口头教学，是向学生展现人类钻研数学的能力，以自身言传身教。学生亲眼目睹后，或许会因此受到激励而投身数学。

主持人：

从某种有限意义上说，这是一种榜样作用。

陶哲轩：

维基百科也能讲解各类知识，但教师可以针对性梳理重点、剖析核心要义。因此重要的不仅是知识的广度，更在于内容筛选与侧重点把控，这是教学不可替代的核心价值。

现场观众4问：

我想探讨合规证明的判定标准。举例来看，迈克・弗里德曼（Mike Friedman）证明（四维）庞加莱猜想时，正式论文仅留存证明纲要，他在伯克利大学连续多日（12小时或者72小时）开展研讨，论证思路获得业内专家认可，也凭此斩获菲尔兹奖，数十年后才有学者出了本《脱嵌定理》The Disc Embedding Theorem完善完整证明细节。他的一系列演讲，以及其他数学家撰写的专著，这些都算是证明过程的产物，对吧？

如果观察佩雷尔曼（Perelman）对庞加莱猜想的证明，以及几何化定理，那算是完整证明吗？只是一个猜想证明框架。当时有3个数学家团队耗费心力补充完整论证过程，可以说贡献出新的研究思路，在某种程度上也属于原创贡献，但学术荣誉仍归属于佩雷尔曼，他得了菲尔兹奖，被认为是解决该猜想的人，尽管实质上得益于其他数学家对其思想的完善。

部分数学家（如让·布尔甘Jean Bourgain）的论文行文简略、细节缺失，研读时需要耗费大量精力梳理逻辑，这些论文在技术层面上确实很难读懂；在读格尔德·法尔廷斯的论文时，我也有这种类似感觉，对我的技术性要求太高了，所以我得付出更多的认知努力。如果读格罗滕迪克的EGA（《代数几何基础》），会发现它的内容更成体系，细节更丰富。

因此我的问题是，可以想象这样一个场景，某个霍奇猜想的10亿行Lean证明，后续研究者谁来解读剖析？付出大量无偿劳动梳理完善证明的学者往往无法获得相应认可，或许他们的工作能让证明更清晰，但成果荣誉大多归于最初提出证明思路的研究者。

我的梦想是，我对代数闭链很感兴趣，期盼相关猜想得以证明。不过重申一下，我并非一个专业数学家，我认为我的观点无足轻重。但我可以想象，某位青年代数几何学者的思路，有可能被大型实验室抢先完善论证，但证明不够严谨，他们不得不耗费大量时间来解读证明，却难以收获学术认可。

主持人：

这里涉及诸多问题，而我们剩余讨论时间有限，不妨选取一个角度展开回应即可。

陶哲轩：

你提到的让·布尔甘，我在研究生阶段时通过尝试研读他的论文获益颇丰。虽然当时我很恨它，至今我还留着一篇他的论文，上面写着“我恨让·布尔甘”。但正是通过这种方式，我掌握了他的研究技巧，这些技巧让我随后的十年受益匪浅。

而学术成果归属并非二元的非黑即白，是个错综复杂的问题。我们掌握的信息越多，披露得越充分，引用越多，我认为我们就能以更有机的方式评估各自的贡献。但我们必须摈弃“X是第一个完成Y的人”作为唯一评判标准，从而不再是个问题。而替代方案将会繁琐得多。

现场观众5问：

数学证明中的一个常见现象是，证明最终成文，往往和研究者最初的直觉思路差距极大。存在性证明只需罗列满足所有条件的数值即可，构造出这个数字的过程和直觉思考，大多往往被省略而不会记录。

这类思考素材对AI学习极具价值，能够助力AI优化推演逻辑，产出更易消化理解、贴合人类思维的证明过程。我想请教各位见解，是否应当鼓励研究者记录思考全过程，提升AI的消化理解这些证明的能力？

陶哲轩：

这本质上是个激励的问题。你可以试着鼓励数学家们头戴摄像头做数学，记录下全过程，但他们为何要这样做？这仅对他人训练AI有益，而对数学家自身毫无裨益。这个建议虽是开玩笑，但我认为我们需要让AI送到研究生院，亲自经历这个学习过程。

现场观众6问：

我是本校大三学生，对今天成绩评估的讨论感兴趣。如今数学和工程专业出现作业分数上涨、考试成绩下滑的现象，校方因此大幅提升期末考试占比，权重达到45%至50%。

我很好奇您如何看待未来评估方式的发展方向。如何优化考核模式，包容试错行为？能否增加低权重的小测频次，或是课堂实操解题、课外阅读考核相结合？但我更想了解您对未来评估体系的想法。

拉维・瓦基尔答：

我先来说说，她的观点确实很好。

我确实认为作业价值更低，考试价值更高的原因，并非为了分数，而是基于简单事实：现在的习题集。不同学生在习题集上做法方式不同，有些同学通过与难题搏斗获益更多，有些同学虽提交完美答案却未经思考而获益较少。

因此如果我能设计一门理想课程，理想状态应该是：

首先，习题集应该允许试错失败。遗憾的是，只有最优秀的学习者，我说的不是那种最聪明的，但具备最佳学习态度、能在长远发展中取得成功的学生，才能利用好这些习题集。这是他们首次面对失败的机会，是与知识交锋的时刻，从而认清自己的知识盲区。

习题集以及课程的目标都并非追求满分，真正的目标在于掌握知识。通过习题集，你获得了与知识搏斗的机会。那些主动来办公室讨论的学生，即使他们借助AI学习也无妨，只要他们自主思考中挣扎学习。顺带说一下，那些仅与AI交流的学生，我十分确信AI现在并不能很好地完成教学任务，但我对两年后的发展无法作预测，毕竟技术变革日新月异。因此习题集应该成为允许失败的第一关。

其次，我认为持续的小型评测确实是最理想的方案。

第三，你们可能会遇到这样的情况，接下来我细说两句。100%看期末考试成绩的旧英国模式确有缺陷，临场状态会极大影响成绩，如果考试当天生病，那就太糟糕了。如今提升期末考核占比，不是太让人高兴的事，也是应对作业诚信问题的无奈之举。

配合期中考核能够分散压力，督促学生稳步学习，避免考前突击备考，但每安排一次期中考试，就要耗费一些时间。不过我认为你所问的正切中根本，也是我们必须回答的，你们提出这些问题，是因为渴望掌握知识，希望保持学习动力。而每周都有任务意味着你们无法靠最后临时抱佛脚。与其直接给出一个解答，不如深思一下。这类考核优化问题，也是师生共同探讨的核心议题。

陶哲轩：

加州大学洛杉矶分校推行限时复测考核，作答错误后锁定答题权限，间隔48小时左右，方可重新尝试，作答次数不受限制，仅耗费时间成本，这样就降低了失败的代价，学生不会急于借助AI工具作答，而是愿意自主尝试解题，因为他们的成绩不受影响。

支持人：

本次研讨第二次超时5分钟了。感谢所有圆桌嘉宾，为期两日的学术交流圆满落幕。我们提出诸多深刻问题，聆听多场精彩报告，由衷感谢贾里德与刘易斯筹办本次会议。诸多疑问尚未得出定论，相关探讨仍会持续推进。

参考资料

https://www.youtube.com/watch?v=78Rjdz1SPYM

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报