下载客户端

AI人工智能时代的数学方法与人类思维——陶哲轩与Tanya Klowden合著（未删减版）

2026-04-03 13:38

来源：澎湃新闻·澎湃号·湃客

近日，陶哲轩与谭雅·克罗登（Tanya Klowden）合著的《AI人工智能时代的数学方法与人类思维》出炉，这是陶哲轩近20年再度撰写的哲学类长篇论文，是为《布莱克威尔数学哲学指南》撰写的完整特稿的未删减版（另有精简版将收录于该指南，即将出版），并已上传至 arXiv 平台。

作者：陶哲轩（Terry Tao） & Tanya Klowden（谭雅·克罗登）2026-3-30

译者：zzllrr小乐（数学科普公众号）2026-3-31

本文写作背景介绍（陶哲轩博客自述）

我与谭雅·克罗登（Tanya Klowden）已将预印本《AI人工智能时代的数学方法与人类思维》上传至 arXiv 论文平台 https://arxiv.org/abs/2603.26524 。本文是为即将出版的《布莱克威尔（Blackwell）数学哲学指南》撰写的特约稿件完整版。我极少撰写哲学类的长篇论文（上一篇或许要追溯到 2007 年），但鉴于当下AI人工智能与数学形式化成为热门议题，且这一话题已引发人们对数学的本质、价值与实践方式的根本性追问 —— 数学究竟是什么，又该成为什么，我认为此刻探讨这些问题恰逢其时。显然，其他数学家近期也有同感：比如阿维加德（Avigad）的最新研究 https://arxiv.org/abs/2603.03684 ，以及科梅林（Commelin）、亚姆尼克（ Jamnik）、落合健太郎（Ochigame，暂译名）、泰尔曼（Taelman）与文卡特什（Venkatesh）合著的论文 https://arxiv.org/abs/2603.24914 ，这两篇成果均在近几周内发表。

这篇论文的撰写耗时逾一年 —— 而以当前AI人工智能领域的发展速度来看，文中部分内容已略显滞后。尽管如此，对我们二人而言，这次写作仍是一次极具启发的尝试：我们试图跳出当下人工智能与形式化工具带来的具体技术问题，以历史上的技术革新为借鉴，指出随着这些工具的能力不断提升、并深度融入数学研究领域，我们终将直面的一系列哲学问题。我们并不自诩能为大多数问题提供定论，但正如数学研究本身的逻辑：探索的第一步，是提出问题，而后在求解之路上逐步推进（或至少厘清哪些思路行不通，排除错误的研究方法）。我们认为有一点尤为值得强调：无论在数学领域还是其他领域，看待人工智能工具与应用时，都不应仅停留在技术层面，关注其解决了哪些微观问题、效率与效果如何；更应站在宏观的人文视角，审视这些技术究竟如何从整体上造福（或损害）人类社会、人类共同的知识体系与认知能力，以及我们这个物种的发展。

本文的初稿篇幅远超期刊的投稿限制，且探讨范围也超出了数学哲学的范畴，延伸至人工智能整体的哲学与伦理问题。这份精简后的版本将收录于上述即将出版的论文集，而我们决定把内容更详实的原版发布在 arXiv 平台，供读者参考。

1 引言

在撰写本文的过程中，作者使用的标准工具中，有不少于三个不同的数字智能体未经请求便强行介入了文本的编写 [注1]。这足以证明人工智能（AI）技术是何等迅速地渗透到了数字生活的每一个角落。人类正站在一场以史无前例的速度展开的数字工业革命的门槛上。在物理科学领域，AI 的进步已经促成了诺贝尔奖级别的研究成果 [1]；而在人文学科领域，人们则充满担忧，认为现代 AI 的文本生成能力可能导致该学科的消亡 [2]。正如语言翻译工具为文化交流和国际合作敞开了大门，随之而来的却是大量深度伪造（deepfakes）和垃圾信息（slop）泛滥，充斥着我们的数字第三空间。AI 很快从一种新奇事物，变成了一项至关重要的资源，并在某些情况下，成为了眼下切实存在的生存威胁 [3]。

[注1]：所有这些 AI 的“贡献”都已从正文中被迅速删除。

1.1 我们对人工智能的定义

在本文中，AI 指的是旨在执行日益复杂的认知任务（包括许多过去只能由人类专属完成的任务）的各种计算机工具。AI 工具极其多样，既包括当今数据驱动的机器学习（ML）技术（例如能够处理复杂文本的大语言模型（LLMs），或是能够生成图像及其他媒体的扩散模型），也包括更传统的“经典人工智能”（GOFAI）（例如自动定理证明器或国际象棋引擎），后者可以通过应用精确的数学规则来解决狭窄范围内的问题。

1.2 本文的目的

关于这些工具能做什么或不能做什么的讨论已经不胜枚举；但相比之下，关于这些工具为何被如此迅速地开发和部署，或者它们如何影响数十亿在研究和教育、工作、娱乐甚至休息中与其互动的生命，却鲜有讨论 [4]。本文的作者来自通常被视作截然对立的两个学术领域：数学和艺术研究。但我们发现，在日常工作中将各种 AI 工具融入我们各自迥异的研究领域是大有裨益的，并且在现实世界使用 AI 所引发的那些非常棘手但又普遍的哲学问题上，我们找到了惊人的一致性。以数学为模型，我们将探讨将 AI 融入常规工作流程的益处、风险、伦理和结果，并将这些观察扩展到更广泛的现实应用中。尽管这些新的、且未必在道德上保持中立的技术带来了风险，但我们仍从两方面主张应该在数学及其他领域中开发、实施和应用 AI 工具：它们有潜力彻底增强人类的自然能力；同时它们能够突破我们个人或集体能力的极限，拓展可能性的边界。结合我们自己使用这些工具的经验，我们特别审视了人机交互界面，并对这些技术的演变提出了建议。我们希望这种演变能为人类带来更多的益处而非伤害，并在未来 AI 发展所承诺的新模式下，重视人类思想和行动所做出的独特贡献。

1.3 浮士德式（Faustian）的交易

市场竞争的激励推动了 AI 技术的狂热发展，并以大幅加速工作流程和节约成本的愿景吸引了整个行业。这种竞争带来的“囚徒困境”迫使许多个人和组织尽可能仓促地试验性采用这些工具，而牺牲了对这种采用在经济、社会或道德上的成本和收益进行更深思熟虑的评估——甚至牺牲了更根本的思考：我们最初究竟为什么要开发这样的技术。因此，我们在事实上已经集体与这些技术达成了一场“浮士德式的交易”，赋予它们越来越多的访问我们数据、认知工作流和决策过程的权限，以此换取它们承诺的能够以更高效率、更少枯燥劳作完成更广泛任务的能力。

理论上，技术在道德上是中立的；它既能赋能积极的应用场景，也能促成消极的应用场景。但正是通过这种赋能，它加剧了现有的道德困境，并制造了新的困境。例如，二战期间针对战俘进行的惨无人道的医学研究，产生了关于人类忍耐极限的挽救生命的数据，这就引发了在开发新医疗进步时使用此类数据是否合乎伦理的难题 [5]。虽然不如前者那般骇人听闻，但用于训练当前这一代 AI 工具的数据和知识产权的模糊来源，在今天可以说是引发了类似的问题 [6]。

当一项技术发展得足够缓慢时，人们有可能在其被广泛部署之前，对其进行必要的哲学对话和辩论；干细胞研究就是一个显著的例子。然而，现代 AI 技术已经被广泛部署，而且没有任何切实可行的方法能将“魔鬼重新收回瓶子里”；具有讽刺意味的是，如果在此时实施严格监管，将会不成比例地扼杀 AI 更具积极意义的应用案例（如加速科学研究），却无法消除该技术中更加浪费或恶意的应用。从实用主义的角度来看，关于 AI 的讨论现在已经转向如何管理与这些技术的共存：评估 AI 的成本与收益（无论是在学术领域，还是在更广泛的社会中），并确定以尽可能积极的方式使用 AI 的最佳实践和框架，同时抑制（许多）可能因不良使用这些工具而贬低我们认知成就的可靠性与价值的行为。

2 历史对比：这次有所不同吗？

2.1 过去自动化技术的整合

自动化当然不是一个新现象。许多过去的技术也已经能够将在以前分配给人类的任务自动化，从而在某些情况下消除或大大减少了对某些类型人类工作的需求，同时又创造或增加了对其他类型工作的需求。例如，在科学界内部，曾发生过“相变”，由于新工具具有显而易见的优势，人们广泛且迅速地转向了这些新工具（例如互联网、用于科学计算的计算机的使用，甚至诸如 LaTeX 这样不起眼的排版语言）。但是，这些过去的技术大多影响的是职业的次要方面，例如研究结果的交流和传播，而不是这些结果的创造本身。并且，虽然由这些工具自动化的任务需要专门的培训和专业知识才能执行，但它们通常不需要理解该职业中更具哲学意味的层面，例如知识、美、意义或道德的本质 [7]。

当然，此类技术仍然可以引发关于哲学话题的讨论——例如，一件原创艺术品是否具有机械复制无法恰当捕捉的内在审美或创造性特征，或者工业革命造成的劳动力流失带来了哪些道德和伦理影响——但它们并不被认为是在挑战这些讨论背后的基本哲学假设。例如，印刷术的发明彻底改变了信息和思想的交流，但它并没有显著改变人们对“思想或信息究竟是什么”的理解；这些内容的最初生成仍然是由人类的有意行动来完成的。

2.2 现代人工智能

但是，现代 AI 可以将很大一部分创造过程本身自动化，从而能够大规模生成智力产品，例如艺术品、数学证明，或是科学及哲学理论，而其所需的人类监督远少于以前 [注2]。这在这些产品的外在形式与用于创造这些产品的价值体系和思维过程之间，造成了前所未有的脱钩（decoupling，解耦）。

例如，一个扩散模型现在可以创造出一幅赏心悦目的风景画，这幅画并没有直接受到物理世界中任何特定地点的启发，尽管无数真实风景的图像（以及许多与风景完全无关的图像）无疑被用来训练该模型的输出；因此，这幅图像唤起的审美反应，就与这种审美的原始来源脱钩了。

这无论如何都不是什么新的哲学领域。关于一个被编程来用中文交流的机械装置是否真正理解这门语言的问题，塞尔（Searle）的“中文房间”（Chinese room）思想实验 [8] 可以追溯到 1980 年。大约在同一时期，“AI 效应”也得到了认可；例如，在能够通过机械探索博弈树而“无脑地”击败国际象棋大师的国际象棋引擎出现之前，下好国际象棋的能力曾被认为是衡量智力的一个好标准。而在那之后，用于测试智力的“国际象棋测试”在很大程度上被放弃了。著名的“图灵测试”（即 AI 是否能以一种与人类无法区分的方式进行对话）类似地也已经被现代大语言模型（LLMs）有效通过（例如参见 [9]），从而失去了其作为人工智能“黄金标准”的昔日地位。有关更近期的讨论，请参见 [10]。

就目前而言，我们仍然可以指出某种属于“基础性”理解的标志——例如连贯地解释和捍卫导致一件新艺术品、数学证明或其他智力产品诞生的创作过程的能力（或缺乏这种能力），将其作为一种仍然可行的测试，以区分人类内容和 AI 生成的内容。但是，如果未来的 AI 世代也以某种方式设法令人信服地通过了此类测试，我们是否必须再次改变对“什么是智力、理解和创造力”的评判标准？诸如数学和人文学科等学科的定义、价值和目标是否需要被重新评估？我们又该赋予这些日益复杂的 AI 工具怎样的地位——它们将是助手、合著者，还是本身就是独立的创作者？如果是这样，我们又该如何对待它们生产的内容，以及导致这些内容产生的智力过程？

[注2]：目前的工具通常仍然需要人类生成一个初始提示词（prompt）供 AI 遵循，但这个过程本身现在在很大程度上也可以被自动化了。

3 作为 AI 应用沙盒的数学

关于人工智能，诸如此类的更广泛的哲学问题是极其复杂且多层面的。当然，我们并不奢望对其中任何一个问题给出决定性的解答；而且这个领域的变革速度极快，以至于我们做出的任何声明都面临着被令人惊叹的技术新进展所取代的风险。然而，无论是在纯粹的数学推理领域，还是在现代数学分析于人文学科中新兴的应用领域，我们都可以从数学世界中提供一些视角。

我们将数学视为探索诸如“AI 对整个科学（以及整个社会）的影响”等宏大问题的一个合适的“沙盒”（sandbox），因为它拥有更古老、更高级的基础，并且就其本质而言，它非常适合用来探索各种与现实相反的假设性抽象场景。我们希望，从将 AI 整合（或不整合）到数学中所汲取的教训，能够为“AI 将如何与一般科学及社会产生互动”提供更广阔的视角。

前沿的 AI 模型现在已经能够解决日益复杂的数学问题，并提供可被独立验证的证明，而无需直接重现人类数学家解决问题的实践过程（例如先测试特殊情况，然后再从这些例子中进行推广），尽管其训练数据中会包含以这种传统方式生成的证明；因此，数学家将越来越多地遇到这样一种情况：证明定理的能力，与发现和理解这些证明所需的推理过程脱钩了。这加剧了现代数学中已经存在的去中心化趋势；在一个极其广泛的应用领域都需要高级数学的世界里，由一个中央权威机构来规定数学正统实践的“布尔巴基时代”（Bourbaki era）[11] 已经过去几十年了 [注3]。

[注3]：尽管有人可能会争辩说，目前正在进行的、旨在创建大型统一形式化数学库的项目（如 Lean 的 Mathlib 项目），可以被视作布尔巴基学派努力的现代继承者。

在目前的技术状态下，最先进的 AI 工具仍然表现出明显且常常令人匪夷所思的弱点；它们在某些任务上能够实现卓越甚至超越人类的表现，但在另一些任务上，它们又同时展现出令人啼笑皆非的、基本的误解和错误程度。数学也不例外。AI 生成的数学在表面上可能看起来完美无瑕——这是意料之中的，因为这些模型被设计为尽可能生成在视觉上接近人类正确证明的输出——但同时它们又会犯下根本性的错误（例如断言所有的奇数都是素数），而这种错误在人类数学家训练的早期阶段就已经被纠正了，并且这往往会使得最终的论证变成无可救药的胡言乱语。

但与此同时，这种自上而下（top-down）、主要侧重于生成看起来不错的输出，而不是侧重于传统上创造此类输出所需的基础认知过程的方法，可能会出奇地有效；同一个经常犯低级数学错误的 AI，也可能神秘地以高于人类专家的准确率得出复杂数学问题的正确答案，甚至提供一个奇怪但在技术上正确的证明来证明该答案是有效的。

现在人们正投入大量精力，以尽可能地减少或消除 AI 的这些弱点；通常，这并不是通过直接增强 AI 对任何给定智力任务的内在“理解”来实现的，而是通过将此类 AI 工具置于一个由独立测试、训练和验证组成的严格环境中，以此来降低错误的数值发生率。完全自主的 AI 目前仍然无法解决深奥的数学猜想，但在不久的将来，此类 AI 工具极有可能会在这些方面极大地协助人类数学家，即便我们仍然会犹豫是否将这种协助描述为真正智能思想的表达。尽管如此，在数学这样一个充满智慧的学科中，这种机械且容易出错的方法能够（或很快就能）生成如此多该学科传统的“质量标志”，这一事实表明，我们必须重新评估我们关于“什么是智能或创造力”以及“如何衡量它们”的模型了。

4.1 数学与证明的标准

数学 [注4] 拥有客观证明标准的悠久传统，从欧几里得开始，并在 20 世纪初由于稳定且（在经验上）安全的数学基础的出现而得到完善。有人指出（例如参见 [13]），对这些基础几乎普遍的接受，赋予了现代数学一种罕见且珍贵的能力，即对该领域中任何给定论证或断言的有效性达成共识，因为（原则上）人们可以坚持要求将这些论证极其详细地阐述出来，以便检查每一个单独的步骤是否都是对标准公理和数学逻辑推理规则的正确应用。一个典型的例子是 Nelson [14] 在 2011 年声称皮亚诺公理（Peano Axioms）在逻辑上是不一致的；这是一个非常偏离数学主流的断言，然而，人们却能够通过指出该论证中一个微妙的缺陷来解决这个问题，Nelson 欣然接受了这一点并撤回了该断言。

[注4]：在这里，我们对数学到底是什么的概念保持模糊。例如，人们可以采取规范主义的观点，使用 Davis-Hersh [12] 对数学的定义，即“对具有可重复性质的心理对象的研究”。或者人们可以采取描述主义的观点，即数学就是数学家在实践中实际进行的活动。我们在这里的讨论更倾向于后者。

然而，在实践中，人类数学家的论证往往达不到完美严密证明的理想状态；文献中大大小小的错误很常见，其中一些通过正式的勘误表或修订得到纠正，而另一些则被忽视，或作为该子领域的“民间传说（folklore）”非正式地流传。在启发式上看似合理的论证通常只需经过最少的检查就会被接受，而违背传统智慧的令人惊讶的断言则会遭到强烈的怀疑，即使这些论证在逐行阅读后最终被证明是正确的。

4.2“嗅觉测试”

到目前为止，这种状况还算令人满意；遵循良好启发式方法和直觉的人类数学家往往能得出令人信服的、总体正确的证明，其中大部分错误是可以修复的；而缺乏这种直觉的数学家往往会得出包含足够多表面问题的证明，以至于在人们仔细检查之前就有理由对其内容产生怀疑。非正式地讲，人类生成的数学论证往往带有一种“气味” [注5]，经验丰富的数学家（也许是下意识地）利用这种气味来获得他们对该论证有多大说服力的初步印象，而这远在他们能够检查该论证的各个步骤之前。例如，Aaronson [15] 的博客文章“声称取得数学突破却证明是错误的十个迹象”列出了一些表现出这种“难闻气味”的常见论证例子，人们在找到所提出论证中具体的逻辑缺陷之前很久就能察觉到它们。而且并非所有的错误都具有同等的灾难性；有些错误甚至可能具有一些有益的价值，例如在能够完全验证它之前揭示了一条有希望的路径 [16]。

[注5]：我们使用这个感官比喻，类比了软件工程中“代码异味（code smell）”的概念。

正如 Thurston [18] 所指出的 [注6]，良好“气味”的一个组成部分，是感觉到某个论证正在提供理解或洞见；它不仅仅表明某一组假设在逻辑上必然推导出给定的结论，而且还提供了一个因果叙事，说明这种必然推导是如何成为可能的，论证的哪些部分承担了“繁重的工作”，与以前的文献相比哪些部分是新颖或令人惊讶的，哪些部分是常规的技术考虑。对数学文本的此类解释和印象通常没有被严密数学的官方框架（如一阶逻辑或集合论）所捕获；但它们对于让人类数学家在阅读论证时汲取更广泛的教训，了解人们将如何期望这些论证推广到其他环境，或与文献中的其他方法相互作用而言，是必不可少的。这种叙事结构也有助于增强对论证稳健性的信心；计算中一个放错位置的符号可能会使冗长的数学论证无效，但如果证明在如何系统地隔离和解决论证中的关键困难方面有明确的策略，并遵循文献中以前成功论证的类比，那么就可以更有可能在忠于原始证明精神的同时修复论证中的局部错误。

[注6]：另请参阅第二作者的文章 [17]，该文章认为“好”的数学，无论其最初如何定义，在实践中往往倾向于融入更广泛的数学叙事，例如结构与随机性之间的二分法，或者代数探索几何问题（反之亦然）的能力。

4.3 形式化能来救场吗？

有几项发展可能会迫使数学界重新评估这种半形式化的证明标准。其中之一具有技术性质：随着数学的成熟和变得更加复杂（且日益依赖计算机辅助），论证变得越来越长、越来越复杂，某些领域的前沿论文通常长达百页以上，这使得人类审稿人逐行进行验证变得越来越繁重。在实践中，这意味着这种仔细的检查并不总是被执行的，除非是最引人注目和最重要的结果，这导致人们越来越（过度）依赖前面提到的“嗅觉”来评估数学论证的可信度。

似乎可以通过技术手段解决（或至少改善）此类问题，特别是通过更广泛地部署形式化证明助手（如 Lean 或 Rocq），如果数学论证以某种精确的计算机语言编写，它们可以自动检查数学论证的有效性 [19]。目前，这种形式化仍然过于繁琐而无法系统地部署（将传统的、非形式化编写的证明转换为这种形式语言，通常比最初编写该证明多花费大约五到十倍的时间），但目前正在进行重大努力，使该过程变得更快、更人性化，例如通过整合 AI 工具来实现部分（甚至可能是完全的）“自动形式化（autoformalization）” [20]。

4.4 形式化验证的局限性

但是，即使这些技术问题得到解决，并且数学证明经常附带正确性的形式化验证，也会出现几个新问题，特别是在不久的将来，越来越复杂的论证可能部分或完全由 AI 工具生成。首先，形式化验证仅仅证明一个形式化论证确立了一个形式化的数学陈述，但并不排除在形式化陈述和原始预期陈述之间的翻译错误。例如，费马大定理断言，对于任何大于 2 的自然数 n，方程 aⁿ+bⁿ=cⁿ 没有自然数解 a, b, c；但这个非形式化描述中隐含的惯例是自然数从 1 开始而不是从 0 开始。一个被指派解决这个问题的 AI 可能会错误地假设 a, b, c允许为零，并在此基础上产生一个（经形式化认证的）证明，证明费马大定理是错误的！因此，虽然形式化原则上可以显著减少对非形式化数学文本进行仔细人工审查的需要，但它并不能完全消除这种审查的需要 [注7]。

[注7]：甚至在理论上，数学本身也可能被“黑客入侵”，方法是巧妙地篡改标准形式化数学库（如 Mathlib）中关键定义的格式化；参见 [21]。具有讽刺意味的是，数学研究日益协同化、社交化和大规模化，虽然总体上是一个非常积极的发展，但也可能增加对此类攻击的潜在脆弱性，而在以前主要由少数个人组成的群体进行数学研究的时代，这并不是一个重大问题。

其次，即使在高等数学的纯抽象环境中，给定论证中也只有一部分可以用易于形式化的演绎逻辑类型来表述。虽然演绎证明仍然是大多数数学工作的关键核心，但在这个核心周围还存在着启发式、经验性或元数学推理的半影区（penumbra），它提供了有关“为什么该论证有效”、“它是否可以扩展到其他背景”、“探索这些问题的动机是什么”以及“人们如何根据更基本的原则重建该论证”的宝贵信息。由人类编写的证明就其本质而言，倾向于将这种半影区有机地作为写作过程的一部分提供（特别是如果作者擅长阐述）；但是，一个专门针对形式正确性标准进行训练而牺牲所有其他考虑因素的 AI，可能会产生“无气味”的证明，这些证明在表面上类似于写得很好的人类证明，甚至可能通过形式化验证测试，但却让人感到奇怪地不满足——在字面上实现了建立给定数学主张的明确目标，但在有关该主张所属的更广泛数学领域方面产生的洞见却远少于预期。在一个所有生成的媒体都被 AI 打磨得熠熠生辉的世界里（包括具有精美排版和清晰的 GPT 生成的解释的数学证明），如果放弃更加肮脏、混乱的手写（或至少是手工打字）文本世界，是否会失去什么？

4.5 对早期挑战的适应

数学界已经适应了之前技术对其证明标准的挑战。大型计算机辅助证明，例如四色定理 [22] 或开普勒猜想 [23] 的证明，最初极具争议，因为完全用手工检查是不切实际的；但随着时间的推移，针对这些类型的论证确立了建立信心的新标准，例如提供可复制的代码、将论证的计算部分隔离在具体明确陈述的引理中（独立于论文中更具概念性的方面），以及提供额外的相关数据和“校验和（checksums）”以检查计算机生成的计算是否符合各种“合理性检查（sanity checks）”。实际上，这些发展将数学的证明标准推向了自然科学的方向，在自然科学中，理论论证和经验实验在经过适当设计、执行和报告时，都是科学真理的可接受来源。

4.6 AI 辅助数学的演变

随着重要的 AI 辅助或 AI 生成的数学的到来，也会发生类似的演变 [注8]。产生经过验证的演绎证明的负担可能越来越落在计算机而非人类的肩上，证明也正在越来越多地被重构 [注9] ，从而使得以前那些为了人类可验证而精心安排的繁琐计算越来越多地外包给软件工具。例如，数学中那些臭名昭著的短语，如“证明留给读者”或“通过标准论证，我们有”，将转而被替换为对 LLM 的调用，由其生成既人类可读又可被计算机验证的、支持此类主张的理由。随着自动形式化的进步，探索给定论证如何随着数学基础的具体选择而变化也将变得明显更加容易，从而允许在严格讨论和探索数学结果的同时，探讨该结果的元数学（metamathematics）[注10]。

[注8]：我们在这方面的思考受到了其他数学家关于此主题的观点的启发，包括 [24]、[25]、[16]、[26]，以及 [27]、[28] 中的更广泛讨论。

[注9]：有关这种重构的几个具体例子以及对这些发展的进一步探索，请参见 [29]。

[注10]：这种元数学的一个例子是一个定理的逆向数学（reverse mathematics，即反向数学）（例如，参见 [30]），它试图理解实际需要数学的哪些公理（例如选择公理或排中律）来确立给定的结果。传统上，一个结果的逆向数学只在该结果的原始证明之后的许多年才会被探索，并且需要具备逻辑方面的专门训练以及该定理所在的数学子领域的领域专业知识。

与此同时，未来的人类数学家可能会将更多的焦点和注意力放在数学推理中“更软”的方面，例如追求某个结果的启发式思考和动机，或者为该结果选择证明策略，支持（或反对）该结果的实验证据 [注11]，或者导致发现可行论证的试错过程。这些方面不像演绎证明那样容易进行自动验证和测量，因此不太适合强化学习等机器学习策略 [注12]。可以想象，职业数学家可能会越来越多地采用其他学科（如理论和实验科学，甚至人文学科）的论证模式 [注13] ，以额外类型的推理（如实验数据的统计分析，或在已确认的数学结果和非严格的哲学原则指导下的推测性理论化）来支撑其核心的演绎论证。从历史上看 [注14]，数学家一直不愿意偏离严密演绎证明的“黄金标准”太远，部分原因在于当人们不再坚持这些标准时，会产生许多显而易见的低质量数学例子 [注15]；但在未来，当证明可以以一种高度受信任的方式被自动生成和验证时，可能就会有更多的机会来安全地探索这种更广泛的数学推理和讨论模式。

[注11]：特别是，鉴于 AI 越来越能够“猜测”哪怕是极其复杂的数学问题的答案，而没有任何类似于严密证明的东西，因此越来越有必要制定标准程序，以负责任的方式在数学文献中引用和纳入这种未经证实的猜测。

[注12]：将数学研究过程的这些方面自动化的另一个障碍是相对缺乏数据；已发表的文献倾向于关注结果的成功证明，而牺牲了详细说明导致此类证明的过程（通常相当丰富且微妙），包括形式化和非形式化的过程。

[注13]：特别是，人们可以预见在未来的数学研究中会有越来越多的劳动分工：虽然所有数学家都应大致熟悉提出、确立然后解释数学结果的不同阶段，但任何一位给定的数学家可能会越来越多地专门从事该过程的几个方面，例如，专注在研究小组更资深成员的指导下利用 AI 助手来证明结果，或者专注于使用人类数学家和 AI 助手结合产生的最新文献来提出新的探究方向。

[注14]：例如，Jaffe 和 Quinn [31] 先前提出的系统开发“理论数学”领域的提案遭到了职业数学家的普遍拒绝，引发了包括前述 Thurston 的文章 [18] 在内的多次反驳。

[注15]：Kim [32] 借用货币的隐喻来描述这种社会动态：职业数学家需要通过证明困难的新数学结果来积累一些可信度的“货币”，然后他们才能“负担得起”将这些货币“花”在推测性的活动上，比如提出猜想或对某结果的更广泛影响进行哲学思考。

这些新技术也可能对数学的长期目标产生重大的负面影响。在教育层面，我们已经看到许多学生几乎立刻求助于现代 AI 工具来完成他们布置的课业，以牺牲发展更可持续的数学技能和直觉为代价，实现了对给定问题产生可验证答案的眼前目标；同样地，在研究层面，数据驱动数学的“第四范式” [33] 可能会非常成功，以至于排挤了经验证据、理论推理和计算数值等更传统的范式（其中第二个是目前纯数学的主导范式），以及人类数学家 [注16] 从视觉、动觉和其他感官直觉中，或者从我们对物理、经济学、生物学等定律的熟悉程度建立的直觉中获得的巨大价值。即使假设完全受信任地实现了形式化方法，在数学研究空间中不加批判地接受 AI 协助，也可能导致不希望出现的后果，即大量涌现 [注17] 主要由 AI 生成的论文，这些论文包含技术上正确且较新的结果，但并未对更广泛的数学叙事做出贡献，也没有为作者或读者建立直觉。这种低质量工作产生的负面印象，甚至可能导致人们对在数学中最仔细和最负责任地应用 AI 协助也产生偏见，这反过来又可能抑制此类技术的潜在积极利益，例如如上所述以更广泛、更全面的方式探索数学的能力。

[注16]：与此有点相关的是，诸如数学论证的“美”或“优雅”等审美观念可能会变得比目前更加脱离这些论证的形式正确性。例如，考虑 AlphaProof [34] 为 2024 年IMO国际数学奥林匹克竞赛题目生成的证明，其中包含许多多余或令人费解的步骤，但仍然被形式化验证为正确的解决方案。另见 [25] 中的讨论。

[注17]：这可以被视为意外后果法则的一个例证。在过去，获得严密的数学证明需要人类付出艰辛努力的数学时代，数学活动自然地集中在被数学界认为感兴趣的问题上，即使大多数社区成员通常不会明确考虑一个给定结果的“有趣”或“相关”真正意味着什么这个哲学问题；文献的演变足够缓慢，以至于这种决定数学意义的主要基于社会的机制能够随着时间的推移自我纠正。在由于自动化使得数学结果能够以快得多的速度大规模生产的未来时代，这种哲学问题可能需要更多的积极关注。在决定是否关注一个声称的数学结果时，需要做出价值判断，包括作者的可信度，另见 [35]、[36]。

4.7 将哲学问题应用于现实世界的 AI 使用

任何作为其他研究的基础参考内容都承载着额外的责任，数学也不例外。我们可以形式化证明任何由 AI 生成的数学论证的有效性；但有效性只是价值的一个组成部分，在现实世界中展示人工智能驱动的研究时，细微的价值判断是必要的。在潜在的大量平凡和非平凡的发现中，研究人员认为哪些要素特别有趣并且值得在研究领域内外分享，以及如何将这些材料展示给更广泛的受众，这在人类研究人员中还没有标准化。在如何分配优先权和功劳方面也存在不确定性。AI 辅助的研究还带来了新的伦理和法律分支，以及关于 AI 生成的内容（包括证明）的知识产权问题尚未得到解答。

什么原则应该指导研究人员决定一种 AI 模型或另一种 AI 模型的适用性和最佳应用，或者 AI 是否根本就是一个好的选择？在学术领域中，做出大多数走上学术研究道路的人是为了让世界变得更美好并做出有意义的贡献这一假设，并非不合理。数学家会希望优先考虑对数学最有利的用例。所有领域的研究人员通常不仅希望优先考虑那些有利于他们自己领域的应用，而且希望优先考虑具有跨学科效益的应用。可以假定，大多数将 AI 用于研究目的的人都会希望优先考虑造福人类的应用，而不是危害人类的应用。因此，在 AI 开发领域中，必须突出显示谁正在从这些工具中受益以及正在发生什么好处，这对于帮助人们确定如何尽可能负责任地优化结果至关重要。

4.8 知识产权与责任

知识产权和责任（或者可能称作问责）问题本身就是一个雷区，需要仔细讨论。当人工智能应用于某个问题时，谁对错误负责？谁因获得洞见而受到赞誉？这些可能不是同一方，也可能是没有明确定义的各方。到目前为止，对于大语言模型 (LLMs) 训练数据的积累，（它们的开发者）多辩称这属于“合理使用 (Fair Use)”学说的范畴。在美国境内，“合理使用”的应用具有一定的灵活性，这取决于（除其他因素外）知识产权使用的目的 [37]。作为一个思想实验，我们可以思考，更大的利益是否值得被更广泛地使用 [38]。声称在试图将世界从即将到来的末日中拯救出来的场景下动用所有被记录的知识是合理使用，这是否合理？如果它拯救世界免受更遥远的生存威胁（例如气候变化），这种宽泛的应用是否仍然适用？如果“仅仅”是为了终结所有疾病呢？或者仅仅是根除癌症？由于所有这些都是人们假定的 AI 的有益应用，因此授权 AI 使用所有记录的信息以使这些奇迹成为可能，这是否合理？

除了要求对“合理使用”进行极其宽泛的解释的那个存有问题的论点外，我们迫切需要针对信用分配和引用的明确标准和协议。AI 用例不仅将利用研究人员的数据，还将利用 AI 之前接受训练的信息、选择 AI 接受训练的信息（由可能与主要研究人员没有任何互动的软件工程师和设计师做出），当然还有 AI 本身的贡献。传统的学术引用系统是否足以在可能有成百上千个“隐藏”贡献者的情况下分配适当的荣誉，或者仅仅引用 AI 模型本身是否足够？未公开使用 AI 来执行研究论文中的很大一部分写作，引起了尤其强烈的反应，许多学者认为这种做法类似于剽窃；具有讽刺意味的是，这导致了一些从他们的工具中获得益处的研究人员将自己的使用情况隐藏得更深。显然，需要制定有关 AI 披露和使用的新的专业标准和实践 [注18]。

[注18]：关于此主题的初步讨论，请参阅其中一位作者的文章 [39]。

人工智能也处于产生潜在广泛的循环引用闭环（circular citation loops）的边缘，这个过程在 2001 年被 Randall Munroe [注19] 幽默地称为“引用生成 (citogenesis)”。例如，随着 AI“深度研究”工具 [40] 最近成功揭示了被埋藏在晦涩文献中的开放问题的解决方案，第二作者帮助在一个数学开放问题网站 [41] 上发起了一项努力，以系统地使用这些工具来报告关于这些问题的已知文献，或者说明这些文献的缺失。虽然这增加了该网站的真正价值，但我们也发现深度研究工具将这些报告作为其搜索的权威来源，这带来了一个意想不到的后果：在网站上总结这些搜索结果，阻碍了随后使用这些工具寻找有关这些问题的真正新文献！因此，即使在没有恶意的情况下，这些工具不断增强的威力也需要对被引用信息的出处进行更彻底的审查。

[注19]：https://xkcd.com/978

5 AI的成本与收益

5.1 经济与社会影响：谁是受益者？

鉴于人工智能已经对个人产生了重大影响，加之其惊人的发展速度，人们很容易预见这样一条发展路径：人工智能的规模不断扩大，直至对整个物种构成生存威胁。在向前迈出的任何一步中，开发者和其他有影响力的人士都需要仔细思考：谁正从这些进步中获益，谁又正在受到伤害？我们建议，任何进一步的开发都应优先考虑全人类的福祉，且 AI 的应用应当对人类（无论是个人还是集体）保持直接的有用性。

对于每一个具体的应用案例，都应该进行评估以明确谁是预期的受益者。这个特定的 AI 模型或模型的实施，究竟是造福整个社会，还是仅仅为一小群人带来切实的利益（例如节约成本）？ AI 工具具有如此强大的能力和复杂性，以牺牲数百万人的利益为代价换取少数人的极端经济收益，这种道德成本是无法容忍和不可接受的。我们必须促成那些能保护并重视人类自身人性、而非将其商品化的 AI 落地实施。

我们不必走远，就能看到将资本置于人类福祉之上的灾难性后果。19 世纪初自称为“卢德分子（Luddites）”的诺丁汉纺织工人，经常被描绘成武断的反技术、反进步者，但实际上，他们强烈反对的是自动化取代了他们的工作，并用技能更低、薪水更低的工人取而代之。在以高失业率和通货膨胀猖獗为特征的严酷经济环境中，对他们工作机会的直接威胁构成了对他们生计的生存威胁。虽然我们回顾工业革命时期的自动化，通常认为其对社会是有益的，但这些益处是伴随着真实、可衡量的人力成本的。

今天，与卢德分子时代不同的是，我们已经看到熟练工人被 AI 而不是低薪的人类劳动力所取代。对于蓬勃发展的新一代工人来说，入门级工作历来是通往财务和社会繁荣的途径。当这些工作凭空消失时，机会也随之消失。当人们发现自己与那些曾承诺要改善其生活质量的工具直接对立时，绝望和抱怨就会演变成愤恨和狂怒。

所有新兴技术在造福全人类的同时，也必然伴随着真实的人力成本。对于像 AI 这样具有根本性颠覆作用的技术，其人力成本必须在地方和全球层面上进行量化，并与收益进行谨慎的权衡。我们用于这种评估的指标仍然模糊不清、界定不明。我们是像以往那样，继续只看货币层面的得失？还是应该考虑不断增加的资源获取与失去的资源之间的平衡？我们是否会考虑生活质量和幸福感等更无形的收益，如果是的话，我们又该如何将这些无形资产与更具量化的收益进行比较？

遗憾的是，当前的商业环境正在寻找一种被优化出强大力量和最广泛影响的“奇迹武器（Wunderwaffe）”，寄希望于它能跑赢任何潜在的问题。但为了少数人的利益而未能将新兴技术的人力成本量化，这是对全人类的极大损害。此外，在当前的大环境下，AI 几乎同时在社会的各个领域实施，而根本不考虑它是否能为终端用户提供任何实质性的利益，这只会疏远并挫败各行各业的人们。我们已经看到人们在未经同意就被强加某种技术时的自然反应——由于感到失控，他们的第一本能是拒绝所有的 AI 技术，甚至不惜将“婴儿（即在他们的生活中提供可量化益处的 AI 应用）”和“洗澡水”一起倒掉。如果我们能转而将技术的首要焦点保持在可量化地改善大多数或所有人类的生活上，那么我们自我毁灭的可能性就会比将这些技术的唯一焦点放在机械劳动、数字劳动和人类劳动的商品化上要小得多。

5.2 盘点AI的成本

除了直接的人力成本之外，任何合乎伦理的 AI 实施都不能不审视其他更加不透明、隐蔽的成本。开发和建立一个有效的 AI 基础设施最巨大且最显而易见的成本来自于一个现实：这些技术与1970年代计算机革命时期的技术不同，它们不能作为业余爱好或家庭手工业来开发——不存在一个装满电脑零件的车库，能让像史蒂夫·乔布斯（Steve Jobs）那样单个的创新思想家借以建立一个帝国。目前构建的 AI 模型需要在硬件、服务器、人才和预训练方面投入巨资，这早在你能得到一个能够工作的 AI（更不用说是一个能够盈利的 AI）之前就已经开始了。

为了更好地对比 AI 开发所需的规模，我们可以参考 19 世纪下半叶在美国修建的横贯大陆铁路网。修筑铁路的公司必须开发并制造由庞大机车组成的运输队，规划并铺设数千英里的铁轨，然后第一列火车才能快速、可靠地将货物从爱荷华州运往旧金山，从而释放出这些公司所押注的经济回报。

对基于 AI 的技术进行巨大前期投资的做法，已导致开发者追逐利润驱动的资本主义模式，从而造就了一个新的技术精英阶层；就像 19 世纪镀金时代的强盗大亨一样，他们掌控着巨额投资资本和管理债务，同时通过战略运作来夺取和持有有限的资源（包括土地、能源、水、熟练劳动力等）。与那个时代一样，这些投资的规模导致了整个发达世界在经济稳定性、获取这些技术的机会以及总体生活质量方面出现了巨大的不平等。

我们的社会已经开始认识到大规模 AI 所要求的高昂环境成本。能源和水的大量消耗给那些生活在这些 AI 模型所需的庞大设施阴影下的人们带来了巨大的日常挑战。有可信的建议指出（例如参见 [42]），可以应用 AI 生成的解决方案来减轻或消除人类使用两个世纪技术所带来的沉重气候代价。随着基础设施的建成和更高效计算使用的开发，或许运行这些工具的边际成本会随着时间的推移而下降。然而，迄今为止，所有正在运行的大型 AI 模型都没有提供出甚至能抵消其自身资源消耗和废物排放的解决方案。

此外，值得注意的是，现代 AI 工具并不通过在物理世界中的体现，或是通过理解我们现实世界物理定律的不可变性质来追求或直觉地感知“真理”；相反，这些模型严重依赖人类生成的数据（通常未注明出处），以及大量的人类反馈来进行自身的迭代改进。如果要构建不那么依赖人类智力劳动的模型，就存在着用 AI 生成的信息污染我们集体信息库的严重风险。在 AI 崩溃（AI collapse）[43] 成为一个严重问题之前，AI 能够被用来在某个领域生成多少“新信息”是有明显限制的。如果没有足够数量的真实内容，AI 就会脱离现实，陷入一种与真实世界脱节的思维模式中，并显著阻碍人机交互界面上有意义的互动。凭借其形式化验证过程，数学对 AI 污染的容忍度可能比其他领域更高；但正如我们所见，它也并非完全免疫于这种危险。

5.3 数字鸿沟

另一个需要考虑的重大社会成本是，AI 技术有可能加剧现有的不平等或制造新的不平等。原则上，所有人类都有能力利用其天生的智力天赋（当然前提是获得足够的教育和支持性环境）；但前沿 AI 模型的应用趋势已经表明，大规模的 AI 工具可能只提供给资金充裕或人脉广泛的研究小组，或是那些最愿意交出个人数据并对使用此类模型的伦理问题视而不见的个人。这就造成了拥有 AI 的人与没有 AI 的人之间根本的“数字鸿沟”。

当 AI 有能力从根本上提高研究绩效时，优先考虑公平的访问权限是至关重要的；然而，在当前的 AI 领域，出现了第二种更微妙的数字鸿沟。当占主导地位的 AI 模型被资本化、私有化并争夺有限的资源（投资和相关的用户群）时，它们会被（也许是无意地）激励去发展“尖锐（spiky）”的能力，以保持彼此之间的竞争优势，而不是在不同领域提供一致和均衡的性能。由于制度谈判和市场限制，个人被锁定在某一特定模型中，我们必须考虑这样一种风险，即某一模型会在特定研究领域提供优于另一模型的实质性优势，从而甚至在能够可靠和轻松获取 AI 资源的子群体内部制造分裂。

另一方面，AI 模型在科学和人文研究中的许多好处并不一定需要最先进的模型。较小的“本地模型”以及诸如证明助手等非 LLM 技术，证明了它们能够比需要处理所有人类知识总和的庞大数据中心的模型更快、更有效地返回有意义的结果。从现有的大模型中提取较小的模型具有巨大的潜力，这样可以利用最先进的 AI 能力，并使用专门针对特定研究兴趣领域的小型、用户自定义训练库。也许，由一个用户社区维护的多样化的、更具针对性的小模型阵列，可以作为当前可用的极大、极昂贵模型的可行替代方案出现。增加对此类社区项目的支持可以帮助缓解不公平访问的问题。

虽然这其中许多较小的项目完全可以由较小规模的公立和私立机构开发和运行，但行业从业者和政策制定者已经呼吁采取监管行动，以创造并维护对 AI 技术的公平获取 [44]。作为这项努力的一部分，投资发展用于高级 AI 研究的国家或跨国面向公众的联盟，以及开发一个大型的、由公共资助和公众可访问的 AI 资源（或模型）[45]，将具有明显的优势，这可以轻而易举地为那些本来会被目前主导该领域的私人企业化模型所抛弃的个人和群体带来 AI 访问权。

5.4 减少伤害

在航空的早期阶段，飞机旅行是一项极其不安全的技术，发生过无数起可怕的事故。今天，它是长途旅行中最安全、最可靠的交通方式。就像 AI 在短期内有可能导致灾难性后果一样，如果它要遵循类似的轨迹（希望致命事件能少一些），就需要采取果断的行动来减少伤害。必须制定最佳实践 [46]，并设计培训和法规来加强对该技术最负责任的使用，同时阻止或禁止隐蔽的或有害的使用方式。

这是一项走钢丝般微妙的工作。一方面，谨慎负责地使用 AI 协助的个人，可能会在短期内被不太择手段的竞争对手超越，后者使用更快但更不可靠的 AI 实践来加速他们的工作。同时，这些个人可能仅仅因为敢于接受将这项技术融入其专业工作流程的可能性，就会遭到对 AI 持不信任态度的同行的嘲笑、谴责和排斥。目前这种在很大程度上放任自流、允许 AI 技术不受约束地发展的做法，似乎不利于这种细致、负责任的采用方式占据上风。

有一些先例可以借鉴。21 世纪初维基百科的快速发展最初对教育系统造成了一些破坏，因为许多学生开始盲目地将这个在线资源中的文本一字不落地包含在他们的作业中，而许多讲师的反应是禁止使用该百科全书资源。对维基百科不可靠和潜在偏见的批评司空见惯。然而，随着该网站的成熟，并且学术界开始熟悉其优缺点，关于如何将该资源纳入教育和研究，出现了一个大致的共识。无论是学生还是研究人员，都被鼓励或至少是被默许将维基百科作为探究给定主题的起点；并且，人们敦促学生不要直接使用其文本，而是去跟进该网站提供的二手资料，或与独立的信息源进行核对。今天，维基百科在学术界被广泛接受为一种有用的资源。

我们是否能与 AI 达到类似负责任的接受程度？我们对这种可能性持谨慎乐观的态度；但这需要持续的努力和明确的哲学指导。例如，我们认为，必须为了造福所有（或至少是大多数）人类而开发 AI 工具，而不是为了少数特权阶层，这是一种道德和伦理上的绝对义务（imperative）；它必须为真正的人类需求创造解决方案，提高尽可能多的人的生活质量和体验；并且必须认识到这些工具真实存在或潜在的危害，根据它们的益处进行评估，并尽可能地减少危害。不需要太多的愤世嫉俗就能认识到，在实践中其中许多目标是无法实现的；但讨论我们希望这些工具与之一致的价值观体系，是使实际实现这些目标成为可能的第一步。

如果（希望能）在这些价值观上达成一些共识，那么结合上述旨在减轻 AI 最严重影响的行动，就必须将注意力转向摩擦的最大来源——人机交互界面。为了超越目前这种不安且不稳定的休战状态，我们需要开发出使个人能够以一种感到满足和充满活力、而不是严苛和压抑的方式将 AI 工具融入日常生活的方法。随着 AI 继续发展和演进，人类对 AI 的使用、互动以及最终与 AI 的关系也需要演进——从一种便利的工具，转变为协助伙伴，再转变为随时准备就绪的合作者。

6. 人机交互界面

6.1 短期视角：AI 作为智力生产的“香草精”

我们该如何对人类与 AI 工具之间的交互界面进行概念化？在眼下这一刻，主要将这些技术视为新奇事物仍然是有道理的，许多用户仍不确定该如何合理地应用它们。

为了平稳度过当前的这个过渡期，我们建议使用一个烹饪上的比喻作为指引：香草精。它是大多数甜品食谱中的常见配料，以其几乎具有普遍吸引力的香味而闻名。如果单独食用，香草精通常被认为是极其难吃的，但人们广泛认为，只要少量添加，即使无法将其与其他味道区分开来，它也能改善并提升菜肴的其他风味。虽然人们很容易得出“香草精越多越好”的结论，但大多数用过它的人都知道存在一个上限，超过这个上限，它就会完全毁掉这道菜 [注20]。我们大多数人并不清楚这个上限究竟是多少，所以发现最明智的做法是让它保持在一个非常微小的添加量上。

[注20]：Tumblr 上一个臭名昭著的思想实验 [47] 得出结论，一个含有 44% 香草精的蛋糕将是无法食用的。

同样地，人们可以将目前 AI 的使用视为认知工作流程中一种可选的附加成分：适度地尝试一下会很有趣——将人类撰写的文本交给 AI 语言模型以获取语法和措辞上的建议，或者将一些要点交给 AI 以便其组织成一种建议结构。这些轻触（就像一小滴香草精）将增强并丰富作品的特征，而不会喧宾夺主。然而，如果将 AI 内容作为此类工作流程的核心组成部分来使用，将不会产生令人向往的、有效的或有价值的结果。怀抱这样的理念（并适当注明 AI 的使用），我们就没有迫切的需要去重新思考关于人类在数学、科学或创意艺术等智力追求中角色的那些基本假设。

6.2 中期视角：作为“红队”的 AI

然而，随着这些工具能力增强并被更广泛地采用，“选择退出”这些技术的能力将会减弱。即使一个人主动选择避免使用 AI 协助，这个人所互动的同事、学生和专业机构也会越来越多地将 AI 融入他们自身的工作中。目前，人们严重关切学术话语的整个领域可能会被大量低质量的 AI 生成内容所淹没。在短期内，可以通过严格的编辑政策来禁止大多数形式的 AI 生成内容，以此进行反击；但随着这些工具变得更加普遍，个性化 AI 智能体网络变得更加司空见惯，将需要采用一种更加细致的方法。

至少在中期，制定规则和指南以识别负责任的 AI 使用方式，并阻止不负责任的使用方式，这仍然是可能且必要的，而且不会从根本上改变所在领域的人文主义本质——简而言之，将 AI 协助视为以人类为中心的工作的工具或初级合作伙伴，而不是其替代品。在这种情况下，区分生成新内容和结构的“蓝队”任务，与验证、测试或维护这些内容的“红队”任务 [注21] 会很有用。在“红队”角色中使用 AI 来审查人类生成内容中的错误或提供改进建议，相对来说是安全的；但由于当前和近期工具存在随机的不可靠性并缺乏根据感，如果在任何超出了“红队”（可能由人类或更自动化的验证工具，如形式化证明助手组成）验证能力的“蓝队”结构性角色中信任它们，都是不安全的。在这一理念中，重点是管理 AI 使用的潜在风险，同时仍要捕获其许多潜在利益，而不是从根本上彻底反思该领域的本质。

[注21]：这个术语的灵感来自网络安全中的区分，即保护系统免受攻击的“蓝队”和探测漏洞的“红队”。

6.3 长期视角：一场哲学的撤退是不可避免的吗？

但是，假设人们将目光投向更遥远的未来，在那个未来，当前 AI 工具的弱点已得到令人满意的解决，它们的能力在所有实际维度上都达到或超过了人类专家 [注22]，使得上述“风险管理”哲学变得过时。到那时，我们将如何回应这种先进技术具有的变革性质所提出的复杂哲学问题？

[注22]：这种情景有时被称为“人工通用智能 (Artificial General Intelligence)”，尽管对这个术语的精确定义尚无共识。

一个选择是直接退缩到纯粹的技术框架中，在这些框架里，上述问题将不再起作用。在数学中，我们有“形式主义者 (formalist)”的观点，即唯一的目标是根据精确的规则去操作数学符号。在科学界，务实的“闭嘴计算 (shut up and calculate)”哲学立场扮演着类似的角色；而在创意艺术中，人们可以作为工匠而不是艺术家来工作，创作满足外部客户提供的参数的作品，而不对产品的价值做出任何判断。在上述任何一种情况中，只要满足任务的技术规范，就不需要区分人类生成的工作或 AI 生成的工作。

但是，尽管技术无疑是这些学科各自极其重要的组成部分，但它并不能捕获数学、科学和艺术在实践中是如何进行的完整经验，也几乎无法为诸如“如何激发下一代学生”或“追求什么样的由好奇心驱动的研究方向”等实际问题提供指导。因此，人们可能会转而退守到一个截然不同的立场上，在这个立场上，人们赋予人类智力或人类创造力一种难以言传的特殊地位，并在根本层面上将任何锻炼此类人类天赋特征的活动与任何对此类活动的人工复制物永久区分开来，不管后者在技术层面上能够多么准确地复制或超越前者。在这个框架中，人工智能将永远是“没有真正的苏格兰人（No True Scotsman，指一种逻辑谬误）”：缺乏真正的“灵魂”或“理解力”。由于长期熟悉我们自身的物种，我们习惯于人类的不可靠、在能力上的“尖锐不均”，以及有时通过随机单词联想和死记硬背而侥幸成功完成一项任务；但是，当 AI 工具表现出类似行为时，人们可能会倾向于更加严厉地评判它们，例如将此类失败归咎于它们作为“随机鹦鹉（stochastic parrots）”的固有本质。但也许这种立场只是在否认一个令人不快的事实：我们引以为豪的人类能力中，有一部分实际上在本质上并不比我们现在设计用来模仿它们的 AI 算法复杂多少。而且，随着 AI 性能的不断进步，这种人类沙文主义（human-chauvinistic）观点存在一种风险，即退化成一种越来越站不住脚的“缝隙之神（god of the gaps）”哲学，在这种哲学中，越来越少的一系列品质被标榜为人类基本成就的指标，仅仅因为 AI 至今仍无法复制它们。

第三种选择，尤其受到这些技术的一些狂热者的青睐，是认为所有人类的认知能力都将很快被其 AI 对等物完全取代，从而使得有关人类对数学、科学和艺术贡献的价值与担忧的哲学讨论变得越来越没有意义。在这种立场的更极端版本中，锻炼人类智力本身被视为一种不受欢迎且令人厌烦的活动，应该尽快被自动化取代，以便腾出时间和心理空间进行更加悠闲或享乐的追求。显然，实施这一哲学理念将带来许多风险，例如人类能力会退化到一定程度，以至于我们这个物种将集体失去监视、控制甚至理解那些日益强大的、我们已将人类文明托付给它们的 AI 行动的能力 [注23]。

[注23]：关于这种框架在实践中会是什么样子，我们建议观看科幻电影《机器人总动员（WALL-E）》[48]。

然而，在这些“稻草人”极端立场之间似乎存在一些哲学上的中间立场，它们可以为人类和 AI 智能体之间合作与互补共存的新兴模式提供有用的视角。一个先例可以从国际象棋世界中看到，国际象棋曾经被视为纯粹人类智力行使的典型代表。现在，已经有几十年的时间没有人类特级大师能够击败国际象棋引擎了。尽管如此，国际象棋仍然是一项受欢迎且蓬勃发展的人类活动，棋手将引擎纳入他们的训练中，使用它们重新审视旧的国际象棋理论并探索新理论，在原本不可战胜的 AI 棋手中探寻漏洞和弱点，或者创造性地引入涉及不同程度 AI 协助的新竞赛形式。关于“国际象棋游戏到底是什么”以及“下棋的价值何在”这些哲学问题，仍然值得一问；而目前普遍接受的答案并不符合上述三种极端立场中的任何一种。

6.4 哥白尼式的视角

一种可能性是接受类似天文学中哥白尼革命的认知类似物。在古代，占主导地位的宇宙学模型（就其以机械论术语看待宇宙而言）本质上是地心说，其中地球拥有作为宇宙静止中心的特殊本体论地位，在本质上区别于其上的天堂或其下的冥界。然而，天文学和物理学的多项进展瓦解了这种观点，并在过去几个世纪中相继证明，地球实际上是绕其地轴运动的，并围绕太阳运行，而太阳本身则围绕我们银河系的中心运行，而银河系本身又是一个缺乏任何空间中心概念的不断膨胀的宇宙的一部分。事实上，采取一种现在被称为“哥白尼原理”的完全相反的哲学观点变得极其富有成果：即地球只是宇宙中无数行星之一，完全没有受到自然界基本定律的任何优待。

乍看之下，这种观点似乎非常威胁到人类对其家园星球的情感依恋，但归根结底，宇宙对地球的冷漠，与我们对地球的强烈投入之间并没有根本矛盾；我们仍然有充分的理由将特定于地球的问题置于其他行星的问题之上，同时又接受这些其他行星确实存在，并且对于它们自己的居民而言具有同等重要性。在其他科学的历史发展中也能看到类似的革命，例如达尔文革命将人类从其他不断进化的物种中的独特地位赶了下来，或者欧几里得几何作为数学中综合先验真理来源的特权角色被剥夺。

直到最近，我们这个物种同样一直秉持着人类智力处于认知宇宙中心从而赋予其特殊哲学地位这一类似地心说的智力观点。但现在我们正在发现（或创造）其他智力“行星”，它们在许多方面与我们自己的智力相当，而在许多方面又截然不同。与其否认这些行星的存在或重要性，或是争论这些行星中哪一个应该成为“中心”，不如接受人类智力和人工智能都存在于相同的本体论范畴中，尽管它们之间存在许多显著差异并具有互补性。虽然我们的兴趣和依恋在很大程度上仍然将受限于人类智力领域，但它可以探索其与其他形式智力的关系，这既是为了更有效地实现各种现实世界目标的实际目的，也是出于更具哲理性的原因，比如获得一个以前很难达成的对于人类认知的外部视角。

7. 结论

AI人工智能技术向世界无组织、混乱且广泛的发布，已经以既令人担忧又带来益处的方式极大地改变了社会、智力和经济领域。尽管毫无疑问，人类需要做出某种集体努力（无论是通过监管、市场压力，还是通过某种尚未被定义的外部力量），但我们绝没有达到那样一个临界点，即我们无法从这些新技术高昂的经济和社会成本中解脱出来。将 AI 融入数学领域的方法，同样迅速地展示了 AI 能够为学术研究、科学进步以及整个人类带来的充满希望的益处。数学研究很大程度上客观且可被验证的性质，提供了一个独特的机会来实验这些新技术并研究由此产生的影响，而且是以不会对个人或更广泛社会构成伦理或生存风险的方式进行。从 AI 在数学上的应用出发，我们能够探索更广泛全球 AI 使用中紧迫的哲学和道德问题。此外，我们可以推断出潜在的途径以缓解 AI/人类交互界面上的紧张关系，并提出协作式的 AI/人类思维的新范式，该范式尊重这两种模式各自带上这个隐喻桌面（metaphorical table）上的独特且具有价值的特质。尽管我们永远无法将魔鬼重新收回瓶中，但我们乐观地认为，随着我们理解的加深和行动的迅速推进，我们仍然能够扫清迷雾，并放眼一个光明（尽管有些许不确定）的未来。

7.1. 致谢

我们感谢 Silvia de Toffoli 提供的有益评论和参考文献。

原文参考文献

[1] J. Jumper, R. Evans, A. Pritzel, et al., “Highly accurate protein structureprediction with AlphaFold,” Nature, vol. 596, pp. 583–589, Aug. 2021.

[2] S. Marche, “The College Essay Is Dead,” Dec. 2022.

[4] E. Oh, W. Kearns, M. Laine, G. Demiris, and H. J. Thompson, “Perceptionsof and Experiences with Consumer Sleep Technologies That Use Artificial Intelligence,” Sensors, vol. 22, p. 3621, Jan. 2022.

[6] A. Tarkowski, “Open source and the democritization of AI,” in ArtificialIntelligence and the Challenge for Global Governance: Nine Essays onAchieving Responsible AI (A. Krasodomski, ed.), pp. 30–36, Royal Instituteof International Affairs, June 2024.

[7] J. Chun and K. Elkins, “The Crisis of Artificial Intelligence: A New Digital Humanities Curriculum for Human-Centred AI,” International Journal ofHumanities and Arts Computing, vol. 17, pp. 147–167, Oct. 2023.

[8] J. R. Searle, “Minds, brains, and programs,” Behavioral and Brain Sciences,vol. 3, pp. 417–424, Sept. 1980.

[9] Q. Mei, Y. Xie, W. Yuan, and M. O. Jackson, “A Turing test of whetherAI chatbots are behaviorally similar to humans,” Proceedings of the NationalAcademy of Sciences, vol. 121, p. e2313925121, Feb. 2024.

[10] H. Chen, S. R. Grimm, O. Russakovsky, and T. Lombrozo, “Machine understanding.” Unpublished preprint.

[11] M. Mashaal, Bourbaki: A Secret Society of Mathematicians. Providence, RI:American Mathematical Society, 2006.

[12] The mathematical experience. Boston: Birkhäuser, 1981.

[13] R. Wagner, “Mathematical consensus: A research program,” Axiomathes,vol. 32, pp. 1185–1204, Dec. 2022.

[14] J.Baez,“TheInconsistencyofArithmetic.”https://golem.ph.utexas.edu/category/2011/09/the_inconsistency_of_arithmeti.html

[15] S. Aaronson, “Ten Signs a Claimed Mathematical Breakthrough is Wrong,”Jan. 2008.

[16] S. DeDeo, “AlephZero and mathematical experience,” Bulletin of the AmericanMathematical Society, vol. 61, pp. 375–386, July 2024.

[17] T. Tao, “What is good mathematics?,” Bulletin of the American MathematicalSociety, vol. 44, no. 4, pp. 623–634, 2007.

[18] W. P. Thurston, “On Proof and Progress in Mathematics,” in 18Unconventional Essays on the Nature of Mathematics (R. Hersh, ed.), pp. 3755, New York, NY: Springer, 2006.

[19] S. de Toffoli and F. Tanswell, “The technological turn in mathematics,”Blackwell Companion to the Philosophy of Mathematics, 2025.

[20] Y. Wu, A. Q. Jiang, W. Li, M. Rabe, C. Staats, M. Jamnik, andC. Szegedy, “Autoformalization with Large Language Models,” Advances inNeural Information Processing Systems, vol. 35, pp. 32353–32368, Dec. 2022.

[21] F. Tanswell, “Can Mathematics Be Hacked? Infrastructure, Artificial Intelligence, and the...,” June 2025.

[22] K. I. Appel and W. Haken, Every Planar Map Is Four Colorable, vol. 98.American Mathematical Soc., 1989.26TANYA KLOWDEN AND TERENCE TAO

[23] T. C. Hales, “A Proof of the Kepler Conjecture,” Annals of Mathematics,vol. 162, no. 3, pp. 1065–1185, 2005.

[24] A. Venkatesh, “Some thoughts on automation and mathematical research,”Bulletin of the American Mathematical Society, vol. 61, pp. 203–210, Feb.2024.

[25] S. DeDeo, “Hard Proofs and Good Reasons,” Oct. 2024.

[26] J. Avigad, “Is mathematics obsolete?,” 2025.

[27] “Special issue on AI and mathematics, Part I,” Bulletin of the AmericanMathematical Society, vol. 61, pp. 199–372, Apr. 2024.

[28] “Special issue on AI and mathematics, Part II,” Bulletin of the AmericanMathematical Society, vol. 61, pp. 373–524, July 2024.

[29] H. Macbeth, “Algorithm and abstraction in formal mathematics,” May 2024.

[30] J. Stillwell, Reverse Mathematics: Proofs from the inside Out. Princeton, NewJersey: Princeton University Press, 2018.

[31] A. Jaffe and F. Quinn, ““Theoretical mathematics”: Toward a cultural synthesis of mathematics and theoretical physics,” Bulletin of the AmericanMathematical Society, vol. 29, no. 1, pp. 1–13, 1993.

[32] M.Kim,“Thinkingandexplaining.”https://mathoverflow.net/q/38694 (version: 2024-01-05).MathOverflow.

[33] T. Hey, “The Fourth Paradigm– Data-Intensive Scientific Discovery,” inE-Science and Information Management (S. Kurbanoğlu, U. Al, P. L. Erdoğan,Y. Tonta, and N. Uçak, eds.), vol. 317, pp. 1–1, Berlin, Heidelberg: SpringerBerlin Heidelberg, 2012.

[34] “AI achieves silver-medal standard solving International MathematicalOlympiad problems.” https://deepmind.google/blog/ai-solves-imo-problemsat-silver-medal-level/ , May 2024.

[35] C. J. Rittberg, “Justified epistemic exclusions in mathematics,” PhilosophiaMathematica, vol. 31, pp. 330–359, 04 2023.

[36] S. De Toffoli and F. S. Tanswell, “Trust in mathematics,” PhilosophiaMathematica, pp. 1–25, 2025. Published online ahead of print.

[37] “Copyright and Fair Use | Office of the General Counsel.”https://ogc.harvard.edu/pages/copyright-and-fair-use

[38] A. Weir, “Chapter 11,” in Project Hail Mary, Penguin Books (Series), pp. 191194, London: Penguin Books, 2022.

[39] “Best practices for incorporating AI etc. in papers.” https://aimath.zulipchat.com

[40] S. Bubeck, C. Coester, R. Eldan, T. Gowers, Y. T. Lee, A. Lupsasca, M. Sawhney, R. Scherrer, M. Sellke, B. K. Spears, D. Unutmaz, K. Weil, S. Yin, andN. Zhivotovskiy, “Early science acceleration experiments with GPT-5,” Nov.2025.

[41] T. F. Bloom, “Erdős Problems.” https://www.erdosproblems.com

[42] J. Cowls, A. Tsamados, M. Taddeo, and L. Floridi, “The AI gambit: Leveragingartificial intelligence to combat climate change—opportunities, challenges, andrecommendations,” AI &SOCIETY, vol. 38, pp. 283–307, Feb. 2023.

[43] I. Shumailov, Z. Shumaylov, Y. Zhao, N. Papernot, R. Anderson, and Y. Gal,“AI models collapse when trained on recursively generated data,” Nature,vol. 631, pp. 755–759, July 2024.

[44] “Supercharging Research: Harnessing Artificial Intelligence to Meet GlobalChallenges | PCAST,” tech. rep., President’s Council of Advisors on Scienceand Technology, June 2024.

[45] E. Jones, “A ’CERN for AI’- what might an international AI research organization address?,” in Artificial Intelligence and the Challenge for GlobalHUMAN THOUGHT IN THE AGE OF AI27Governance: Nine Essays on Achieving Responsible AI (A. Krasodomski, ed.),pp. 10–17, Chatham House, the Royal Institute of International Affairs, June2024.

[46] M. Mantegna, “An ethics framework for the AI-generated future,” in ArtificialIntelligence and the Challenge for Global Governance: Nine Essays onAchieving Responsible AI (A. Krasodomski, ed.), pp. 47–57, Royal Instituteof International Affairs, June 2024.

[47] “Vanilla Extract.” https://knowyourmeme.com/memes/vanilla-extract , Feb.2023.

[48] “WALL-E,” 2008.

参考资料

https://terrytao.wordpress.com/2026/03/29/mathematical-methods-and-human-thought-in-the-age-of-ai/

https://arxiv.org/abs/2603.26524

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报