下载客户端

复旦MOSS大模型拟4月中旬开源，邱锡鹏详解如何构建

澎湃新闻记者邵文

2023-04-09 09:18

来源：澎湃新闻

听全文

·“我们现在仍旧在加紧迭代MOSS，预计将于4月中旬开源。整体而言，MOSS基于公开的中英文数据训练，目前已经拥有200亿参数，具有和人类对话的能力，并可以通过与人类交互实现迭代优化。但与此同时，尽管对语言的理解能力和ChatGPT已经非常相近，但是目前MOSS的整体完成度却并不高，主要原因在于MOSS在部署和训练上投入的资本还非常有限。”

复旦大学计算机科学技术学院教授、MOSS系统负责人邱锡鹏。

近日，在复旦大学管理学院主办的“Beyond ChatGPT：大型语言模型引发的时代变革”复旦科创先锋论坛上，复旦大学计算机科学技术学院教授、MOSS系统负责人邱锡鹏从技术和原理的角度深度解构ChatGPT模型，并介绍了国内首个类ChatGPT模型MOSS的相关细节。

ChatGPT为什么这么强？

ChatGPT是2022年底由美国OpenAI公司发布的人工智能模型，60天内月活用户直接破亿，成为史上用户增长最快的消费级应用，其主要功能就是与人类直接对话，比尔·盖茨称赞它是继PC和互联网之后技术上的又一次全新突破。

ChatGPT所展现出的令人惊艳的对话、理解与表达能力，让越来越多人意识到人工智能已经迎来了全新的里程碑，并且有望作为一个至关重要的基座系统，以前所未有的速度渗透进各行各业，持续引爆未来世界的数字经济体系。

那么，ChatGPT背后的技术原理到底是什么呢？

在正式解答这个问题之前，邱锡鹏认为，首先有必要先了解一下“语言模型”（Language Model）。语言模型，即利用计算机去重新建模人类语言，把自然语言转化为机器能够理解并判断的语言的一种机制。

人类的自然语言是十分灵活的，它一方面有规则，另一方面又随时可以打破规则，甚至存在巨大的歧义性，任何一句话，放在不同的情景下，大家对其理解都会大不相同，这就给建模造成了极大的困难与挑战。

人们可以利用概率判断来进行语句处理。如果这个句子符合自然语言的规律，就赋予它一个比较高的概率，反之，则赋予它一个比较低的概率。不过这样的话，新的问题又产生了：应该怎么去赋予句子以概率？

据邱锡鹏介绍，这就需要我们从互联网上获取海量的文本数据。但这也是一个难题，这个概率空间很大，难以直接建模。目前的解决方案是通过把整个句子的联合概率拆解成其中每个词的条件概率的连乘，大幅降低语言模型的建模难度。这样语言模型就转换为给定上文预测下文的机器学习任务。

语言模型，即利用计算机去重新建模人类语言，把自然语言转化为机器能够理解并判断的语言的一种机制。

一个好的语言模型，要想预测得越准，就越需要充分理解人类语言和世界常识。比如让模型预测鸡蛋是圆的而不是方的，本身便隐含着一定的生活常识。此外，在语言学上还有一个非常难的问题叫“指代”，比如说，“你”“我”“他”是代词，但是到底指的是谁却不知道，有些中文场景下，预测时甚至连代词都直接省略了，这就需要通过上下文补全，才能够把下一个词预测得更加准确。

只要见的公式足够多，模型也还是能够捕捉到“×”是什么规则，“+”是什么规则，从数据中完成自我学习。

再比如说“12×3+9=？”，则需要预测这个数学公式的结果。但是在训练时未必会告诉模型“×”代表什么意思，“+”代表什么意思，只是输入大量数学公式让它自己训练。然而只要见的公式足够多，模型也还是能够捕捉到“×”是什么规则，“+”是什么规则，从数据中完成自我学习。

为什么能够自我学习？这里面有一个信息压缩的概念，比如说有一万亿个词，可以把它原封不动保存在硬盘上，也可以用10亿个参数的神经网络把所有的语料知识记住。这就迫使神经网络不单要把这些浅层的知识存下来，还要把其中所蕴含的知识、规律累计下来，因为有很多信息是冗余的。道理很简单：把规律记下来就可以胜过很多浅层的文字。通过这样的方式，迫使语言模型努力发现这些文字背后所蕴含的各种各样的规律，从而使这个模型更好地理解人类语言和世界知识。

另外，在大型语言模型使用的神经网络构架方面，邱锡鹏提到Transformer，这个词的本意是变压器，有输入和输出，是一个类似于双塔式的结构。带入到语言模型里面，就是进去一个句子，出来另一个句子，给定上句预测下句的特定网络模型。

Transformer这个词的本意是变压器，有输入和输出，是一个类似于双塔式的结构。

如今Transformer已经在整个人工智能领域成为了最主流的架构体系。除了能力强之外，还有一个非常重要的原因在于它的架构设计对于GPU（图形处理器）运算特别友好。因为Transformer架构和卷积、循环神经网络不一样，卷积、循环神经网络都是在GPU诞生之前设计的，然后再去实现GPU加速。而Transformer则出现在GPU之后，所以设计方面就可以天然地充分考虑最大限度利用GPU能力，更容易做到大规模语言模型的效果。

不过，要想让模型的预测更准确，就势必需要大量的参数对其进行训练，以帮助大规模语言模型充分理解人类语言规则及其逻辑关系。目前在Transformer的加持之下，研究人员已经可以把模型规模做到百亿级、千亿级。这就是如今的大型语言模型（Large Language Model）。在大型语言模型当中，可以通过输入一些上文，经过语言模型背后的仿人类神经元构成的Transformer神经网络加工处理，从而实现对下一个词的预测，并输出相应文本。

“而在训练过程当中，科学家发现，计算量大概在10的22次方之后，模型能力会完成从量变到质变的飞跃，呈现出惊人的爆发式增长，我们通常也将其称之为‘涌现能力’。”邱锡鹏说。

计算量大概在10的22次方之后，模型能力会完成从量变到质变的飞跃，呈现出惊人的爆发式增长，我们通常也将其称之为“涌现能力”。

涌现能力背后隐藏着哪些关键技术？

“大型语言模型在达到百亿级规模后开始获得‘涌现能力’，而涌现能力的背后，则进一步隐含着三个非常重要的技术：情景学习、思维链和指令学习，这也是ChatGPT得以在人工智能领域叱咤风云的关键原因。”邱锡鹏说。

涌现能力的背后隐含着三个非常重要的技术：情景学习、思维链和指令学习。

情景学习（In-context Learning）深刻改变了传统机器学习范式，只需要通过一系列精心设计的条件语句（Prompt），对任务进行详细描述，然后再辅以一些情景例子，就能够让模型参考着既定例子完成特定任务。

邱锡鹏举了个例子，如果现在想要开发一个电影评论的情感分类器，去统计某部电影的评分到底是正面居多还是负面居多，那么就可以设计一个条件语句，先对任务进行描述，比如：“这是一个电影评论情感分类器。评论：‘我喜欢这部电影！’这条评论是正面的。评论：‘我不知道，它还行吧。’这条评论是中立的。评论：‘真是浪费时间，不推荐这部电影。’这条评论是负面的。”那么模型就会自动结合上下文进行学习并预测。这种模式跟传统的将知识直接储存在参数里，显然是不太一样的，也在一定程度上揭示了为什么ChatGPT通常是以多轮对话的形式来呈现。

事实上，对于ChatGPT来说，每一次接受人类发来的对话，它都会把之前的聊天历史全部作为上文，输入给语言模型，然后由语言模型续写出一个下文，反馈给用户。这样让一个大型语言模型直接和人类进行交互，从产品创新的角度确实是非常有智慧和远见。

情景学习（In-context Learning）深刻改变了传统机器学习范式。

模型能力可以通过扩大参数规模来提升，但是谷歌的研究员却另辟蹊径，想了一个更好的方法：将模型具有把一个复杂问题分解为多步推理的简单问题，让模型能够明白并学习人类到底是怎么一步一步推导到这个答案的，这个就叫做思维链（Chain-of-Thought）。

“大型语言模型经过海量预训练之后，已经见过了很多推理方式，我们只需要一步一步引导，就可以让它按照你想要的方式去推理。”邱锡鹏说，思维链方式进一步解放了模型潜力，让本来模型不会解的一个个复杂问题，可以有办法分解成很多简单问题，然后通过逐一解决简单问题，最终使得复杂问题同样迎刃而解。

至于自然指令学习（Learning from Natural Instructions），传统上，机器学习都需要大量标记数据，才能让机器学习模型从数据当中实现学习。但是标数据本身又非常繁琐，人类总归是希望语言模型最好能够直接从指令中进行学习，能够直接听懂人的意图。

而事实也证明，这个思路是可行的，甚至人类只需要在少量的任务上进行指令化，在经历大概40多个任务指令化之后对模型进行适度微调，就很容易泛化到上百、上千种任务，即使那些任务可能从来没有见过，它也仍旧能够很好地进行应对。

邱锡鹏认为，现在技术领域唯一存在的问题可能是：很多现有任务的指令化，尚未真正能够与人类实现“对齐”。尽管自然指令学习大幅提升了泛化能力，但是对人类真实意图的理解仍然有着很大差异，OpenAI（ChatGPT的开发机构）就希望收集真实的人类意图，让专家来写答案，从而更好地与人类偏好进行匹配。“在这个过程当中，人的参与意义非常重要，使得机器在迭代中始终保持和人类的价值观、思维方式对齐，也避免了机器自己迭代起来有可能会离人类的偏好和初衷越来越远。”邱锡鹏说。

MOSS是如何炼成的？

“在了解了ChatGPT背后的这些基本技术原理之后，我们大致就可以尝试复现这一大型语言模型了。”邱锡鹏接着说。

第一步需要先实现语言模型基座，第二步是指令微调，第三步是能力不断强化迭代。虽然这些关键步骤以及发展大势都已经十分明朗，但每一步的细节都需要我们自己去一一摸索，还是充满着各种未知的挑战性。

第一步需要先实现语言模型基座，第二步是指令微调，第三步是能力不断强化迭代。

关于第一步，MOSS团队主要是在Transformer架构上进行模块优化。在这其中最具挑战性的是，让模型处理中文。

“首先，对于ChatGPT来说，它并没有特别关注中文，很多时候只是直接把中文按照英文的方式进行编码，我们作为中国人自然是希望对中文进行优化，就需要重新实现更好的中文编码，并想办法把中文和英文打通；此外，将来如果接入多模态，编码问题同样会带来架构设计以及训练稳定性等诸多问题与麻烦。”邱锡鹏说。

其次，关于指令微调，邱锡鹏认为，指令微调的难度甚至比预训练更高，“在预训练阶段，大家可以利用一些大公司成熟的预训练模型，在短时间内取得不错的训练效果；但是指令微调则非常难以立马做到，这一点上和OpenAI之间存在着非常明显的差距。”

在与人类对齐方面，想要让模型的回答尽可能符合人类的思维习惯，这个其实也很难做到。“而且考虑到OpenAI暂不开源，我们只能够一步步慢慢向前探索。如果要想超过ChatGPT，肯定就得去找到一条比它更好的实现路径，而这个过程无疑充满艰险。”邱锡鹏说。

MOSS的实现方案。

邱锡鹏也具体谈到了MOSS的实现方案。

首先，激发MOSS大型语言模型的对话能力。“因为学校不像OpenAI公司可以雇很多人去写答案，所以我们一开始是通过所谓的自指令技术先写一些种子，通过‘达芬奇’帮我们扩展很多的条件语句和答案。写完之后有一些小规模的对话数据开始产生，我们就可以进一步利用监督策略做一个模型出来，然后在此基础上进行工程开发，让它能够和人类的真实需求逐步对齐。”邱锡鹏说。

使用MOSS的这个过程其实就是帮助它对齐人类、变得越来越好的必由之路。对此，科学家就是要让机器自己去写答案，鼓励它按照我们人类的偏好不断实现迭代优化，去生产越来越符合人类习惯的数据类型。

邱锡鹏透露，“我们现在仍旧在加紧迭代MOSS，预计将于4月中旬开源，到时候大家就可以尽情使用了。”而在2月21日，邱锡鹏在2023全球人工智能开发者先锋大会上曾表示，顺利的话MOSS大模型将于3月底开源。

整体而言， MOSS基于公开的中英文数据训练，目前已经拥有200亿参数，具有和人类对话的能力，并可以通过与人类交互实现迭代优化。但与此同时，邱锡鹏也坦承，尽管对语言的理解能力和ChatGPT已经非常相近，但是目前MOSS的整体完成度却并不高。主要原因在于MOSS在部署和训练上投入的资本还非常有限，相较于千亿级的ChatGPT，大概只是其规模的十分之一，所以MOSS还有很多事实类知识记不住，思维链能力也相对较差。但邱锡鹏也表示，目前团队也在积极尝试引入一些外部工具，来进一步扩大模型参数规模，不断实现改进与优化。

AI如何对未来社会形成颠覆性影响？

考虑到ChatGPT已拥有通用语言理解的能力，并可以进一步增加对外接口，成为通用人工智能（Artificial General Intelligence，AGI）的技术基座，这也就意味着通用人工智能的加速实现对于现阶段的人类来说已经不是梦想。甚至乐观一点说，像科幻片里面的人工智能形象可能很快就会在人类生活中出现。

以ChatGPT为代表的通用人工智能技术，可以引爆数字经济，充分发挥数据和算力效能，并催生出海量的新商业模式；可以赋能产业数字化，并通过人机协同的方式解决行业专家资源不足的问题；可以以数字人、个人助理、搜索引擎等形式对数字经济新业态、新模式提供发展动能；更将深刻改变教育、社会治理、司法等领域的生态，大幅提升行业水平。