澎湃Logo
下载客户端

登录

  • +1

巴普洛夫的狗遇见人工智能:中科院自动化所提出类脑经典条件反射学习模型

2021-01-19 20:32
来源:澎湃新闻·澎湃号·湃客
字号

原创 曾毅 神经现实 收录于话题#深度 | Deep-diving145个

由俄罗斯神经科学家伊万·彼德罗维奇·巴甫洛夫(Ivan Petrovich Pavlov)以狗为模式动物发现并建立的条件反射理论是生物系统学习理论的重要基础之一。经典条件反射不仅在生物大脑学习中起着至关重要的作用,也为人工智能学习理论的研究提供了具备生物可行性的机制与基础。近40年来,脑与神经科学以及人工智能的研究者通过神经科学实验与计算建模研究的融合试图研究和揭示经典条件反射实验的神经与计算机制。然而,这些模型以往只能复现和解释相对有限的经典条件反射实验。

中国科学院自动化研究所类脑智能研究中心曾毅团队融合生物学、神经科学等学科在条件反射领域的已有研究成果,依据条件反射的神经基础,即所涉脑区、神经环路、认知功能、神经元尺度的机理与计算机制,提出类脑经典条件反射脉冲神经网络模型,如图1所示。该模型将在条件反射领域达成共识的生物学研究结果整合到一个类脑脉冲神经网络中,相较于其他计算模型,类脑经典条件反射模型可以复现神经科学中提出的多达15种经典条件反射实验,并从计算角度给予合理的解释,有助于揭示生物体建立条件反射的神经机制。

此外,该模型可以部署到机器人上,使机器人可以像生物体一样表现出类脑经典条件反射行为。经过实验验证,该模型还可以使机器人具备速度泛化的能力,即在导航任务中,在较低速度下,机器人通过条件反射习得运动轨迹,在较高速度下,不需要再次训练即可完成导航任务。相关工作近期发表于Cell旗下综合性期刊《交叉科学》(iScience)。

图1:类脑经典条件反射脉冲神经网络计算模型

曾毅研究员介绍,条件反射是生物最基础和重要的学习方式之一,有助于生物体适应复杂多变的环境,使生物体可以预见性地适应环境变化,提高生存能力。从生物进化角度看,越高等的动物形成条件反射的能力越强,适应环境的能力也越强。团队借鉴已有的生物学与神经科学研究发现,将达成共识的研究结果整合到统一的类脑脉冲神经网络模型中,构建了以脑桥核(PN, pontine nuclei),间位核(IPN, interpositus nucleus),颗粒细胞(GC, granule cell),浦肯野细胞(PU, Purkinje cell)为核心的类脑经典条件反射模型。在实验中,类脑经典条件反射神经脉冲网络模型在GC和PU之间表现出长时程抑制(LTD),在PN和IPN之间表现出长时程增强(LTP)和长时程抑制(LTD)。

GC和PU之间的长时程抑制(LTD):

(1)在条件反射建立之前,仅有条件刺激(CS)出现时,颗粒细胞(GC, granule cell)接收来自间位核的CS,并将其投射到抑制性中间神经元(Int.N, inhibitory interneuron)。来自Int.N的抑制性刺激将抑制来自GC的兴奋性刺激和来自浦肯野细胞的自发性放电,因此PU的放电频率会立刻降到0,换句话说,PU暂停放电。由于在PU的突触后神经元不放电,GC和PU之间的突触权重不改变。

(2)在条件反射建立之前,仅有非条件刺激(US)出现时,US将投射到运动控制通路并引起非条件反射。同时,下橄榄核(IO, inferior olive)接收来自非条件刺激传输通路的US,然后通过攀援纤维(cf, climbing fiber)将其投射到间位核和浦肯野细胞。IO到PU的兴奋性输入将加强PU到IPN的抑制作用。由于在GC的突触前神经元不放电,GC和PU之间的突触权重保持不变。

(3)在习得实验中,由于US额外的兴奋性输入,PU的放电频率将逐渐衰减至0。随着GC中突触前神经元放电频率的增加和PU中突触后神经元放电频率的降低,GC和PU之间的突触权重增加并表现出长时程增强效应。GC和PU之间的突触权重随着CS和US的重复出现而下降,而来自Int.N的抑制性输入和来自IO的兴奋性输入保持不变,因此浦肯野细胞会暂停自发性放电。这一现象与文献中报道的关于眨眼条件反射的电生理实验一致并能够进行计算复现。

PN和IPN之间的长时程增强(LTP)

和长时程抑制(LTD):

在习得和消退实验中,单次实验中单个突触权重的变化如图2所示,在习得和消退实验中神经元的放电频率分别如图3和图4所示。在习得实验中,在0到2秒时,突触权重的变化是负的,因为IPN中突触后神经元放电频率的变化率小于PN中的突触前神经元放电频率的变化率。CS在2秒时结束,然后US出现并持续两秒,并在4秒时结束。从2秒到4秒,由于CS结束,突触前神经元放电频率降低,同时由于US的出现,突触后神经元放电频率增加。由于突触前神经元放电频率的降低和突触后神经元放电频率的增加,突触权重的变化是正的。当正项大于负项时,模型表现出习得效应;当正项小于负项时,模型表现出消退效应;当正项等于负项时,模型达到稳态。

图2(左):单次实验中单个突触权重变化计算建模;

图3(中):习得实验中神经元的放电频率计算建模;

图4(右):消退实验中神经元的放电频率计算建模。

近百年后续的条件反射实验进一步完善了巴普洛夫最初的实验,使得条件反射理论逐步完善。然而以往的计算建模研究至多能够明确复现10种实验现象。相较于其他模型,类脑经典条件反射脉冲神经网络模型可以复现多达15种经典条件反射实验,如表格1所示。

表格1:同其他计算模型的对比结果。*表明该模型可以复现该实验,o表明该模型能部分复现该实验,-表明该模型无法复现或文中没有提及。

类脑经典条件反射脉冲神经网络模型

能够模拟的15种经典条件反射实验

习得(Acquisition)。习得是指在条件刺激和条件响应之间建立关联的能力,是经典条件反射中最基本的过程。在习得实验中,CS先出现,间隔一段时间后US出现,重复几次后,当CS单独呈现时,将产生条件响应。习得过程如下所示。在白兔眨眼反射的习得实验中,反应水平形成一个s型曲线,类似于sigmoid函数。

刺激间隔效应(Inter-stimulus Interval Effect)。刺激间隔效应(ISI)是经典条件反射主要的实时效应。ISI表示CS与US呈现时的时间间隔,它可以分为三种类型:延迟性条件作用A、延迟性条件作用B和痕迹性条件作用。在延迟性条件作用A中,US在CS终止时立即出现;在延迟性条件作用B中,当US出现时,CS仍然存在,并且CS和US同时终止;在痕迹性条件作用中,CS和US持续时间固定,并且CS在US出现之前终止。Schneiderman和Smith的实证研究表明,在习得和消退过程中,刺激间隔时间和条件响应水平呈现下凹型曲线。

消退(Extinction)。在消退实验中,如果只呈现一个CS而随后的US不出现,则习得的条件反射将会逐渐消失。

再习得效应(Reacquisition Effect)。当动物再次学习一个已经消失的条件反射时,相比于第一次习得,它能更快地习得该条件反射。

阻塞(Blocking)。阻塞指的是以下现象:第一个刺激CS1已经建立起条件反射后,当第二个刺激CS2与CS1同时出现和结束时,第二个刺激CS2无法建立条件反射。阻断实验表明,刺激与响应的联系并不独立于早期学习。阻塞过程如下所示,其中括号用于表示CS1和CS2同时出现和结束。

二阶条件反射(Secondary Conditioning)。在二阶条件反射实验中,CS1同US引起的响应建立条件反射,然后CS1被当作US用于CS2建立条件反射。二阶条件反射的强度通常比较弱,随着CS1的逐渐消退,CS2将得到加强

条件抑制(Conditioned Inhibition)。在条件抑制实验中,CS2和CS0分别通过US建立条件反射,刺激CS1和先前的任一刺激如CS0同时出现和消失,该过程没有US出现。在测试过程中,CS1和CS2同时出现和消失,CS1将抑制CS2引起条件反射。

间隔刺激的促进作用(Facilitation by an Intermittent Stimulus)。在正常的习得实验中,在痕迹性条件作用情况下,若刺激间隔较长,CS1建立的条件反射强度将会很弱。在促进作用下,额外的CS2可以促进CS1,增加CS1建立条件反射的强度。

遮盖(Overshadowing)。在遮盖情况下,CS1和CS2同时出现和消失,CS1和CS2建立条件反射的强度要弱于正常情况下CS1或CS2单独建立条件反射的强度。

过度期望(Overexpectation)。CS1和CS2分别建立条件反射,随后CS1和CS2同时出现和消失将导致条件反射强度的减弱。

遮盖自发恢复(Recovery from overshadowing )。在遮盖实验中,CS1的消失可以导致CS2条件反射强度的增加。

阻塞自发恢复(Recovery from forward blocking )。在阻塞实验中,阻塞者CS1的消失可以导致被阻塞者CS2条件反射强度的增加。

- Natasha Varlamova -

文章的第一作者赵宇轩介绍,类脑经典条件反射模型在复现了更多经典实验现象的基础上,又从计算角度提出更加合理的解释,有助于进一步揭示条件反射的生物机制。如:

(1)在习得和消退过程中,不仅突触的权重发生变化,突触的数目也在改变,在再习得试验中,由于有更多的突触参与学习,因此相较于初次习得,再习得建立条件反射的速度更快。

(2)阻塞试验中,因为CS1和CS2同时出现和结束,单个突触权重更新的大小是一致的,但由于CS1先建立条件反射,有更多的突触参与权重更新,因此W(R,CS1)权重的变化要远远大于W(R,CS2)。

(3)二阶条件反射实验在CS2建立条件反射过程中,由于被当做US的CS1同时表现出消退效应,CS2建立的条件反射强度较低。

(4)条件抑制实验中,CS0和CS1同时出现和消失,CS0表现出消退效应,由于CS0和CS1的同步性,CS1建立抑制性连接;在测试阶段,由于抑制性连接和突触权重变化为负,CS1的抑制性突触增多,随着抑制效应的增强,CS1可以逐渐抑制由CS2引起的条件反射。

(5)促进作用实验中,正常条件下由于ISI太长,CS1建立的条件反射强度较弱;在促进作用下,CS2建立起条件反射,响应被CS2和US激活了两次,因此导致CS1建立的条件反射相对较强。

(6)在遮盖实验中,由于CS1和CS2同时出现和消失,它们建立条件反射的强度一样,二者对建立条件反射的贡献相等,因此二者的突触强度约CS1或CS2单独构建条件反射强度的一半。

(7)在过分期望实验中,CS1和CS2分别建立条件反射,随后CS1和CS2同步刺激响应神经元,响应神经元的放电频率增加更快并更持久,表现出消退效应直至模型稳定。

(8)在遮盖自发恢复实验中,CS1消失后,仅CS2刺激响应神经元,随着US的出现,CS2表现出习得效应,加强CS2条件反射的强度。

(9)在阻塞自发恢复实验中,同遮盖自发恢复实验类似,CS1消失后,仅CS2刺激响应神经元,随着US的出现,CS2表现出习得效应,加强CS2条件反射的强度。

此外,模型的表现同文献报道的生物实验结果类似,如在习得实验中,PN和IPN之间的兴奋性突触数目增加,这与文献中报道的眨眼反射的电生理实验结果一致。我们的模型表明小脑皮层,特别是位间核,在经典条件反射中起着关键作用。在我们的模型中,GC-PU突触间的长时程抑制效应导致来自GC的兴奋性输入减少。当US出现时,虽然有来自IO的兴奋性输入,但由于缺少来自GC的兴奋性输入,PU将暂停放电。在BICC模型中,经典条件反射的建立可以没有PU的参与但不能缺少IPN,这同来文献中报道的生物实验表现是一致的。另外还有如习得过程的S型曲线和间隔刺激效应的下凹型曲线也同生物实验的结果相似。

- Melike Tan -

自然与生活环境复杂多变,类脑经典条件反射学习模型可以有效提高机器人对环境的自主学习和自适应能力。以机器人运动技能的习得为例,这项研究通过习得-消退-再习得实验和速度泛化实验在类人机器人上验证了类脑经典条件反射模型的有效性。

红色机器人(被试机器人)在习得-消退-再习得实验中的视觉感知结果如图5所示。上侧为训练过程,下侧为测试过程,红色小锤为条件刺激,蓝色机器人为非条件刺激(看到蓝色机器人时,红色机器人执行躲避动作),上下侧的最后一张图为无刺激时视觉感知结果。习得过程为,小锤先出现,蓝色机器人后出现,多次训练后,红色机器人见到小锤就执行躲避动作。然而如果总是蓝色机器人先出现,小锤后出现,则无法习得躲避蓝色机器人。这与巴普洛夫实验中铃铛作为条件刺激,食物作为非条件刺激,调换铃铛和食物的出现顺序则无法习得的观察是完全一致的。消退过程为,仅小锤出现而没有蓝色机器人出现,经过一段时间后,红色机器人见到小锤不再执行躲避动作。再习得过程为,小锤先出现,蓝色机器人后出现,相较于习得过程,红色机器人可以更快的建立条件反射。

图5:基于类脑经典条件反射脉冲神经网络模型的机器人习得-消退-再习得实验

速度泛化实验如图6所示。蓝色机器人为被试机器人,白色轨道为导航轨道,黑色竖线为条件刺激,红色竖线为非条件刺激,机器人见到红色竖线则执行转弯动作。在较低速度下,机器人通过条件反射完成导航任务,在类脑经典条件反射脉冲神经网络模型的支持下,在较高速度下,机器人可以不经过训练即可完成导航任务。在速度精准可控的仿真环境下,机器人最高可以自适应3.5倍速,完成导航任务,从而明显提高了机器人的环境自适应力。

图6:基于类脑经典条件反射脉冲神经网络模型的机器人速度泛化实验

“我们课题组自己很喜欢这项工作,不仅仅是因为已经取得的进展,更因为进展为未来的探索留下了广阔的空间。”谈到未来研究工作的设想,曾毅研究员说:目前已知的18个经典条件反射我们这次发表的模型能够复现15个,虽然是已知工作中覆盖度最高的,但是仍然还有3个实验没有在计算模型中复现出来,此外我们可能还进一步能够找到其他十分具有代表性的特点的额外实验,都将帮助我们更进一步完善类脑经典条件反射的脉冲神经网络理论与模型。我们现在已经启动更深刻的研究,这不但意味着未来的工作将进一步提升我们现有模型的生物可行性和计算合理性,以再现更多的条件反射生物实验,更意味着我们将为类脑智能研究,特别是类脑认知智能体提供更完善的条件反射学习计算模型,在最基础的部分支持类脑智能的自主学习。

原标题:《巴普洛夫的狗遇见人工智能:中科院自动化所提出类脑经典条件反射学习模型》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈