下载客户端

Nat. Commun.速递：语义与词语预测从模仿小脑的人工神经网络中涌现

2024-02-17 10:19

来源：澎湃新闻·澎湃号·湃客

听全文

原创集智编辑部集智俱乐部

关键词：认知神经科学，语言处理模型，生物约束的人工神经网络，涌现

论文题目：Emergence of syntax and word prediction in an artificial neural circuit of the cerebellum

论文期刊：Nature Communications

论文地址：https://www.nature.com/articles/s41467-024-44801-6

语言理解是支持人类交流和知识获取的重要认知功能，然而，特定大脑回路内神经元活动水平的潜在机制在很大程度上仍未被探索。人工神经网络是发现大脑如何处理语言提供了宝贵的工具，因为没有建立的动物模型，并且来自人类侵入性记录的数据也很有限。虽然最近人工智能的进步催生了试图复制大脑功能的人工神经网络模型，但这些模型并没有充分考虑生物限制。例如，基于 Transformer 算法的语言处理模型广泛应用于 ChatGPT 等语言处理人工智能中，但它偏离了实际的大脑生理学。这是因为基于 Transformer 的模型缺乏人工神经元，并且将句子作为单个单元而不是单个单词的序列进行处理。因此，创建生物约束的人工神经网络模型对于阐明语言处理中涉及的大脑回路的计算过程至关重要。

为了更好地理解小脑语言处理的计算基础，本研究开发了一种生物约束的小脑人工神经网络（cANN）模型，该模型实现了最近确定的小脑-小脑循环连接（cerebello-cerebellar recurrent pathway）。研究发现，在cANN获得对未来单词预测的同时，句法识别的另一个功能在预测电路的中间层涌现。cANN 的循环连接对于两种语言功能至关重要，而具有进一步生物学限制的 cANN 变体保留了这些功能。考虑到小脑连接在所有功能域中的统一结构，作为两种语言功能的共同基础的单连接计算模式可以推广到预测和从序列中提取类似语法规则的基本小脑功能上，上述功能支撑着广泛的小脑运动和认知功能。这是一项开创性的研究，旨在利用生物约束的人工神经网络来理解人类特征认知的电路计算。这也提出了一种治疗语言功能障碍的潜在方法，其中单词预测训练可以改善句法理解。

图1：用于重建小脑语言功能的 cANN 局部电路模型。a 带有用于下一个字预测的输入/输出的框图。b 三层小脑回路，由前馈通路（棕色）和循环通路（蓝色）组成。c、d 20 个接受下一个词预测训练的 cANN 的预测误差学习曲和正确预测百分比 e 由训练有素的 cANN 对句子中“the”的两个实例进行预测（五个候选词）。正确的预测以红色突出显示，同义词以橙色突出显示。

图2：cANN 的下一个单词预测和网络动态。a）a、b 两个句子中出现三个“the”（已索引）实例后的预测。c 通过 PCA 输入每个单词后浦肯野细胞神经活动的可视化。从句子的开头到结尾，单词以颜色编码，自发活动由黑点表示。d 循环信号被阻止时的预测

图3：cANN的句法处理。在用于分类的维度中输入主语（蓝色）、动词（红色）和宾语（黄色）后浦肯野细胞的神经活动可视化。具有较长主语（三个单词）的句子的活动转换突出显示（深灰色痕迹）。b 用于句法处理的输入/输出。d 前馈输入、浦肯野、前馈输出单元和正确答案信号中包含的句法信息分离的几率为 50%（灰色水平线）。e 循环信号被阻止时的句法信息。

图4：cANN 提出的两种小脑语言功能共同由同一神经网络承担架构

句子理解涉及回忆单词的含义并根据语法适当地组合它们以构成句子的含义。在此过程中，两个主要的语言功能与右侧小脑相关联：第一个是下一个单词预测，它通过将输入单词置于上下文预测中来支持更快、更准确的句子理解，特别是在嘈杂的环境中。尽管在新皮质语言区中也报道了与该功能相关的神经活动，但已经积累了更实质性的证据，包括因果关系，说明小脑参与该功能。第二个功能是语法处理，特别是主谓宾信息的句法识别。这两种语言功能反映了支持多种认知功能的两种更普遍的小脑功能。一是外部事件的预测，下一个单词预测是该通用功能在语言处理中的显现。另一个是从事件序列中提取规则，语法识别是该功能在语言处理中的显现。尽管这两种一般功能是各种小脑认知功能的基础，但仍不清楚这些不同的功能是如何在具有统一细胞结构的小脑回路中实现的。为了解决这一知识差距，需要通过人工神经网络来阐明底层网络动态。

如图4所示，cANN经过训练以生成下一个单词预测的输出（红色）。同时，为了提高预测准确性，预测输出神经元（蓝色）的上游出现了句法处理网络，使得浦肯野细胞动力学代表 S-V-O 句法信息。在小脑内部模型框架（底部）内，下一个词预测对应于未来事件预测，与内部模型功能的传统理解保持一致。此外，句法处理对应于从顺序事件中提取结构特征，cANN 将其表示为内部模型的另一个关键功能。内部模型的预测对于从运动控制到认知的各种功能至关重要；例如，人类使用工具的运动序列具有类似分层语法的结构（称为“动作语法”）。因此，该研究提出cANN 的电路计算是小脑计算的通用基础，而小脑计算是广泛的运动和认知功能的基础。

新皮质和小脑紧密相连并合作实现复杂的功能，例如语言处理。然而，目前尚不清楚这两个区域的功能有何不同以及如何共享角色。当与语言障碍的临床发现相结合时，cANN 可以深入了解新皮质和小脑的不同作用。尽管小脑的作用在成人中有限，因此小脑的语言功能被认为从属于新皮质的语言功能，但在儿童中，小脑语言障碍会导致永久性和严重的缺陷，包括语法错误，表明新皮质的发育需要小脑的支持。cANN 独立于新皮质提取句法信息的能力表明，句法信息是在发育过程中从小脑发送的。如果新皮质能够将 S-V-O 信息与单词本身关联起来，产生单词类别等信息，那么这个过程就会逐渐变得自我维持，与临床观察结果一致。根据之前的研究，当两个功能共享一个神经网络时，训练完成一个功能可以改善另一个功能，在语言中也是如此。根据该研究结果预测，预测下一个单词的训练将提高处理复杂语法句子的能力，从而导致语言处理和语言功能障碍康复训练的发展。

文中还提到了收敛的 cANN ，收敛的 cANN 由 10 个模块组成，每个模块都包含与图 1b 中的原始 cANN 相同的电路，只是有 16 个输出单元。每次预测后，预测误差仅提供给产生与实际下一个单词的正确答案信号最接近的输出的模块。收敛的cANN将浦肯野输出连接中的收敛进一步约束合并到原始 cANN 中，与语言处理 AI 的典型网络设计有很大不同。典型的人工智能设计使用包含语义信息的压缩词表征作为输入，使用稀疏的词嵌入表征作为输出。这种方法旨在输入阶段提供额外信息来提升预测准确性，而cANN提旨在帮助列出多个下一个单词候选者并容纳具有各种语法正确分支的句子。相反，收敛的 cANN 对输入采用稀疏编码，对输出采用压缩词表示。这种设计可以解释为旨在从信息贫乏的输入中学习信息丰富的输出，提出了一种新颖的受大脑启发的人工智能电路。预计未来的研究将揭示这种网络架构的潜力。

编译｜郭瑞东

原标题：《Nat. Commun.速递：语义与词语预测从模仿小脑的人工神经网络中涌现》

阅读原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报