澎湃Logo
下载客户端

登录

  • +1

专访|斯坦福团队:“心理手写”转文字,脑机接口如何快又准

澎湃新闻首席记者 贺梨萍
2021-05-13 07:32
来源:澎湃新闻
科学湃 >
字号

中风、脊髓损伤瘫痪、肌萎缩侧索硬化(ALS)等患者,是脑机接口(BCI)领域的重要研究切入口,科学家们利用先进的技术试图重建这部分人的正常生活。此前的脑机接口已经不同程度上解锁了伸手、抓握或移动电脑光标这样的大动作技能,但更复杂和对灵敏度要求更高的技能才是脑机接口最终的证明。

北京时间5月12日晚间,顶级学术期刊《自然》(Nature)以封面文章的形式刊发了由斯坦福大学、布朗大学、哈佛医学院等团队的研究人员联合完成的一项里程碑式研究,题为“High-performance brain-to-text communication via handwriting”。该研究回归到古老的表达自方式——手写,首次解码了与书写有关的神经信号,并实时显示它们。

研究团队将人工智能软件与一款脑机接口设备结合起来,与一名大脑中植入脑机接口设备的瘫痪患者合作,让该患者想象他拿着一支笔,在一张横线纸上“尝试”写字,就像他的手没有瘫痪一样。并将该男子手写意图快速转换为电脑屏幕上的文本。

“这种脑机接口是为那些患有‘闭锁综合征’(Locked-in Syndrome)的人设计的,这些人群几乎所有的随意肌都瘫痪,无法说话或交流。”该项研究的通讯作者同时也是第一作者的Francis R. Willett博士在接受澎湃新闻(www.thepaper.cn)记者专访时表示,“想象一下,如果你只能上下移动你的眼睛却动弹不得,这样的设备可以让输入你想法的速度与正常的手写或在智能手机上打字相媲美。”

Willett是斯坦福大学神经修复转化实验室的研究科学家,由霍华德·休斯医学研究所任命。他的研究工作主要围绕改善脑机接口、理解大脑是如何表现和控制运动的。除Willett之外,该项研究主要由斯坦福大学神经外科医生Henderson,斯坦福大学霍华德·休斯医学研究所研究员Krishna Shenoy共同指导,Willett即是Shenoy团队中的一员。Shenoy和Henderson则从2005年就开始合作脑机接口研究。

《自然》还同期刊发了华盛顿大学Pavithra Rajeswaran、Amy Orsborn两位研究人员对该项研究的观点文章。“尽管还有很多工作要做, Willett及其同事的这项研究是一个里程碑,拓宽了侵入式脑机接口应用的视野。”他们评价道,这项研究中的方法“使允许快速交流的神经接口更接近现实。”

加州大学伯克利分校的神经工程师Jose Carmena没有参与这项研究。他说,这项技术以及其他类似技术有潜力帮助各种残疾人士。虽然这些发现只是初步的,“但这是该领域的一大进步。”Carmena说,脑机接口将思想转化为行动,“这篇论文就是一个很好的例子,解码了书写的意图,并产生了动作。”

这项研究中使用的脑机接口仅用于研究,尚未批准用于商业用途。斯坦福大学技术许可办公室已经申请了与Willett、Henderson和Shenoy的工作有关的知识产权专利。

研究人员第一次破解了关于字母书写的神经信号,使这些字母可以实时显示出来。(01:40)
“找到让人们交流更快的新方法”

这项研究开发的脑机接口对无法正常说话的人群有多重要?“如果是脑机接口,Jean-Dominique Bauby可能每分钟能写18个单词。”Willett对澎湃新闻记者如是表示。

Jean-Dominique Bauby为原法国时尚杂志ELLE总编辑,其突然中风,随后全身瘫痪,只剩下眼睛能眨动。《潜水钟与蝴蝶》是他罹患闭锁综合征后所作的传记,为了写这本书,一位辅助者将法语字母表中的所有字母一一列出,然后Bauby眨一下左眼才能选择他想要的字母,写一个单词可能需要几分钟。

Henderson 也同样谈到这一例子。“他能够写出这本动人而美丽的书,是因为他竭尽所能地选择字母,一次一个,并使用了眼球运动。想象一下,如果有了Willett的手写脑机接口,他能做什么!”

实际上,因不同原因导致行动或说话能力丧失的人对脑机接口的需求不一。失去手功能的人仍然可以使用带有语音识别和其他软件的设备,而对于那些说话有困难的人,科学家们则一直在开发其他方式来帮助人们交流。

目前商用的辅助打字设备主要依赖于使用者能够进行眼球运动或发出语音命令。例如,眼球追踪键盘可以让瘫痪者每分钟输入约47.5个字符,比没有损伤的人每分钟输入115个字符的速度要慢。然而,这些技术不适用于瘫痪同时损害了眼球运动或发声的人。

而到目前为止,用于打字输入的脑机接口还无法与眼球追踪器等更简单的辅助技术竞争。Rajeswaran等人在观点文章中指出,原因之一是打字是一项复杂的任务,在英语中,我们就需要从26个字母中选择。根据用户的神经活动来预测他们想选择哪个字母,以此构建一个分类算法,这也是一项具有挑战性的工作。

目前最成功的侵入式脑机接口也是Shenoy团队于2017年在eLife杂志发表的一项研究。在那项研究中,包括T5(此项最新研究中的参与者)在内的三个肢体瘫痪的参与者,都在运动皮层植入了脑机接口,他们被要求全神贯注将光标从电脑屏幕上的一个键移动到另一个键,然后集中精力点击那个键。

在那项研究中,T5创造了迄今为止的最高记录:以每分钟40个字符的速度抄写显示出来的句子。但这些侵入式脑机接口,和非侵入性的眼球追踪器一样,占用了用户的视觉注意力,并且不能提供明显更快的输入速度。

如果说2017年研究的模式类似于打字,那么此次这项新研究则类似于手写,而此前没人想过直接手写。Willett想知道,是否有可能利用书写时引发的大脑信号,“我们想找到让人们交流更快的新方法。”研究团队因此与T5继续合作。T5当时65岁,其在2007年因为脊髓损伤瘫痪,几乎丧失了颈部以下的所有活动能力。

“脑转文”脑机接口

Willett等人的新方法需要一种分类算法,能够预测瘫痪用户试图书写的26个字母或5个标点符号,这是具有挑战性的技术,因为科学家们无法观察到这些意图。

为克服这一挑战,Willett等人基于一种最初为语音识别开发的机器学习算法,重新设计了另一种算法。这使得他们能够仅根据神经活动来估计参与者何时开始尝试书写一个字符。根据这些信息,研究团队生成了一个带有标签的数据集,其中包含每个字符对应的神经活动模式。他们用这个数据集来训练分类算法。

“当我们第一次开始探索手写脑机接口的概念时,我们不知道在瘫痪多年后,尝试的手写动作是否仍能唤起强烈和可重复的神经活动模式。”

Willett对澎湃新闻记者表示,“令人兴奋的是,当我们要求参与者来手写不同的字母时,尽管他的手已经瘫痪十多年,我们仍然可以看到明显的神经活动模式,甚至足以重现他想象中的那支笔的动作,并展现出他想写的字母。”

研究参与者想象书写一个字母或符号时,他脑中的传感器可以感知到电活动的模式并转化为书写痕迹。(00:12)
为了实现准确的分类,Willett等人的分类算法还使用了现有的机器学习方法,以及一种叫做递归神经网络(RNN)的人工神经网络,这种神经网络特别擅长预测顺序数据。Rajeswaran等人在观点文章中提到,利用RNN的能力前提是需要大量的训练数据,但这些数据在神经接口中是有限的,因为很少有用户愿意想象连续写作数小时。

研究团队则用一种被称为数据增强的方法解决了该问题。在这种方法中,参与者先前产生的神经活动模式被用来产生句子,在这些句子上训练RNN。他们还通过在神经活动模式中引入人为的变化来扩展他们的训练数据,以模仿人类大脑中自然发生的变化。

在这项研究中,T5同样需要集中精力,试图用一支假想的笔在假想的本子上写出单个字母。他把每个字母重复10次,让软件“学习”识别与他尝试写那个特定字母相关的神经信号。

在接下来数小时的测试中,T5被展示了几组句子,并被要求在心里尝试“手写”每一个句子,没有使用大写字母。这些句子比如,“i interrupted, unable to keep silent,”和“within thirty seconds the army had landed.”。

随着时间的推移,这些算法提高了它们区分代表不同字母或符号的神经放电模式的能力。算法对T5意图写的任何字母的解读在大约半秒的延迟后出现在电脑屏幕上。

T5还被要求复制算法从未接触过的句子。他最终能够每分钟生成90个字符,大约18个单词。之后,他被要求回答开放性的问题(需要一些停顿来思考),他每分钟写了73.8个字符(平均接近15个单词),是2017年研究中自由书写记录速度的三倍。

Willett等人的算法提供了令人印象深刻的准确分类。复制错误率大约是每18或19个字符中有一个错误;自由书写错误率约为每11或12个字符中有一个。当研究人员通过包括预测语言模型(类似于智能手机上的自动纠错功能)后,错误率明显较低:复制的错误率低于1%,自由书写的错误率略高于2%。

“与其他脑机接口相比,这些错误率相当低。”Shenoy说。

两个微小的植入电极矩阵可以将控制手和手臂的脑区信息转化为算法,再翻译成屏幕上的字母。(00:10)
何时转化为真正的产品?

值得注意的是,此次研究中,Willett等人得出另一重要结论。Willett对澎湃新闻记者表示,“这款脑机接口的速度比之前更快,这是由像书写不同的字母这样的复杂运动唤起的神经活动模式,更容易区分。我们发现,要求参与者手写不同的字母,在他的大脑中唤起了非常独特的神经活动模式。”

Willett等人认为,这使得他们能够在更快的速度下同时达到比以前更高的准确性。

“当你只能记录传感器采集到的少量神经元时(与运动脑区的数百万神经元相比),有非常不同的神经模式是有帮助的,意外混淆它们的几率就会很低。这就是为什么复杂的运动,比如写不同的字母,可能更容易解码,复杂性使它们更独特,彼此不同。”Willett进一步解释道,相比之下,之前最先进的打字方式,“沿着直线移动到不同的键上,会唤起非常相似的神经活动模式,因为所涉及的只是一个有着不同角度或不同距离的直线运动。”

这也意味着,也许与我们直觉的认为相反,解码复杂的行为比简单的行为更有利,特别是在分类任务中。这些信息对未来的脑机接口研究将有重要的借鉴意义。

当然,这项研究也并非完美。在投入大规模临床应用前,仍需进一步验证该技术的使用寿命、安全性和效果。Rajeswaran等人在观点文章中即写道,该技术“需要拥有极佳的效果和使用益处,才能证明在患者脑部植入电极所产生的费用和风险是值得的。”

输入速度并不是决定是否采用该技术的唯一因素。Rajeswaran等人认为,要使该设备能在整个生命周期内保持性能,比如遇到神经活动模式改变时表现如何,这可能还需要进一步的研究。继续研究以测试该方法是否能推广到其他用户和实验室之外的设置,这也将是至关重要的。

Rajeswaran等人还关注到另一个问题,即该方法将如何扩展并转化为其他语言?Willett等人的研究也表明,有几个字符写起来会类似,比如r、v和u,因此比其他字符更难分类。“我们中的一个人(Rajeswaran)说泰米尔语,泰米尔语有247个字母,通常是密切相关的,所以可能很难分类。”他们在文章中写道。

Willett则对澎湃新闻记者表示,要将这项技术转化为真正的产品,就需要简化它,用户应该不需要花费太多时间来培训它就能够使用这款脑机接口。此外,它应该足够智能,能够自动跟踪神经活动的实时变化,这样用户就不必每天停下来重新训练系统。最后,微电极装置应是无线且完全植入。

“这是一个公司创造一个真实世界的产品必须要完成的工作。”他表示,在这项研究中,他们只是进行了一个概念验证的演示,“手写脑机接口是一个令人兴奋和潜在的可行方法,使得我们可以恢复与严重瘫痪的人的交流。”

一个新的更全面的系统

值得注意的是,Shenoy的团队在设想,将手写文本输入作为一个更全面系统中的一部分,该系统还包括指向点击,就像目前智能手机上使用的那样,甚至还包括语音解码。Shenoy说道,“拥有这两种或三种模式并在它们之间切换是我们必然要做的。”

Shenoy说,接下来,研究团队打算与无法说话的参与者合作,比如患有肌萎缩性脊髓侧索硬化症的人,这是一种退行性神经疾病,会导致运动和语言能力丧失。

“虽然现在手写每分钟可以接近20个单词,但我们的语速往往在每分钟125个单词左右,这是补充手写的另一个令人兴奋的方向。如果将这些系统结合起来,可以为患者提供更多有效沟通的选择。”Shenoy说。

Willett在接受澎湃新闻记者采访时也类似提到,目前脑机接口的另一个令人兴奋的方向是“语音解码”。语音解码脑机接口的工作原理是解码不能说话的人试图说话的动作,并将其翻译成合成语音或文本。

“这种可能性令人兴奋,因为语言是一种非常快速的交流方式,但目前的语音脑接机口既缺乏准确性,也缺乏恢复通用会话所需的‘词汇量’。”

他强调,解码语音可能比解码手写更难,因为它更快,因此需要更高保真度的神经记录和更好的算法来确保每个音节都能被准确识别。“因此,就目前而言,我们的手写脑机接口是最快的工作脑机接口,足够准确,可以恢复普遍的交流,因为用户可以用它输入任何单词。”

尽管如此,Willett仍在努力改进语音解码脑机接口。“我们认为,为手写脑机接口开发的算法也可能对语音解码非常有用,因为手写和语音都是由语言构成的快速行为序列,它们有很多共同之处。”

论文链接:https://www.nature.com/articles/s41586-021-03506-2

    责任编辑:李跃群
    校对:刘威
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈