- +1
汉语言脑机接口新突破:神经外科吴劲松团队与合作团队从“意念”合成汉语语音
语言是人类所特有的高级认知功能,是人类文明传承的载体。脑脊髓外伤、脑卒中、脑肿瘤、渐冻症等各类脑疾病可使患者丧失语言表达能力,造成严重的语言功能障碍,极大影响患者的生活质量,给社会和家庭造成巨大负担。实现大脑的“意念”解码并合成语音(语言脑机接口),不仅面向人民生命健康,帮助那些失去语言表达能力的患者重建语言功能,更有助于面向国际科技前沿实现“意念交流”。
国际上利用语言脑机接口技术已经初步实现了英语的语音合成。然而,汉语作为声调语言具有特殊性,英语解码的神经机制和算法无法直接应用于汉语语言,目前汉语脑机接口仍是空白。
为了实现汉语声调语言脑机接口,来自复旦大学附属华山医院神经外科的吴劲松/路俊锋教授团队,联合上海科技大学李远宁教授团队、天津大学明东/许敏鹏教授团队采用高密度皮层脑电技术(high-density ECoG),解码了表征声调及音节构音的神经活动,建立了适用于汉语声调的深度学习算法模型,最终在国际上首次实现了将大脑神经活动转化为汉语单音节声调语音的合成表达。
北京时间2023年6月10日凌晨,研究成果以“Decoding and synthesizing tonal language speech from brain activity”(《从大脑活动中解码及合成声调语言语音》)为题发表于Science子刊Science Advances。
此项研究实现单被试最高声调音节平均分类正确率达到76%,单字解码分类正确率达到91%(随机基线为12.5%)。与此同时,研究团队在客观指标上引入梅尔频谱失真度(MCD)对合成声音进行定量分析,发现所有被试的合成声音平均失真度(MCD)均在2.53dB至3.20dB之间,远低于机器语音识别系统公认的可识别上限8dB(超过8dB代表机器语音无法识别)。研究团队还招募了31名志愿者对合成的声音进行主观听测和语音质量评估,所有被试的声调听测准确率在81.7% 至 92.3%之间;合成声调语音的平均主观得分(MOS)平均分为3.86分(最高分为5分),这意味着合成的声调语音基本达到了“只需要一点注意力即可听清“的水平。
这项工作首次实现了汉语声调语言端到端的解码及语音合成,为未来“植入式汉语言脑机接口”提供了针对汉语声调独特性的解码分析方案,并提出了一种可被推广借鉴的深度学习框架,为最终实现汉语语言脑机接口奠定了理论和技术基础。复旦大学附属华山医院吴劲松教授、路俊锋副主任医师、上海科技大学李远宁研究员为论文的通讯作者,复旦大学附属华山医院神经外科博士研究生刘衍、赵泽昊及天津大学许敏鹏教授为论文的共同第一作者。本研究得到了复旦大学附属华山医院神经外科周良辅院士、毛颖院长的直接领导和大力支持,同时也得到了麻醉科主任王英伟教授、车薛华教授、邓萌教授、彭悦蓉、平易、曹莉医生等,护理部赖兰护士长、吴秋月护士长、王烨、陈颖帅护士等,神经外科电生理团队马耐耐等、导航团队李振宇等的帮助和支持。本研究同时得到了国家科技创新2030-“脑科学与类脑研究”重大项目(青年)、上海市“脑与类脑智能基础转化应用研究”市级科技重大专项以及上海市教育委员会科研创新计划重大项目、上海市浦江人才等项目的支持。
文 | 神经外科刘衍、路俊锋
喜欢就奖励一个“”和“在看”呗原标题:《汉语言脑机接口新突破:神经外科吴劲松团队与合作团队从“意念”合成汉语语音》
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。





- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2026 上海东方报业有限公司




