脑机接口最新研究:失语瘫痪者每分钟“说”出近30字符,平均错误率仅8.23%-焦点速读
只要一个人的大脑神经活动还在,科学家们就有可能帮助失语瘫痪患者(由于严重声带和肢体瘫痪而交流受限)恢复应该有的交流能力。
脑机接口被寄予厚望,是近年来神经科学中最前沿的研究领域之一。
(资料图片)
在一项最新研究中,来自美国加州大学旧金山分校的科研团队设计了一个神经假体,这种神经假体可以将脑活动转译为单个字母,实时拼出完整句子,展示在一名失语瘫痪患者面前。
据介绍,由该神经假体能构成的拼写系统能够以每分钟 29.4 个字符的速度生成句子,平均字符错误率仅为 6.13%,且可以推广到包含 9000 多个词的词汇表中。
相关研究论文以“Generalizable spelling using a speech neuroprosthesis in an individual with severe limb and vocal paralysis”为题,已于今日发表在科学期刊 Nature Communications 上。神经外科医生、加州大学旧金山分校神经外科和生理学副教授 Edward Chang 为该论文的通讯作者。
这一研究成果凸显了无声控制的语言神经假体通过基于拼读的方法生成句子的巨大潜力。
曾让瘫痪15年男子恢复“说话”能力
理论上,通过在人(或动物)与外部设备之间建立信息传输通路,并利用人工智能等技术构建映射关系,就可以将人(或动物)的意识显示在机器上。
此前,来自斯坦福大学的科研团队就成功开发出一套脑机接口系统,该系统利用大脑运动皮层的神经活动可解码 “手写” 笔迹,并使用循环神经网络(RNN)将笔迹实时翻译成文本,成功呈现在电脑屏幕上。
同样,早在去年 7 月,Chang 团队就曾首次使用脑机接口帮助一位瘫痪超过 15 年的失语男子 BRAVO1 恢复了“说话”的能力。
据了解,BRAVO1 在 20 岁时因严重的脑干中风瘫痪并失语,只有头、脖子和四肢能进行极为有限的活动,但其大脑的认知功能完好无损。
他们为 BRAVO1 开发了一个包含 50 个单词的系统,该系统每分钟可以解码 15.2 个单词,准确率中值为 75%。
在独立单词任务中,BRAVO1 先会看到 50 个常用单词中的一个。当屏幕上的单词变成绿色时,BRAVO1 便开始用意念 “说” 出这个单词,进而让电极记录下他的神经活动。据论文描述,研究团队共计进行了 9000 次单词任务,有效数据时长为 22 个小时。
然而,这一系统受限于特定词汇表,参与者必须尝试大声说出这些词,这对于失语瘫痪的患者来说,是一项非常困难的任务。
在此次工作中,研究团队通过设计其系统解码与音标字母相关的脑活动,将此前的方法拓展到了更大的词汇量,并提高了拼写速度和准确性。
“会说话”的神经假体
神经假体是一种可以替代缺失的神经系统功能的设备,有望为因失语瘫痪而无法说话或打字的患者恢复交流能力。
然而,人们尚不清楚是否可以通过无声地尝试说话来控制交流神经假体。
在测试中,在参与者尝试无声地说出每个字母发音时,新系统能够解码参与者的脑活动,整个拼写过程如下图所示。
图|工作示意图。(来源:该论文)
在句子拼写试验开始时,参与者试图默念一个单词来主动激活拼写器(图 a),在整个任务过程中,新系统从电极记录的皮层数据中实时提取神经特征(高伽马活动和低频信号),麦克风信号表明在执行任务期间没有声音输出(图 b)。
据论文描述,语音检测模型由 RNN 和阈值计算构成,通过处理神经特征来检测无声语音尝试,一旦检测到,拼写过程就会开始(图 c)。
在拼写过程中,参与者在每 2.5 秒发生一次的字母解码周期中拼写想要表达的信息,在每个周期内,都会看到一个倒计时,最后看到一个代表“开始”的提示,然后试图默念出代表所需字母的代码字(图 d);在整个拼写过程中计算所有电极通道的高伽马活动和低频信号,并将其分成 2.5 秒的非重叠时间窗口(图 e)。
随后,基于 RNN 的字母分类模型会处理每一个神经时间窗,预测参与者试图默念 26 个可能的代码字或者试图执行一个手动命令的概率,如果预测手动命令的概率达到了 80% 以上,则拼写过程结束,否则预测的字母概率继续由波束搜索算法进行实时处理,并将最有可能的句子显示给参与者(图 f)。
最后,当参与者拼出想要表达的信息后,可以通过握紧右手来结束拼写过程,最后完成整个句子(图 g),与手动指令相关的神经时间窗会被传递给分类模型(图 h),如果分类模型收到了参与者的手动命令,基于神经网络的语言模型(DistilGPT-2)就会对有效句子重新评分,评分后最有可能的句子被用作最终的预测(图 i)。
测试结果显示,参与者从一个1152 个单词的词汇表里,能够以每分钟 29.4 个字符的速度生成句子,平均字符错误率仅为 6.13%。
在进一步的实验中,研究团队发现,这一方法可以推广到包含9000 多个单词的词汇表中,平均错误率也只有8.23%。
以上研究结果表明,基于拼读方法利用语音编码词汇生成句子的无声控制语言神经假体具有相当大的应用潜力。
未来,研究团队还需要继续研究该方法是否能在更多患者中达到同样或者更好的效果。
参考资料:
https://www.nature.com/articles/s41467-022-33611-3
https://www.youtube.com/watch?v=RRX0j32ABSU&ab_channel=NPGPress
https://changlab.ucsf.edu/edward-chang
责任编辑:
标签: