当前位置: 首页 > 专利查询>天津大学专利>正文

基于EEG的普通话听觉注意解码方法及装置制造方法及图纸

技术编号:35177870 阅读:41 留言:0更新日期:2022-10-12 17:45
本发明专利技术公开了一种基于EEG的普通话听觉注意解码方法及装置,方法包括:通过深度学习架构建立EEG和语音包络之间的非线性模型,将提取得到的语音包络和采集的EEG信号作为非线性模型的输入;基于所述非线性模型,借助长短时记忆人工神经网络和基于自注意力机制的深度学习模型构建基于脑电信号的语音包络重构模型;计算重构语音包络和候选语音包络之间的Pearson

【技术实现步骤摘要】
基于EEG的普通话听觉注意解码方法及装置


[0001]本专利技术涉及脑

机接口领域,尤其涉及一种基于EEG的普通话听觉注意解码方法及装置。

技术介绍

[0002]现实生活中,感兴趣的语音信号通常伴随背景噪声、无关说话人干扰等复杂的声学条件,严重损害语音信息的理解,降低语音识别的准确性。而正常听力者本身就具有一定的语音分离和识别能力,人们面对面说话时,通常会通过提高音量、拉近与对话者距离以及调整注意力集中听取感兴趣说话者的语音来实现语音信息的无障碍沟通。人类在长期学习和生活中,不断的调整自己能力以适应噪声的影响,人耳能感知区分噪声和目标语音并且将目标语音进行分离整流上传到高级认知脑区进行语音的再加工和识别,这就是Cherry在1953年提出的鸡尾酒会效应——在鸡尾酒会中同时存在多个说话的声音且夹杂音乐声、酒杯碰撞声音以及声音经过室内物体和六个面反射传回人耳的声音是混响声,然而接收者能够从复杂的混合声波中分离出感兴趣说话者的声音并进行无障碍沟通
[1]。但是存有听觉障碍的患者不能在鸡尾酒会中分离出目标感兴趣的声音进而影响其生活质量。半个多世纪以来,计算机与医学相关研究人员尝试设计智能言语识别系统,以模仿人类听觉器官去解决鸡尾酒会问题,但是至今都没有达到理想的效果。
[0003]通俗描述鸡尾酒会问题就是关注人类在复杂听觉环境下的一种听觉选择能力,正常人可以很容易地将注意力集中在某一个感兴趣的声音刺激上并忽略其他干扰声音。如何设计出一套系统模型能够准确检测出人所关注的声音刺激并且能从复杂的声音环境中分离出目标声音刺激是听觉领域的重要模型。多模态之间的信息处理不是相互独立的。多感知整合通过组织不同模态的输入,在多模态脑区中进行处理,得到噪音更少的,更鲁棒的目标信号,从而使背景噪声和目标之间的分离,连续时间之间的分割更加容易
[2]。研究表明视觉输入对其他模态的信息处理具有非常强的影响,其中麦格克效应显示嘴唇及其周围区域的动作对言语处理起到关键作用。将一个音节“ga”在配合发作“ba”的唇部动作的视频呈现给被试看,被试称听到的音节既不是“ga”也不是“ba”,而是“da”。并且嘴唇和下颚的动作跟言语的声学包络相关,通过观看说话人正在说话的脸,能够增强听觉皮层对言语的跟踪和对目标说话人的注意选择
[4]。关于多感知整合发生在哪个阶段目前未有定论,有三种可能:一是早期整合,在相当早的处理阶段就进行融合,是一个前注意加工过程即感知驱动注意
[5

7];二是晚期整合,在整合过程中需要注意的参与;三是并行整合,即发生早期整合还是晚期整合取决于手头上任务可获得的资源。
[0004]目前,针对听觉注意解码的多采用电生理的手段,例如:脑电图(EEG)、皮层脑电(ECoG)、及立体脑电(sEEG)等。研究的语音素材基本上都是非声调语言,例如:英语、荷兰语等,对于声调语言(普通话)的研究较为空白。
[0005]声调语言使用者占全世界人口一半以上,特别是普通话的使用者人口数达到15亿以上。目前研究表明声调语言和非声调语言的脑激活状态以及神经编码方式存在不同,因
此有必要针对研究普通话的听觉注意解码架构。

技术实现思路

[0006]本专利技术提供了一种基于EEG的普通话听觉注意解码方法及装置,本专利技术将普通话作为语音素材,通过深度学习架构建立EEG和语音包络之间的非线性模型,并且构建听觉注意解码的装置;本专利技术主要解决目前没有特定的声调语言(普通话)的听觉注意解码模型,并提出非线性听觉注意力解码模型对于非声调语言的听觉注意力解码效果也有提升,详见下文描述:
[0007]一种基于EEG的普通话听觉注意解码方法,所述方法包括:
[0008]通过深度学习架构建立EEG和语音包络之间的非线性模型,将提取得到的语音包络和采集的EEG信号作为非线性模型的输入;
[0009]基于所述非线性模型,借助长短时记忆人工神经网络LSTM和基于自注意力机制的深度学习模型Transformer构建基于脑电信号的语音包络重构模型;
[0010]计算重构语音包络和候选语音包络之间的Pearson

s相关系数,将候选语音与重构语音包络的相关系数最大的语音流作为被试的听觉注意对象;对语音内容进行在线或者离线的解码,输出重构的语音包络与听觉注意对象。
[0011]其中,所述采集的EEG信号为:
[0012]采用三段注意力状态脑电数据,计算每个通道的功率谱密度,绘制出大脑的地形图,功率谱密度大于15μA2/Hz的通道与听觉注意相关的大脑区域有关,这些区域位于前额叶、颞叶和顶叶,使用17通道EEG数据,覆盖STG和前额叶作为非线性模型的输入,通过0.1

30Hz的带通滤波器将脑电信号滤波,得到与语音信号和注意力相关的脑电信息;
[0013]通过计算脑电信号的功率谱密度,获得与听觉注意相关的脑激活状态,发现普通话激活脑区在前额叶有左侧偏侧化的特征表现。
[0014]进一步地,所述语音包络为:
[0015]实验开始前,电脑屏幕会出现本次实验的两个人物传记故事梗概,被试根据个人兴趣选择感兴趣的故事,并进行按键响应,实验主试根据被试的反馈,将被试选择的人物传记音频设置到左或右声道,未被选择的传记设置到相反的声道进行噪声播放;
[0016]实验过程中,随机出现8个单项选择题,被试根据听到的音频进行回答,答案是数字或专有名词,被试听到即可做出选择;
[0017]从

300ms到0ms的EEG数据用于EEG基线校正,在EEGLAB中将脑电数据下采样到128Hz,以保证脑电数据的采样率和语音包络一致,EEG数据被过滤到0.1

35Hz,将采集到的语音信号按照汉语普通话的频率分布范围100

8000Hz,在范围内取对数线性分布128个频率段,进行语音包络提取,经过希尔伯特

黄变换提取语音包络,然后每八个频率段进行叠加平均获得16个语音包络,16个语音包络再进行线性组合得到普通话的整体语音包络。
[0018]其中,所述语音包络重构模型具体为:
[0019]1)预处理数据并初始化权重矩阵和偏置向量;
[0020]2)使用反向传播和基于梯度的优化器训练神经网络,并更新权重系数和偏置向量以最小化损失函数;
[0021]3)通过在重构和候选语音包络之间执行Pearson

s相关性计算来确定解码精度;
[0022]4)通过重复步骤2)到3),优化LSTM模型的超参数,直到得到精度最高模型;
[0023]5)将所有受试者的语音包络和相应的脑电图数据,分为训练集、验证集和测试集进行模型训练和测试,每个数据集之间没有数据重复;
[0024]6)根据Pearson相关系数,网络在目标和重建的语音包络之间进行训练,Mini

batch设置为20,随机梯度下降本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于EEG的普通话听觉注意解码方法,其特征在于,所述方法包括:通过深度学习架构建立EEG和语音包络之间的非线性模型,将提取得到的语音包络和采集的EEG信号作为非线性模型的输入;基于所述非线性模型,借助长短时记忆人工神经网络LSTM和基于自注意力机制的深度学习模型Transformer构建基于脑电信号的语音包络重构模型;计算重构语音包络和候选语音包络之间的Pearson

s相关系数,将候选语音与重构语音包络的相关系数最大的语音流作为被试的听觉注意对象;对语音内容进行在线或者离线的解码,输出重构的语音包络与听觉注意对象。2.根据权利要求1所述的一种基于EEG的普通话听觉注意解码方法,其特征在于,所述采集的EEG信号为:采用三段注意力状态脑电数据,计算每个通道的功率谱密度,绘制出大脑的地形图,功率谱密度大于15μV2/Hz的通道与听觉注意相关的大脑区域有关,这些区域位于前额叶、颞叶和顶叶,使用17通道EEG数据,覆盖STG和前额叶作为非线性模型的输入,通过0.1

30Hz的带通滤波器将脑电信号滤波,得到与语音信号和注意力相关的脑电信息;通过计算脑电信号的功率谱密度,获得与听觉注意相关的脑激活状态,发现普通话激活脑区在前额叶有左侧偏侧化的特征表现。3.根据权利要求1所述的一种基于EEG的普通话听觉注意解码方法,其特征在于,所述语音包络为:实验开始前,电脑屏幕会出现本次实验的两个人物传记故事梗概,被试根据个人兴趣选择感兴趣的故事,并进行按键响应,实验主试根据被试的反馈,将被试选择的人物传记音频设置到左或右声道,未被选择的传记设置到相反的声道进行噪声播放;实验过程中,随机出现8个单项选择题,被试根据听到的音频进行回答,答案是数字或专有名词,被试听到即可做出选择;从

300ms到0ms的EEG数据用于EEG基线校正,在EEGLAB中将脑电数据下采样到128Hz,以保证脑电数据的采样率和语音包络一致,EEG数据被过滤到0.1

35Hz;将采集到的语音信号按照汉语普通话的频率分布范围100

8000Hz,在范围内取对数线性分布128个频率段,进行语音包络提取,经过希尔伯特

黄变换提取语音包络,然后每八个频率段进行叠加平均获得16个语音包络,16个语音包络再进行线性组合得到普通话的整体语音包络。4.根据权利要求1所述的一种基于EEG的普通话听觉注意解码方法,其特征在...

【专利技术属性】
技术研发人员:倪广健许淄豪白艳茹于韩
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1