基于EEG的普通话听觉注意解码方法及装置制造方法及图纸

技术编号：35177870 阅读：41 留言：0更新日期：2022-10-12 17:45

本发明专利技术公开了一种基于EEG的普通话听觉注意解码方法及装置，方法包括：通过深度学习架构建立EEG和语音包络之间的非线性模型，将提取得到的语音包络和采集的EEG信号作为非线性模型的输入；基于所述非线性模型，借助长短时记忆人工神经网络和基于自注意力机制的深度学习模型构建基于脑电信号的语音包络重构模型；计算重构语音包络和候选语音包络之间的Pearson

全部详细技术资料下载

【技术实现步骤摘要】
基于EEG的普通话听觉注意解码方法及装置

[0001]本专利技术涉及脑
‑
机接口领域，尤其涉及一种基于EEG的普通话听觉注意解码方法及装置。

技术介绍

[0002]现实生活中，感兴趣的语音信号通常伴随背景噪声、无关说话人干扰等复杂的声学条件，严重损害语音信息的理解，降低语音识别的准确性。而正常听力者本身就具有一定的语音分离和识别能力，人们面对面说话时，通常会通过提高音量、拉近与对话者距离以及调整注意力集中听取感兴趣说话者的语音来实现语音信息的无障碍沟通。人类在长期学习和生活中，不断的调整自己能力以适应噪声的影响，人耳能感知区分噪声和目标语音并且将目标语音进行分离整流上传到高级认知脑区进行语音的再加工和识别，这就是Cherry在1953年提出的鸡尾酒会效应——在鸡尾酒会中同时存在多个说话的声音且夹杂音乐声、酒杯碰撞声音以及声音经过室内物体和六个面反射传回人耳的声音是混响声，然而接收者能够从复杂的混合声波中分离出感兴趣说话者的声音并进行无障碍沟通
[1]。但是存有听觉障碍的患者不能在鸡尾酒会中分离出目标感兴趣的声音进而影响其生活质量。半个多世纪以来，计算机与医学相关研究人员尝试设计智能言语识别系统，以模仿人类听觉器官去解决鸡尾酒会问题，但是至今都没有达到理想的效果。
[0003]通俗描述鸡尾酒会问题就是关注人类在复杂听觉环境下的一种听觉选择能力，正常人可以很容易地将注意力集中在某一个感兴趣的声音刺激上并忽略其他干扰声音。如何设计出一套系统模型能够准确检测出人所关注的声音刺激并且能从复杂的...

【技术保护点】

【技术特征摘要】
1.一种基于EEG的普通话听觉注意解码方法，其特征在于，所述方法包括：通过深度学习架构建立EEG和语音包络之间的非线性模型，将提取得到的语音包络和采集的EEG信号作为非线性模型的输入；基于所述非线性模型，借助长短时记忆人工神经网络LSTM和基于自注意力机制的深度学习模型Transformer构建基于脑电信号的语音包络重构模型；计算重构语音包络和候选语音包络之间的Pearson
’
s相关系数，将候选语音与重构语音包络的相关系数最大的语音流作为被试的听觉注意对象；对语音内容进行在线或者离线的解码，输出重构的语音包络与听觉注意对象。2.根据权利要求1所述的一种基于EEG的普通话听觉注意解码方法，其特征在于，所述采集的EEG信号为：采用三段注意力状态脑电数据，计算每个通道的功率谱密度，绘制出大脑的地形图，功率谱密度大于15μV2/Hz的通道与听觉注意相关的大脑区域有关，这些区域位于前额叶、颞叶和顶叶，使用17通道EEG数据，覆盖STG和前额叶作为非线性模型的输入，通过0.1
‑
30Hz的带通滤波器将脑电信号滤波，得到与语音信号和注意力相关的脑电信息；通过计算脑电信号的功率谱密度，获得与听觉注意相关的脑激活状态，发现普通话激活脑区在前额叶有左侧偏侧化的特征表现。3.根据权利要求1所述的一种基于EEG的普通话听觉注意解码方法，其特征在于，所述语音包络为：实验开始前，电脑屏幕会出现本次实验的两个人物传记故事梗概，被试根据个人兴趣选择感兴趣的故事，并进行按键响应，实验主试根据被试的反馈，将被试选择的人物传记音频设置到左或右声道，未被选择的传记设置到相反的声道进行噪声播放；实验过程中，随机出现8个单项选择题，被试根据听到的音频进行回答，答案是数字或专有名词，被试听到即可做出选择；从
‑
300ms到0ms的EEG数据用于EEG基线校正，在EEGLAB中将脑电数据下采样到128Hz，以保证脑电数据的采样率和语音包络一致，EEG数据被过滤到0.1
‑
35Hz；将采集到的语音信号按照汉语普通话的频率分布范围100
‑
8000Hz，在范围内取对数线性分布128个频率段，进行语音包络提取，经过希尔伯特
‑
黄变换提取语音包络，然后每八个频率段进行叠加平均获得16个语音包络，16个语音包络再进行线性组合得到普通话的整体语音包络。4.根据权利要求1所述的一种基于EEG的普通话听觉注意解码方法，其特征在...

【专利技术属性】
技术研发人员：倪广健，许淄豪，白艳茹，于韩，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人