本申请公开了一种脑卒中构音障碍语音识别方法及装置,本申请的技术方案通过对获取到的语音样本数据,根据音频所代表的音节类别以及正常和患者进行分类,并通过变换获得音频语谱图,然后在构建网络模型阶段,前端网络利用植物形态生理学设计核心处理模块,以STEM模块后连续的Downsample构成根茎,以快速运输计算节点到更高的感受野领域,后端网络则基于Xception模块基于的深度可分离卷积与注意力机制的交替配置,形成藤蔓交叉结构,注意力机制被有选择地置于交替的卷积模块中,以此提高对关键语音特征的识别能力和准确性,从而能够在多个尺度上捕捉全局感受野,准确学习和判别脑卒中病理显著特征信息,解决了现有的脑卒中患者构音分析存在准确度低的技术问题。
【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种脑卒中构音障碍语音识别方法及装置。
技术介绍
1、计算机技术,尤其是机器学习和深度学习,已经成为医疗病理语音分析领域的核心技术。这些先进的计算模型能够处理和分析大量的语音数据,从中识别出可能与特定疾病相关的微妙声学变化。例如,卷积神经网络(cnn)和循环神经网络(rnn)通过学习语音样本的庞大数据集,能够自动提取和识别与各种脑卒中相关的关键声学特征。
2、在病理语音数据处理中,关键步骤包括声学特征的精确提取和有效表示。技术如声谱图和mel频率倒谱系数(mfcc)等信号处理方法,在机器学习框架下被用来提取具有诊断价值的声音属性。这些特征随后被用作训练数据,以训练深度学习模型,使其能够在新的语音样本中识别出病理状态。
3、然而,在实际应用中,由于脑卒中患者的语音样本质量普遍偏低,分析难度较大,需要依赖算力性能更强的大模型,导致采用常规的轻量化神经网络模型对脑卒中患者构音分析存在准确度低的技术问题。
技术实现思路
1、本申请提供了一种脑卒中构音障碍语音识别方法及装置,用于解决现有基于轻量化神经网络模型的脑卒中患者构音分析存在准确度低的技术问题。
2、为解决上述技术问题,本申请第一方面提供了一种脑卒中构音障碍语音识别方法,包括:
3、获取预设的语音样本数据,其中,所述语音样本数据包括:成对的构音障碍语音样本数据和正常语音样本数据;
4、对所述语音样本数据进行音节分类处理,得到多个语音音节数据;
5、将各个所述语音音节数据,转换成对应的语谱图数据;
6、基于预设的轻量化神经网络框架,构建构音障碍语音图谱识别模型,并通过所述语谱图数据,对所述构音障碍语音图谱识别模型进行模型训练,其中,所述轻量化神经网络框架的前端网络具体包括:根部处理块、轻量化网络块和多个连续的下采样块,所述轻量化神经网络框架的后端网络包括:多个按照深度可分离卷积与注意力机制的交替配置的藤蔓交叉结构依次排列连接的轻量化网络块以及一个池化层和全连接层;
7、获取待识别的构音障碍语音数据并转换为语谱图数据作为模型输入,通过训练好的构音障碍语音图谱识别模型的运算,以得到第一音节识别概率结果。
8、优选地,所述语音音节数据的种类包括:单元音语音音节数据、复合元音语音音节数据、辅音语音音节数据及鼻元音语音音节数据。
9、优选地,所述将各个所述语音音节数据,转换成对应的语谱图数据具体包括:
10、对各个所述语音音节数据进行窗口化处理;
11、通过傅里叶变换,确定所述语音音节数据的功率谱密度,以根据所述功率谱密度,利用对数变化后的颜色映射得到对应的语谱图数据。
12、优选地,还包括:
13、根据由所述第一音节识别概率结果,通过软投票法统计公式,计算得到第二音节识别概率结果。
14、优选地,将各个所述语音音节数据,转换成对应的语谱图数据之后还包括:
15、对所述语谱图数据进行图谱规格统一化处理;
16、将所述语谱图数据转换为张量形式,通过噪声注入增强数据鲁棒性,以及使用对数压缩调整数据动态范围,再进行均值与标准差的归一化处理,输出处理后的语谱图数据。
17、同时,本申请第二方面提供了一种脑卒中构音障碍语音识别装置,包括:
18、样本数据获取单元,用于获取预设的语音样本数据,其中,所述语音样本数据包括:成对的构音障碍语音样本数据和正常语音样本数据;
19、样本处理单元,用于对所述语音样本数据进行音节分类处理,得到多个语音音节数据;
20、语谱图转化单元,用于将各个所述语音音节数据,转换成对应的语谱图数据;
21、网络模型构建训练单元,用于基于预设的轻量化神经网络框架,构建构音障碍语音图谱识别模型,并通过所述语谱图数据,对所述构音障碍语音图谱识别模型进行模型训练,其中,所述轻量化神经网络框架的前端网络具体包括:根部处理块、轻量化网络块和多个连续的下采样块,所述轻量化神经网络框架的后端网络包括:多个按照深度可分离卷积与注意力机制的交替配置的藤蔓交叉结构依次排列连接的轻量化网络块以及一个池化层和全连接层;
22、构音障碍音节识别单元,用于获取待识别的构音障碍语音数据并转换为语谱图数据作为模型输入,通过训练好的构音障碍语音图谱识别模型的运算,以得到第一音节识别概率结果。
23、优选地,所述语音音节数据的种类包括:单元音语音音节数据、复合元音语音音节数据、辅音语音音节数据及鼻元音语音音节数据。
24、优选地,所述语谱图转化单元具体用于:
25、对各个所述语音音节数据进行窗口化处理;
26、通过傅里叶变换,确定所述语音音节数据的功率谱密度,以根据所述功率谱密度,利用对数变化后的颜色映射得到对应的语谱图数据。
27、优选地,还包括:二次识别单元,用于:
28、根据由所述第一音节识别概率结果,通过软投票法统计公式,计算得到第二音节识别概率结果。
29、优选地,还包括:语谱图预处理单元,用于:
30、对所述语谱图数据进行图谱规格统一化处理;
31、将所述语谱图数据转换为张量形式,通过噪声注入增强数据鲁棒性,以及使用对数压缩调整数据动态范围,再进行均值与标准差的归一化处理,输出处理后的语谱图数据。
32、从以上技术方案可以看出,本申请具有以下优点:
33、本申请的技术方案涉及对收集到的语音样本数据,根据音频所代表的音节类别以及正常和患者进行分类,并生成对应音频语谱图。网络模型通过优化了前端和后端结构,以优化信息流和提高感受野的覆盖范围,在前端网络中,模型通过模仿植物根茎的形态生理特征,采用stem模块连同连续的downsample过程构成了类似根茎的结构,迅速扩展计算节点的传输路径,使得模型能在更广泛的感受野中进行有效计算。后端网络则基于xception模型涉及的深度可分离卷积与注意力机制的交替配置,形成“藤蔓交叉”结构。在此结构中,注意力机制被有选择地置于交替的卷积模块中,以此提高对关键语音特征的识别能力和准确性。通过这种设计,每一个注意力模块的插入都旨在加强模型对语音中细微差异的捕捉,尤其是在分析脑卒中患者的语音时。结合自适应最大化池化技术,本申请能够在多个尺度上精准提取和利用全局感受野中的关键特征信息,显著提升了语音识别的准确度。该技术方案解决了现有技术中脑卒中患者构音分析准确度低的问题,具有重要的实际应用价值。
本文档来自技高网...
【技术保护点】
1.一种脑卒中构音障碍语音识别方法,其特征在于,包括:
2.根据权利要求1所述的一种脑卒中构音障碍语音识别方法,其特征在于,所述语音音节数据的种类包括:单元音语音音节数据、复合元音语音音节数据、辅音语音音节数据及鼻元音语音音节数据。
3.根据权利要求1所述的一种脑卒中构音障碍语音识别方法,其特征在于,所述将各个所述语音音节数据,转换成对应的语谱图数据具体包括:
4.根据权利要求1所述的一种脑卒中构音障碍语音识别方法,其特征在于,还包括:
5.根据权利要求1所述的一种脑卒中构音障碍语音识别方法,其特征在于,将各个所述语音音节数据,转换成对应的语谱图数据之后还包括:
6.一种脑卒中构音障碍语音识别装置,其特征在于,包括:
7.根据权利要求6所述的一种脑卒中构音障碍语音识别装置,其特征在于,所述语音音节数据的种类包括:单元音语音音节数据、复合元音语音音节数据、辅音语音音节数据及鼻元音语音音节数据。
8.根据权利要求6所述的一种脑卒中构音障碍语音识别装置,其特征在于,所述语谱图转化单元具体用于:
<
p>9.根据权利要求6所述的一种脑卒中构音障碍语音识别装置,其特征在于,还包括:二次识别单元,用于:10.根据权利要求6所述的一种脑卒中构音障碍语音识别装置,其特征在于,还包括:语谱图预处理单元,用于:
...
【技术特征摘要】
1.一种脑卒中构音障碍语音识别方法,其特征在于,包括:
2.根据权利要求1所述的一种脑卒中构音障碍语音识别方法,其特征在于,所述语音音节数据的种类包括:单元音语音音节数据、复合元音语音音节数据、辅音语音音节数据及鼻元音语音音节数据。
3.根据权利要求1所述的一种脑卒中构音障碍语音识别方法,其特征在于,所述将各个所述语音音节数据,转换成对应的语谱图数据具体包括:
4.根据权利要求1所述的一种脑卒中构音障碍语音识别方法,其特征在于,还包括:
5.根据权利要求1所述的一种脑卒中构音障碍语音识别方法,其特征在于,将各个所述语音音节数据,转换成对应的语谱图数据之...
【专利技术属性】
技术研发人员:叶武剑,杨东东,刘怡俊,郑颖聪,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。