一种基于二值残差神经网络的语音唤醒方法及系统技术方案

技术编号：34054431 阅读：22 留言：0更新日期：2022-07-06 16:37

本发明专利技术公开了一种基于二值残差神经网络的语音唤醒方法及系统，涉及语音唤醒技术领域。所述方法包括：获取待识别音频文件，得到待处理语音信号；对所述待处理语音信号进行特征提取，得到梅尔频谱特征帧；构建二值残差神经网络模型；将所述梅尔频谱特征帧输入至训练好的二值残差神经网络模型中，得到关键词以及非关键词的概率值；根据所述概率值判断是否进行语音唤醒。本发明专利技术能够在减少数据存储量与计算量的同时提高语音唤醒的识别准确度。量的同时提高语音唤醒的识别准确度。量的同时提高语音唤醒的识别准确度。

A method and system of voice wake-up based on binary residual neural network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于二值残差神经网络的语音唤醒方法及系统

[0001]本专利技术涉及语音唤醒
，特别是涉及一种基于二值残差神经网络的语音唤醒方法及系统。

技术介绍

[0002]语音唤醒系统通常在移动设备上运行，移动设备的内存小、计算力有限，因此语音唤醒系统应同时满足高准确率、运行所用内存小、计算量少的要求。然而，高性能的深度卷积神经网络模型复杂度高，计算量大，常需要占用大量内存，因此难以将其部署到内存较小的移动端。

技术实现思路

[0003]本专利技术的目的是提供一种基于二值残差神经网络的语音唤醒方法及系统，在减少数据存储量与计算量的同时提高语音唤醒的识别准确度。
[0004]为实现上述目的，本专利技术提供了如下方案：一种基于二值残差神经网络的语音唤醒方法，包括：获取待识别音频文件，得到待处理语音信号；对所述待处理语音信号进行特征提取，得到梅尔频谱特征帧；构建二值残差神经网络模型；将所述梅尔频谱特征帧输入至训练好的二值残差神经网络模型中，得到关键词以及非关键词的概率值；根据所述概率值判断是否进行语音唤醒。
[0005]可选地，对所述待处理语音信号进行特征提取，得到梅尔频谱特征帧，具体包括：对所述待处理语音信号进行预加重、分帧加窗、快速傅里叶变换以及Mel滤波处理，得到梅尔频谱特征帧。
[0006]可选地，所述二值残差神经网络模型包括：卷积层、BN层、ReLU激活函数、6个残差块、最大池化层以及全连接层；所述残差块包括：二值化卷积层、BN层、激活函数Hardtanh(x
‑r/>a+bias)以及一条捷径，x为所述残差块的输入，a为固定值移位，bias为可学习的偏置。
[0007]可选地，所述根据所述概率值判断是否进行语音唤醒，具体包括：当所述关键词的概率值最大，且距离上次唤醒时间已超过设定时限时，按照所述关键词进行语音唤醒；当所述非关键词的概率最大时，不进行语音唤醒。
[0008]本专利技术还提供了一种基于二值残差神经网络的语音唤醒系统，包括：音频文件获取模块，用于获取待识别音频文件，得到待处理语音信号；特征提取模块，用于对所述待处理语音信号进行特征提取，得到梅尔频谱特征帧；模型构建模块，用于构建二值残差神经网络模型；概率值输出模块，用于将所述梅尔频谱特征帧输入至训练好的二值残差神经网络
模型中，得到关键词以及非关键词的概率值；语音唤醒判断模块，用于根据所述概率值判断是否进行语音唤醒。
[0009]可选地，所述特征提取模块具体包括：处理单元，用于对所述待处理语音信号进行预加重、分帧加窗、快速傅里叶变换以及Mel滤波处理，得到梅尔频谱特征帧。
[0010]可选地，所述二值残差神经网络模型包括：卷积层、BN层、ReLU激活函数、6个残差块、最大池化层以及全连接层；所述残差块包括：二值化卷积层、BN层、激活函数Hardtanh(x
‑
a+bias)以及一条捷径，x为所述残差块的输入，a为固定值移位，bias为可学习的偏置。
[0011]可选地，所述语音唤醒判断模块具体包括：唤醒单元，用于当所述关键词的概率值最大，且距离上次唤醒时间已超过设定时限时，按照所述关键词进行语音唤醒。
[0012]根据本专利技术提供的具体实施例，本专利技术公开了以下技术效果：本专利技术使用二值残差神经网络(B
‑
ResNet8)作为分类器，将残差网络ResNet中的激活值与权重值由32位浮点数量化为1bit数，从而将网络中大量浮点运算转化为代价更低、更有利于硬件部署的移位运算，从而大大减小神经网络模型中的参数量与计算量，提高唤醒速度并降低语音唤醒系统功耗。另外，本专利技术中还涉及一种新型激活函数，具有固定值移位的可学习激活函数Hardtanh(x
‑
a+bias)，利用固定值移位a与可学习的偏置bias来优化网络中激活值的分布，无代价地提高了语音唤醒的识别率。
附图说明
[0013]为了更清楚地说明本专利技术实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本专利技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0014]图1为本专利技术实施例提供的基于二值残差神经网络的语音唤醒方法的流程图。
具体实施方式
[0015]下面将结合本专利技术实施例中的附图，对本专利技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本专利技术一部分实施例，而不是全部的实施例。基于本专利技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本专利技术保护的范围。
[0016]本专利技术的目的是提供一种基于二值残差神经网络的语音唤醒方法及系统，在减少数据存储量与计算量的同时提高语音唤醒的识别准确度。
[0017]为使本专利技术的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本专利技术作进一步详细的说明。
[0018]如图1所示，本专利技术提供的一种基于二值残差神经网络的语音唤醒方法，包括以下步骤：步骤101：获取待识别音频文件，得到待处理语音信号。
[0019]步骤102：对所述待处理语音信号进行特征提取，得到梅尔频谱特征帧。
[0020]步骤103：构建二值残差神经网络模型。
[0021]步骤104：将所述梅尔频谱特征帧输入至训练好的二值残差神经网络模型中，得到关键词以及非关键词的概率值。
[0022]步骤105：根据所述概率值判断是否进行语音唤醒。
[0023]其中，步骤102具体包括：对所述待处理语音信号进行预加重、分帧加窗、快速傅里叶变换以及Mel滤波处理，得到梅尔频谱特征帧。
[0024]其中预加重的目的是增大语音信号高频部分的幅度，起到平衡频谱的作用；分帧加窗则是将预加重后的语音信号分成短时帧，并利用窗函数对每帧的信号进行加窗处理，即对固定长度的语音信号乘以汉明窗，使帧两端平滑地衰减，保证数据的平滑，其运算过程为：，，其中S(n)为完成预加重后的语音信号，W(n)为汉明窗函数，S
’
(n)为完成加窗后得到的时域信号，N为汉明窗口中信号的总长度，a取0.46；快速傅里叶变换是将分帧加窗后得到的时域信号转换为频域信号，并计算能量谱，其计算公式为：，，其中x(n)为长度N的语音信号，为旋转因子，X(k)为快速傅里叶变换后得到的频域信号，再利用公式得到能量谱P；最后在能量谱上应用Mel滤波器组得到梅尔频谱特征帧，具体为利用公式，其中Y(m)为得到的梅尔频谱特征帧，P为上一步得到的能量谱，H
m
(k)为Mel滤波器组，m表示Mel滤波器的编号。经过上述步骤得到连续的梅尔频谱声学特征帧。由于二值残差神经网络模型的输入层为固定帧数的声学特征，每次新的声学特征帧，可将其与之前已生成的特征帧利用代码编写软件中的拼接函数(例如python中的cat函数)进行拼接，得到新的输入。
[002本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于二值残差神经网络的语音唤醒方法，其特征在于，包括：获取待识别音频文件，得到待处理语音信号；对所述待处理语音信号进行特征提取，得到梅尔频谱特征帧；构建二值残差神经网络模型；将所述梅尔频谱特征帧输入至训练好的二值残差神经网络模型中，得到关键词以及非关键词的概率值；根据所述概率值判断是否进行语音唤醒。2.根据权利要求1所述的基于二值残差神经网络的语音唤醒方法，其特征在于，对所述待处理语音信号进行特征提取，得到梅尔频谱特征帧，具体包括：对所述待处理语音信号进行预加重、分帧加窗、快速傅里叶变换以及Mel滤波处理，得到梅尔频谱特征帧。3.根据权利要求1所述的基于二值残差神经网络的语音唤醒方法，其特征在于，所述二值残差神经网络模型包括：卷积层、BN层、ReLU激活函数、6个残差块、最大池化层以及全连接层；所述残差块包括：二值化卷积层、BN层、激活函数Hardtanh(x
‑
a+bias)以及一条捷径，x为所述残差块的输入，a为固定值移位，bias为可学习的偏置。4.根据权利要求1所述的基于二值残差神经网络的语音唤醒方法，其特征在于，所述根据所述概率值判断是否进行语音唤醒，具体包括：当所述关键词的概率值最大，且距离上次唤醒时间已超过设定时限时，按照所述关键词进行语音唤醒；当所述非关键词的概率最大时，不进行语音唤醒。5.一种基于二值残差...

【专利技术属性】
技术研发人员：王啸，尚德龙，周玉梅，
申请(专利权)人：中科南京智能技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人