本公开提供了一种声音识别方法、声音识别装置及电子设备。该方法包括获取年龄处于目标年龄段内的用户对象的音频信息,其中,用户对象通过声音特点来表达需求;对音频信息进行预处理,得到目标音频信息;对目标音频信息进行特征提取,得到对数梅尔频谱特征;按照预设信号处理规则对对数梅尔频谱特征进行处理,得到初始二维矩阵;利用预设差分处理规则处理初始二维矩阵,得到目标二维矩阵;根据目标二维矩阵和初始二维矩阵,生成三维张量;以及将三维张量输入分类器识别模块,输出预测结果,其中,预测结果用于表征用户对象的需求。预测结果用于表征用户对象的需求。预测结果用于表征用户对象的需求。
【技术实现步骤摘要】
声音识别方法、声音识别装置及电子设备
[0001]本公开涉及语音信号处理
,更具体地,涉及一种声音识别方法、声音识别装置、电子设备、计算机可读存储介质及计算机程序产品。
技术介绍
[0002]声音是由物体振动产生的声波,是通过介质(空气或固体、液体)传播并能被人或动物听觉器官所感知的波动现象。通过声音可以表达不同的需求,例如婴儿可以通过发出哭声提醒亲属其需求,如饿了、冷了等。
[0003]在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下问题:较难通过用户的声音特点判断用户的需求。
技术实现思路
[0004]有鉴于此,本公开实施例提供了一种声音识别方法、声音识别装置、电子设备、计算机可读存储介质及计算机程序产品。
[0005]本公开实施例的一个方面提供了一种声音识别方法,包括:
[0006]获取年龄处于目标年龄段内的用户对象的音频信息,其中,上述用户对象通过声音特点来表达需求;
[0007]对上述音频信息进行预处理,得到目标音频信息;
[0008]对上述目标音频信息进行特征提取,得到对数梅尔频谱特征;
[0009]按照预设信号处理规则对上述对数梅尔频谱特征进行处理,得到初始二维矩阵;
[0010]利用预设差分处理规则处理上述初始二维矩阵,得到目标二维矩阵;根据上述目标二维矩阵和上述初始二维矩阵,生成三维张量;以及
[0011]将上述三维张量输入分类器识别模块,输出预测结果,其中,上述预测结果用于表征上述用户对象的需求。<br/>[0012]根据本公开的实施例,上述初始二维矩阵包括目标频率维度和目标时间维度;
[0013]其中,利用预设差分处理规则处理上述初始二维矩阵,得到目标二维矩阵,包括:
[0014]在上述目标频率维度和上述目标时间维度上对上述初始二维矩阵分别进行差分处理,得到上述目标二维矩阵。
[0015]根据本公开的实施例,上述对上述音频信息进行预处理,得到目标音频信息,包括:
[0016]对上述音频信息的采样率进行降采样处理,得到第一音频信息;
[0017]对上述第一音频信息进行降噪处理,得到第二音频信息;
[0018]对上述第二音频信息进行静音抑制处理,得到上述目标音频信息。
[0019]根据本公开的实施例,上述对上述第二音频信息进行静音抑制处理,得到上述目标音频信息,包括:
[0020]利用语音活动检测方法对上述第二音频信息中的静音片段进行处理,得到上述目
标音频信息。
[0021]根据本公开的实施例,上述分类器识别模块包括声音识别模型,上述声音识别模型包括特征嵌入层、模型编码器和多层感知机机头;
[0022]其中,上述将上述三维张量输入分类器识别模块,输出预测结果,包括:
[0023]按照预设切割规则对上述三维张量进行切割,得到多个子张量;
[0024]将多个上述子张量输入上述特征嵌入层,输出第一矩阵;
[0025]在上述第一矩阵上拼接预设向量,得到第二矩阵;
[0026]根据上述第二矩阵和预设位置编码矩阵,得到第三矩阵;
[0027]将上述第三矩阵输入上述模型编码器,输出第四矩阵;
[0028]将上述第四矩阵输入上述多层感知机机头,输出上述预测结果。
[0029]根据本公开的实施例,上述将上述第三矩阵输入上述模型编码器,输出第四矩阵,包括:
[0030]将上述第三矩阵输入上述模型编码器,输出新的第三矩阵;
[0031]在不满足预设条件的情况下,迭代地将上述新的第三矩阵作为第三矩阵,以将上述第三矩阵输入上述模型编码器;
[0032]在满足预设条件的情况下,将上述新的第三矩阵确定为上述第四矩阵。
[0033]根据本公开的实施例,上述模型编码器包括第一层归一化层、多头注意力机制层、第二层归一化层和多层感知机;
[0034]其中,上述将上述第三矩阵输入上述模型编码器,输出第四矩阵,包括:
[0035]将上述第三矩阵输入上述第一层归一化层,得到归一化处理后的第三矩阵;
[0036]利用线性层处理上述归一化处理后的第三矩阵,得到目标特征矩阵;
[0037]根据上述目标特征矩阵,得到三个三维张量;
[0038]将上述三个三维张量输入上述多头注意力机制层,输出第五矩阵;
[0039]根据上述第五矩阵和上述第三矩阵,生成第六矩阵;
[0040]将上述第六矩阵输入上述第二层归一化层,输出第七矩阵;
[0041]将上述第七矩阵输入上述多层感知机,输出第八矩阵;
[0042]根据上述第八矩阵和上述第六矩阵,生成上述第四矩阵。
[0043]根据本公开的实施例,上述对数梅尔频谱特征包括时间维度和频率维度;
[0044]其中,上述按照预设信号处理规则对上述对数梅尔频谱特征进行处理,得到初始二维矩阵,包括:
[0045]按照预设频率条件对上述频率维度进行处理,得到目标频率维度;
[0046]按照预设时长条件对上述时间维度进行处理,得到目标时间维度;
[0047]根据上述目标频率维度和上述目标时间维度,构建上述初始二维矩阵。
[0048]本公开实施例的另一个方面提供了一种声音识别装置,包括:
[0049]获取模块,用于获取年龄处于目标年龄段内的用户对象的音频信息,其中,上述用户对象通过声音特点来表达需求;
[0050]预处理模块,用于对上述音频信息进行预处理,得到目标音频信息;
[0051]特征提取模块,用于对上述目标音频信息进行特征提取,得到对数梅尔频谱特征;
[0052]第一处理模块,用于按照预设信号处理规则对上述对数梅尔频谱特征进行处理,
得到初始二维矩阵;
[0053]第二处理模块,用于利用预设差分处理规则处理上述初始二维矩阵,得到目标二维矩阵;
[0054]生成模块,用于根据上述目标二维矩阵和上述初始二维矩阵,生成三维张量;以及
[0055]预测模块,用于将上述三维张量输入分类器识别模块,输出预测结果,其中,上述预测结果用于表征上述用户对象的需求。
[0056]本公开实施例的另一个方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
[0057]本公开实施例的另一个方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
[0058]本公开实施例的另一个方面提供了一种计算机程序产品,所述计算机程序产品包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
[0059]根据本公开的实施例,通过利用预设信号处理规则对上述对数梅尔频谱特征进行处理,得到初始二维矩阵,再利用预设差分处理规则对获取的初始二维矩本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种声音识别方法,包括:获取年龄处于目标年龄段内的用户对象的音频信息,其中,所述用户对象通过声音特点来表达需求;对所述音频信息进行预处理,得到目标音频信息;对所述目标音频信息进行特征提取,得到对数梅尔频谱特征;按照预设信号处理规则对所述对数梅尔频谱特征进行处理,得到初始二维矩阵;利用预设差分处理规则处理所述初始二维矩阵,得到目标二维矩阵;根据所述目标二维矩阵和初始二维矩阵,生成三维张量;以及将所述三维张量输入分类器识别模块,输出预测结果,其中,所述预测结果用于表征所述用户对象的需求。2.根据权利要求1所述的方法,所述初始二维矩阵包括目标频率维度和目标时间维度;其中,利用预设差分处理规则处理所述初始二维矩阵,得到目标二维矩阵,包括:在所述目标频率维度和所述目标时间维度上对所述初始二维矩阵分别进行差分处理,得到所述目标二维矩阵。3.根据权利要求1所述的方法,其中,所述对所述音频信息进行预处理,得到目标音频信息,包括:对所述音频信息的采样率进行降采样处理,得到第一音频信息;对所述第一音频信息进行降噪处理,得到第二音频信息;对所述第二音频信息进行静音抑制处理,得到所述目标音频信息。4.根据权利要求3所述的方法,其中,所述对所述第二音频信息进行静音抑制处理,得到所述目标音频信息,包括:利用语音活动检测方法对所述第二音频信息中的静音片段进行处理,得到所述目标音频信息。5.根据权利要求1所述的方法,所述分类器识别模块包括声音识别模型,所述声音识别模型包括特征嵌入层、模型编码器和多层感知机机头;其中,所述将所述三维张量输入分类器识别模块,输出预测结果,包括:按照预设切割规则对所述三维张量进行切割,得到多个子张量将多个所述子张量输入所述特征嵌入层,输出第一矩阵;在所述第一矩阵上拼接预设向量,得到第二矩阵;根据所述第二矩阵和预设位置编码矩阵,得到第三矩阵;将所述第三矩阵输入所述模型编码器,输出第四矩阵;将所述第四矩阵输入所述多层感知机机头,输出所述预测结果。6.根据权利要求5所述的方法,其中,所述将所述第三矩阵输入所述模型编码器,输出第四矩阵,包括:将所述第三矩阵输入所述模型编码器,输出新的第三矩阵;在不满足预设条件的情况下,迭代地将所述新的第三矩阵作...
【专利技术属性】
技术研发人员:张结,徐海涛,戴礼荣,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。