一种动态变换语音应答风格的控制方法技术

技术编号:29055151 阅读:21 留言:0更新日期:2021-06-26 06:25
本发明专利技术公开了一种动态变换语音应答风格的控制方法,涉及智能家电领域。本发明专利技术包括如下步骤:采集不同年龄段语音数据,建立样本数据库;对样本数据库中的音频文件进行处理获取音频帧序列;对音频帧序列中每一帧进行傅里叶变化,得到该帧的频谱图信息信息特征提取,得到声纹特征向量;将声纹特征向量进行训练得到声纹特征模型;MIC检测到用户声音并进行声纹采集后输入到声纹特征模型;根据用户类型,动态变化语音应答风格。本发明专利技术通过对冰箱使用者语音进行采集,根据使用者的声纹判断用户的年龄段,并启动对用对应年龄段的语音应答风格,使老人儿童使用智能设备更加方便,提高设备的智能化程度。智能化程度。智能化程度。

【技术实现步骤摘要】
一种动态变换语音应答风格的控制方法


[0001]本专利技术属于智能家电
,特别是涉及一种动态变换语音应答风格的控制方法。

技术介绍

[0002]随着人工智能的发展,现在越来越多的设备可实现与用户进行语音互动的功能,例如,智能机器人可以与用户进行对话沟通。
[0003]在现有技术中,各种设备可以通过语音识别技术识别用户的语音,然后根据预先训练的语音对话模型,确定与用户的对话内容,最后通过终端播放对话内容的音频,从而完成与用户的语音互动。
[0004]随着设备的不断发展,智能设备不断更新换代,语音应答内容越来越复杂,对于老人或儿童来说,理解难度大,使用不方便,成为需要解决的问题。

技术实现思路

[0005]本专利技术的目的在于提供一种动态变换语音应答风格的控制方法,通过对冰箱使用者语音进行采集,根据使用者的声纹判断用户的年龄段,并启动对用对应年龄段的语音应答风格,解决了现有的智能设备对老人儿童来说,理解难度大、使用不方便、趣味性不足的问题。
[0006]为解决上述技术问题,本专利技术是通过以下技术方案实现的:
[0007]本专利技术为一种动态变换语音应答风格的控制方法,包括如下步骤:
[0008]步骤S1:采集不同年龄段语音数据,建立样本数据库;
[0009]步骤S2:对样本数据库中的音频文件进行处理获取音频帧序列;
[0010]步骤S3:对音频帧序列中每一帧进行傅里叶变化,得到该帧的频谱图信息;
[0011]步骤S4:对频谱图信息进行特征提取,得到声纹特征向量;
[0012]步骤S5:将声纹特征向量输入至卷积神经网络模型进行训练,得到声纹特征模型;
[0013]步骤S6:MIC检测到用户声音并进行声纹采集后输入到声纹特征模型;
[0014]步骤S7:智能冰箱根据声纹识别结果,确定用户类型;
[0015]步骤S8:根据用户类型,动态变化语音应答风格。
[0016]优选地,所述步骤S1中,将用户的年龄分为三个阶段:儿童、青年和老年,儿童、青年和老年分别对应语音应答风格为活泼、幽默和传统。
[0017]优选地,所述步骤S2中,音频帧序列获取步骤如下:
[0018]步骤S21:将音频文件进行采样和量化处理;
[0019]步骤S22:按照固定采样频率转换成固定位数的音频数字信号;
[0020]步骤S23:音频数字信号进行预加重处理;
[0021]步骤S24:对语音信号进行分帧和加窗处理;
[0022]步骤S25:得到语音帧序列。
[0023]优选地,所述步骤S3中,对音频帧序列中每一帧进行傅里叶变化的得到每帧音频序列的频谱,并对每帧音频序列的频谱取模的平方得到音频洗了的功率谱;通过预设滤波器对音频序列的功率谱滤波,得到音频序列的对数能量;对音频序列的对数能量进行离散余弦变化,得到音频的特征向量。
[0024]优选地,所述步骤S4中,将频谱图信息的时域信息和频域信息输入到二维卷积神经网络中,能够得到声音数据的时域特征和频域特征;对声音数据的时域特征和频域特征进行特征聚合后,将聚合后的特征输入到全连接层,得到声纹特征向量。
[0025]优选地,所述步骤S5中,声纹特征向量输入至卷积神经网络模型进行训练,得到用于识别声纹的声纹模型包括:
[0026]通过卷积神经网络模型的卷积层提取声纹特征向量的局部声纹信息;
[0027]通过卷积神经网络模型的全连接层将提取到的局部声纹信息进行连接,得到多维度的局部声纹信息;
[0028]通过卷积神经网络模型的池化层对多维度的局部声纹信息进行降维处理,得到声纹特征模型。
[0029]优选地,所述步骤S7中,确定用户类型后,根据预先训练好的交互风格训练模型和应答文本库进行匹配,确定目标交互文字,根据当前用户类型对应的调节参数,将目标交互文字转化成与语音应答风格一致的应答语音音频,并将应答语音音频进行播放。
[0030]本专利技术具有以下有益效果:
[0031]本专利技术通过对样本数据库中的音频文件进行处理得到音频序列,对音频序列的每一帧进行傅里叶变化处理,提取声纹特征向量,并将声纹特征向量输入至卷积神经网络模型进行训练,得到声纹特征模型;将使用者的语音数据输入至声纹特征模型,根据使用者的声纹判断用户的年龄段,并启动对用对应年龄段的语音应答风格,使老人儿童使用智能设备更加方便,提高设备的智能化程度。
[0032]当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
[0033]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034]图1为本专利技术的一种动态变换语音应答风格的控制方法步骤图。
具体实施方式
[0035]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0036]请参阅图1所示,本专利技术为一种动态变换语音应答风格的控制方法,包括如下步骤:
[0037]步骤S1:采集不同年龄段语音数据,建立样本数据库;
[0038]步骤S2:对样本数据库中的音频文件进行处理获取音频帧序列;
[0039]步骤S3:对音频帧序列中每一帧进行傅里叶变化,得到该帧的频谱图信息;
[0040]步骤S4:对频谱图信息进行特征提取,得到声纹特征向量;
[0041]步骤S5:将声纹特征向量输入至卷积神经网络模型进行训练,得到声纹特征模型;
[0042]步骤S6:MIC检测到用户声音并进行声纹采集后输入到声纹特征模型;
[0043]步骤S7:智能冰箱根据声纹识别结果,确定用户类型;
[0044]步骤S8:根据用户类型,动态变化语音应答风格。
[0045]其中,步骤S1中,将用户的年龄分为三个阶段:儿童、青年和老年,儿童、青年和老年分别对应语音应答风格为活泼、幽默和传统;本申请文件将小于14岁的定义为儿童,14岁至60岁的定义为青年,60岁以上的定义为老年;当儿童启动冰箱并发出语音指示时,冰箱可以通过比较活泼的语气与儿童进行对话,并指导儿童如何使用冰箱,方便儿童理解的同时能够指导儿童正确操作使用冰箱,如“小朋友,冰淇淋要少吃哦,随手记得关闭冰箱门”;同理,当老年人使用冰箱使,冰箱可以通过比较稳重和温情的话语与老人进行交流对话,并提醒和关怀老人,如“刚从冰箱拿出去的饭菜不能直接吃,建议您加热一下再吃”。
[0046]声纹可以从语音波形中提取讲话者的生理或行为方面,然后进行特征匹配。为了实现声纹识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种动态变换语音应答风格的控制方法,其特征在于,包括如下步骤:步骤S1:采集不同年龄段语音数据,建立样本数据库;步骤S2:对样本数据库中的音频文件进行处理获取音频帧序列;步骤S3:对音频帧序列中每一帧进行傅里叶变化,得到该帧的频谱图信息;步骤S4:对频谱图信息进行特征提取,得到声纹特征向量;步骤S5:将声纹特征向量输入至卷积神经网络模型进行训练,得到声纹特征模型;步骤S6:MIC检测到用户声音并进行声纹采集后输入到声纹特征模型;步骤S7:智能冰箱根据声纹识别结果,确定用户类型;步骤S8:根据用户类型,动态变化语音应答风格。2.根据权利要求1所述的一种动态变换语音应答风格的控制方法,其特征在于,所述步骤S1中,将用户的年龄分为三个阶段:儿童、青年和老年,儿童、青年和老年分别对应语音应答风格为活泼、幽默和传统。3.根据权利要求1所述的一种动态变换语音应答风格的控制方法,其特征在于,所述步骤S2中,音频帧序列获取步骤如下:步骤S21:将音频文件进行采样和量化处理;步骤S22:按照固定采样频率转换成固定位数的音频数字信号;步骤S23:音频数字信号进行预加重处理;步骤S24:对语音信号进行分帧和加窗处理;步骤S25:得到语音帧序列。4.根据权利要求1所述的一种动态变换语音应答风格的控制方法,其特征在于,所述步骤S3中,对音频帧序列中每一帧进行傅里叶变化的得到每帧音...

【专利技术属性】
技术研发人员:焦其意陆涛郭杰
申请(专利权)人:合肥美菱物联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1