基于遗传算法的智能语音助手唤醒词识别模型加固方法技术

技术编号:32657117 阅读:21 留言:0更新日期:2022-03-17 11:05
本申请提出了一种基于遗传算法的智能语音助手唤醒词识别模型加固方法,包括:步骤S10:根据音箱类型确定音素特征和特征取值范围后,选取合适的特征数量并定义不同词语间的不相似度;步骤S20:设计用于误唤醒率与不相似度两目标同时优化的求解算法;步骤S30:使用树莓派与语音助手连接,部署误唤醒词挖掘平台,通过运行求解算法来进行高效误唤醒词挖掘,生成误唤醒样本集;步骤S40:对误唤醒样本集进行正确样本标记后,对唤醒词检测模型进行训练;步骤S50:重复进行步骤S20、步骤S30、步骤S40,反复加固唤醒词检测模型,直到挖掘误唤醒词数量在可接受范围内。本申请实现了对语音助手的误唤醒词挖掘,提供了一种高效低成本的语音助手模型加固方法。手模型加固方法。手模型加固方法。

【技术实现步骤摘要】
基于遗传算法的智能语音助手唤醒词识别模型加固方法


[0001]本申请涉及智能语音助手安全
,尤其涉及一种基于遗传算法的智能语音助手唤醒词识别模型加固方法和装置。

技术介绍

[0002]随着人工智能的飞速发展,现有的音箱等设备日趋智能化,可以通过语音助手与用户完成互动。用户便可以用语音指令实现各种功能,如播放音乐、搜索网页、拨打电话等,因此语音助手的安全性对于用户隐私与安全显得至关重要。
[0003]现有的语音助手通常都通过唤醒词激活,语音助手会检测周围的语音,只有在用户说出预设的唤醒词后,语音助手才会被激活以接收进一步的指令,因此语音助手的正确唤醒是保护用户隐私与安全的关键,一旦语音助手被节目广播或是谈话间误唤醒,就会开始录制周围的语音,对用户隐私造成侵害,甚至可能接受错误的指令,对用户的安全造成影响。
[0004]现有的语音助手唤醒模型通常由一个部署在本地的轻量模型和在云端的检测模型组成,共同用于识别环境中可能的唤醒词,但由于训练数据不充分等原因,语音助手的唤醒模型往往会被误唤醒,将非唤醒词的单词识别为唤醒词而被错误激活,由此带来许多安全问题。

技术实现思路

[0005]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此,本申请的第一个目的在于提出一种基于遗传算法的智能语音助手唤醒词识别模型加固方法,解决了现有语音助手误唤醒词挖掘难度大、误唤醒现象频繁难以优化的问题,提供了一种高效低成本的语音助手模型加固方法,实现了对语音助手的误唤醒词挖掘,并进一步对语音助手的误唤醒词检测模型进行了加固。
[0007]本申请利用唤醒词的音素特征,定义不同单词间的不相似性度量,采用遗传算法,进行涵盖误唤醒率与不相似性的多目标优化问题求解,利用文字转语音系统(TTS)进行快速的自动化搜索,以找到尽可能多位于帕累托前沿面的误唤醒词,将误唤醒词作为再训练的样本,用于加固原有的唤醒词识别模型,反复迭代以提升模型识别唤醒词的准确率。
[0008]本申请的第二个目的在于提出一种基于遗传算法的智能语音助手唤醒词识别模型加固方法装置。
[0009]本申请的第三个目的在于提出一种非临时性计算机可读存储介质。
[0010]为达上述目的,本申请第一方面实施例提出了一种基于遗传算法的智能语音助手唤醒词识别模型加固方法,包括:步骤S10:根据音箱类型,选取音素特征和特征取值范围,之后根据音素特征和特征取值范围,选取合适的特征数量并定义不同词语间的不相似度;步骤S20:以遗传算法为基础,设计用于误唤醒率与不相似度两目标同时优化的求解算法;步骤S30:使用树莓派与语音助手连接,部署误唤醒词挖掘平台,通过运行求解算法来进行
高效误唤醒词挖掘,生成误唤醒样本集;步骤S40:对误唤醒样本集进行正确样本标记后,对唤醒词检测模型进行训练;步骤S50:重复进行步骤S20、步骤S30、步骤S40,反复加固唤醒词检测模型,直到挖掘误唤醒词数量在可接受范围内。
[0011]可选地,在本申请的一个实施例中,根据音箱类型,选取音素特征和特征取值范围,包括:
[0012]对于中文音箱,选取声母、韵母、音调作为音素特征,特征取值范围为汉语中使用的声母韵母以及四个声调;
[0013]对于英文音箱,选取字母作为音素特征,特征取值范围为阿拉伯字母与占位符“/”。
[0014]可选地,在本申请的一个实施例中,对于中文音箱,选取的特征数量为唤醒词汉字个数的3倍,分别对应每个汉字的声母、韵母、声调;
[0015]对于中文音箱,两个中文单词间的不相似度表示为:
[0016][0017]其中,表示两个中文单词,c
i
表示对应位置的特征,表示预定义的两特征间的距离。
[0018]可选地,在本申请的一个实施例中,对于英文音箱,选取的特征数量为单词字母个数的1.5倍,分别对应于该位置的字母或占位符;
[0019]对于英文音箱,两个英文单词间的不相似度表示为:
[0020][0021]其中,表示两个英文单词,c
i
表示单词对应的音素,表示预定义的两音素间的不相似度,D,I,E分别是将单词W1转变为单词W2所需的删除、插入、替换操作集合。
[0022]可选地,在本申请的一个实施例中,以遗传算法为基础,设计用于误唤醒率与不相似度两目标同时优化的求解算法,包括以下步骤:
[0023]步骤S21:将唤醒词、与唤醒词接近的词,以及初始化的词作为初始样本,其中,通过计算唤醒词的不相似度,选取不相似度小于预设值的特征重新组合得到与唤醒词接近的词;
[0024]步骤S22:分别评估样本的误唤醒率和不相似度,其中,误唤醒率定义为播放样本;
[0025]步骤S23:依照帕累托支配与拥挤度排序的方式对样本进行选择,得到保留样本;
[0026]步骤S24:对保留样本集合进行变异操作,以得到下一代的样本集合,其中,变异操作包括:随机选择集合中的两个样本并随机交换一段特征,或将某个样本的某个特征随机更新为取值范围内的其他特征;
[0027]步骤S25:重复步骤S22、步骤S23、步骤S24,直到达到算法最大迭代数,生成最终样本集合。
[0028]可选地,在本申请的一个实施例中,依照帕累托支配与拥挤度排序的方式对样本进行选择,具体为:
[0029]选择集合中的帕累托前沿作为被保留的样本,选择后在集合中删去被选择保留的样本,继续选择剩余样本的帕雷托前沿,若某次选择帕累托前沿的样本后,将使被选择的样本数超过了预设的保留样本数,则按照拥挤度对该次选择的样本进行降序排序,逐一保留样本直到选择的样本数达到预设的保留样本数。
[0030]可选地,在本申请的一个实施例中,使用树莓派与语音助手连接,部署误唤醒词挖掘平台,通过运行求解算法来进行高效误唤醒词挖掘,生成误唤醒样本集,包括以下步骤:
[0031]步骤S31:在电脑端运行求解算法,生成待测试的样本,通过扬声器向智能音箱播放生成的样本;
[0032]步骤S32:通过光传感器与智能音箱连接,判断智能音箱的语音助手是否被激活,树莓派将激活结果返回电脑;
[0033]步骤S33:在预设的算法迭代次数达到后,记录并保存测试过程中样本的不相似度与误唤醒率,保留具有一定误唤醒率的样本作为误唤醒样本集。
[0034]可选地,在本申请的一个实施例中,对误唤醒样本集进行正确样本标记,具体为:
[0035]将误唤醒样本标记为负类后,在初次训练数据集中随机选取正样本,使得新的数据集中的正负样本比例与原有数据集的正负样本比例一致,
[0036]采用交叉熵损失函数为目标训练唤醒词检测模型,其中,交叉熵损失函数表示为:
[0037][0038]其中,y
i
表示样本是否为正类,p
i
表示样本被预测为正类的概率。
[0039]为达上述目的,本申请第二方面实施例提出了一种基于遗传算法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于遗传算法的智能语音助手唤醒词识别模型加固方法,其特征在于,包括以下步骤:步骤S10:根据音箱类型,选取音素特征和特征取值范围,之后根据所述音素特征和特征取值范围,选取合适的特征数量并定义不同词语间的不相似度;步骤S20:以遗传算法为基础,设计用于误唤醒率与不相似度两目标同时优化的求解算法;步骤S30:使用树莓派与语音助手连接,部署误唤醒词挖掘平台,通过运行所述求解算法来进行高效误唤醒词挖掘,生成误唤醒样本集;步骤S40:对所述误唤醒样本集进行正确样本标记后,对唤醒词检测模型进行训练;步骤S50:重复进行步骤S20、步骤S30、步骤S40,反复加固所述唤醒词检测模型,直到挖掘误唤醒词数量在可接受范围内。2.如权利要求1所述的方法,其特征在于,所述根据音箱类型,选取音素特征和特征取值范围,包括:对于中文音箱,选取声母、韵母、音调作为音素特征,特征取值范围为汉语中使用的声母韵母以及四个声调;对于英文音箱,选取字母作为音素特征,特征取值范围为阿拉伯字母与占位符“/”。3.如权利要求2所述的方法,其特征在于,对于中文音箱,选取的特征数量为唤醒词汉字个数的3倍,分别对应每个汉字的声母、韵母、声调;对于中文音箱,两个中文单词间的不相似度表示为:其中,表示两个中文单词,c
i
表示对应位置的特征,表示预定义的两特征间的距离。4.如权利要求2所述的方法,其特征在于,对于英文音箱,选取的特征数量为单词字母个数的1.5倍,分别对应于该位置的字母或占位符;对于英文音箱,两个英文单词间的不相似度表示为:其中,表示两个英文单词,c
i
表示单词对应的音素,表示预定义的两音素间的不相似度,D,I,E分别是将单词W1转变为单词W2所需的删除、插入、替换操作集合。5.如权利要求1所述的方法,其特征在于,所述以遗传算法为基础,设计用于误唤醒率与不相似度两目标同时优化的求解算法,包括以下步骤:步骤S21:将唤醒词、与唤醒词接近的词,以及初始化的词作为初始样本,其中,通过计算所述唤醒词的不相似度,选取不相似度小于预设值的特征重新组合得到所述与唤醒词接近的词;
步骤S22:分别评估样本的误唤醒率和不相似度,其中,所述误唤醒率定义为播放样本;步骤S23:依照帕累托支配与拥挤度排序的方式对样本进行选择,得到保留样本;步骤S24:对所述保留样本集合进行变异操作,以得到下一代的样本集合,其中,所述变异操作包括:随机选择集合中的两个样本并随机交换一段特征,或将某个样本的某个特征随机更新为取值范围内的其他特征;步骤S25:重复步骤S22、步骤S23、步骤S24,直到达到算法最大迭代...

【专利技术属性】
技术研发人员:陈艳姣徐文渊白怡杰汪锴波
申请(专利权)人:杭州涿溪脑与智能研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1