对抗样本生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：36453822 阅读：15 留言：0更新日期：2023-01-25 22:51

本申请涉及一种对抗样本生成方法、装置、电子设备及存储介质，其中，所述方法包括：针对误导语音识别模型输出的目标结果，生成文本集合；基于文本集合生成声音文件集合，声音文件集合包括多个候选音频；从多个候选音频中筛选出目标结果的参考音频；分析语音识别模型对参考音频的解码结果，得到目标结果的目标发音特征；基于目标发音特征构建目标损失函数；基于原始音频和目标损失函数的损失值确定目标扰动量；基于原始音频和目标扰动量生成对抗样本。采用本申请，能够生成高鲁棒性、高迁移性且良好隐藏性的中文语音识别对抗样本。良好隐藏性的中文语音识别对抗样本。良好隐藏性的中文语音识别对抗样本。

全部详细技术资料下载

【技术实现步骤摘要】
对抗样本生成方法、装置、电子设备及存储介质

[0001]本申请涉及深度学习、信息安全、人工智能等领域，尤其涉及对抗样本生成方法、装置、电子设备及存储介质。

技术介绍

[0002]采用中文语音识别技术赋能的智能语音系统应用广泛，而现有的对抗样本生成方法主要涉及英文语音命令，无法生成高隐藏性和高迁移性的中文语音识别对抗样本。因此，为了更好地支撑学术界和工业界提出更加可信的语音识别算法，满足服务于智能语音识别系统可靠性与安全性的需求，如何生成高鲁棒性、高迁移性且音质较好的中文语音识别对抗样本，成为亟待解决的技术问题。

技术实现思路

[0003]本申请提供了一种对抗样本生成方法、装置、电子设备及存储介质。
[0004]根据本申请的第一方面，提供了一种对抗样本生成方法，包括：
[0005]针对误导语音识别模型输出的目标结果，生成文本集合；
[0006]基于文本集合生成声音文件集合，声音文件集合包括多个候选音频；
[0007]从多个候选音频中筛选出目标结果的参考音频；
[0008]分析语音识别模型对参考音频的解码结果，得到目标结果的目标发音特征；
[0009]基于目标发音特征构建目标损失函数；
[0010]基于原始音频和目标损失函数的损失值确定目标扰动量；
[0011]基于原始音频和目标扰动量生成对抗样本。
[0012]根据本申请的第二方面，提供了一种对抗样本生成装置，包括：
[0013]第一生成单元，用于针对误导语音识别模型输出的目...

【技术保护点】

【技术特征摘要】
1.一种对抗样本生成方法，其特征在于，所述方法包括：针对误导语音识别模型输出的目标结果，生成文本集合；基于所述文本集合生成声音文件集合，所述声音文件集合包括多个候选音频；从所述多个候选音频中筛选出所述目标结果的参考音频；分析所述语音识别模型对所述参考音频的解码结果，得到所述目标结果的目标发音特征；基于所述目标发音特征构建目标损失函数；基于原始音频和所述目标损失函数的损失值确定目标扰动量；基于所述原始音频和所述目标扰动量生成对抗样本。2.根据权利要求1所述的方法，其特征在于，所述文本集合包括所述目标结果对应的目标命令、以及基于所述目标命令得到的扩充命令，所述针对误导语音识别模型输出的目标结果，生成文本集合，包括：提取所述目标命令的多个关键词；确定所述多个关键词分别对应的等级，所述等级用于表示重要程度；基于所述多个关键词分别对应的等级，确定候选关键词和非候选关键词；对所述非候选关键词进行处理，得到可添加的扩词；基于所述候选关键词和所述扩词，得到所述目标命令的至少一个扩充命令；基于所述目标命令及所述至少一个扩充命令，生成所述文本集合。3.根据权利要求2所述的方法，其特征在于，基于所述目标命令及所述至少一个扩充命令，生成所述文本集合，包括：采用第一翻译软件将每个扩充命令转换成外文版扩充命令；采用第二翻译软件将所述外文版扩充命令转换成中文版扩充命令；确定每个扩充命令与其对应的经转换得到的所述中文版扩充命令之间的语义相似度；将所述语义相似度大于第一门限值的扩充命令，确定为可用扩充命令；基于所述目标命令和所述可用扩充命令，生成所述文本集合。4.根据权利要求1所述的方法，其特征在于，从所述多个候选音频中筛选出所述目标结果的参考音频，包括：若所述语音识别模型基于播放的所述候选音频能得到所述目标结果，则将所述候选音频确定为所述参考音频；或若所述语音识别模型基于播放的所述候选音频能得到所述目标结果，且所述候选音频相对于所述目标结果对应的目标音频的变换程度大于预设阈值，则将所述候选音频确定为所述参考音频。5.根据权利要求1所述的方法，其特征在于，所述分析所述语音识别模型对所述参考音频的解码结果，得到所述目标结果的目标发音特征，包括：提取所述语音识别模型对所述参考音频中每一帧解码得到的音节或字符；确定每一帧解码得到的音节或字符的发音时长和对应的概率密度函数索引；将所述参考音频每一帧解码得到的音节或字符组成目标序列；基于所述目标序列中每一音节或字符的发音时长和对应的概率密度函数索引，得到所述目标结果的目标发音特征。
6.根据权利要求5所述的方法，其特征在于，所述基于原始音频和所述目标损失函数的损失值确定目标扰动量，包括：获取根据原始音频和扰动量确定出的待测音频；基于所述待测音频被所述语音识别模型解码出目标音节或字符的真实概率值，以及所述目标发音特征对目标音节或字符的期望概率值，设计目标损失函数；基于所述目标损失函数的损失值和所述原始音频，确定所述目标扰动量。7.根据权利要求6所述的...

【专利技术属性】
技术研发人员：马振坤，凌欣祺，曾智洋，沈海涛，陈恺，袁雪敬，章江山，魏成安，李瑞源，
申请(专利权)人：OPPO广东移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人