【技术实现步骤摘要】
基于音频切片调节的智能语音识别安全防御方法及装置
[0001]本申请涉及语音识别安全领域,尤其涉及一种基于音频切片调节的智能语音识别安全防御方法及装置。
技术介绍
[0002]随着语音识别技术的发展,智能语音识别系统逐渐成为物联网配备的重要智能组件之一,使得语音交互成为物联网人机交互中的重要场景。智能语音识别系统可用于语音智能翻译、语音控制助手等场景,其通过自动转录输入的音频文件,大幅提升用户的生活和工作效率。
[0003]对于一个输入音频,智能语音识别系统首先会对其进行信号预处理,减少原始音频中的噪声并去除无关的频率分量。然后经过处理的音频信号会被进一步分割为长度更短的音频帧。接着,智能语音识别系统从这些音频帧中提取声学特征,如梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,简称MFCC)等,并基于预先训练好的语音识别模型将提取的声学特征映射为概率最高的文本序列。
[0004]然而,智能语音识别系统在提升人们生活和工作便利的同时,也被攻击者用于非法智能监听等恶意行为,对合法用户的隐私与财产安全造成极大威胁。
技术实现思路
[0005]有鉴于此,本申请提供一种基于音频切片调节的智能语音识别安全防御方法及装置。
[0006]具体地,本申请是通过如下技术方案实现的:根据本申请实施例的第一方面,提供一种基于音频切片调节的智能语音识别安全防御方法,包括:获取待保护音频数据;对所述待保护音频数据进行切分,并确定目标候选音频切片;其中,对于任一所述 ...
【技术保护点】
【技术特征摘要】
1.一种基于音频切片调节的智能语音识别安全防御方法,其特征在于,包括:获取待保护音频数据;对所述待保护音频数据进行切分,并确定目标候选音频切片;其中,对于任一所述目标候选音频切片,该目标候选音频切片对应的第一测试音频的语音识别结果与初始语音识别结果不一致,音频切片对应的第一测试音频通过利用第一倍速值对该音频切片进行倍速操作,并将倍速操作后的音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述初始语音识别结果为所述待保护音频数据的语音识别结果;从所述目标候选音频切片中确定出目标音频切片,并确定目标倍速值;其中,目标测试音频的语音识别结果与所述初始语音识别结果不一致,所述目标测试音频通过利用所述目标倍速值对所述目标音频切片进行倍速操作,并将倍速操作后的目标音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述目标倍速值的变化率小于等于所述第一倍速值的变化率,所述目标倍速值和所述第一倍速值均归属于预设倍速值取值范围;依据所述目标音频切片的起止时间,利用所述目标倍速值对所述待保护音频数据中与所述起止时间对应的部分进行倍速操作,并输出倍速操作后的音频数据。2.根据权利要求1所述的方法,其特征在于,所述对所述待保护音频数据进行切分,并确定目标候选音频切片,包括:依据预设最小切片长度,以及,预设切片数量,对所述待保护音频数据进行至少一个层级的切分;其中,对于任一层级的音频数据切分,所述待保护音频数据或一个音频切片切分得到的下一层级的音频切片的数量小于等于所述预设切片数量,且音频切片长度大于等于所述最小切片长度;将对应的第一测试音频的语音识别结果与所述初始语音识别结果不一致,且层级最低的音频切片,确定为目标候选音频切片。3.根据权利要求2所述的方法,其特征在于,所述依据预设最小切片长度,以及,预设切片数量,对所述待保护音频数据进行至少一个层级的切分,包括:在所述待保护音频数据的长度与所述预设切片数量的比值大于等于所述预设最小切片长度的情况下,将所述待保护音频数据切分为所述预设切片数量的初级音频切片;将对应的第一测试音频的语音识别结果与所述初始语音识别结果不一致的初级音频切片,确定为初级候选音频切片;在当前最低层级的候选音频切片的长度与所述预设切片数量的比值大于等于所述预设最小切片长度的情况下,分别对各当前最低层级的候选音频切片进行下一层级的切分,并确定下一层级的候选音频切片;在当前最低层级的候选音频切片的长度与所述预设切片数量的比值小于所述预设最小切片长度的情况下,分别对各当前最低层级的候选音频切片进行所述预设最小切片长度的音频切片切分,并确定下一层级的候选音频切片;在当前最低层级的候选音频切片的长度等于所述预设最小切片长度,或,当前最低层级的音频切片中不存在候选音频切片的情况下,结束音频数据切分。4.根据权利要求2所述的方法,其特征在于,所述依据预设最小切片长度,以及,预设切片数量,对所述待保护音频数据进行至少一个层级的切分,包括:
在所述待保护音频数据的长度与所述预设切片数量的比值小于所述预设最小切片长度的情况下,对所述待保护音频数据进行所述预设最小切片长度的音频切片切分,得到至少一个初级音频切片,并结束音频数据切分。5.根据权利要求3或4所述的方法,其特征在于,所述将对应的第一测试音频的语音识别结果与所述初始语音识别结果不一致,且层级最低的音频切片,确定为目标候选音频切片,包括:在最低层级的候选音频切片的长度等于所述预设最小切片长度的情况下,将最低层级的候选音频切片确定为目标候选音频切片;在最低层级的音频切片中不存在候选音频切片的情况下,将上一层级的候选音频切片确定为目标候选音频切片。6.根据权利要求1所述的方法,其特征在于,所述从所述目标候选音频切片中确定出目标音频切片,并确定目标倍速值,包括:对于任一目标候选音频切片,利用指定搜索策略,在所述预设倍速值取值范围内进行候选倍速值搜索,并在达到预设跳出条件的情况下,确定目标候选倍速值;其中,该目标候选音频切片在目标候选倍速值下的测试音频的语音识别结果与所述初始语音识别结果不一致;所述指定搜索策略包括:若目标语音识别结果与所述初始语音识别结果不一致,则在所述预设倍速值取值范围内向下调整当前使用的倍速值;若目标语音识别结果与所述初始语音识别结果一致,则在所述预设倍速值取值范围内向上调整当前使用的倍速值;所述目标语音识别结果为该目标候选音频切片在当前使用的倍速值下的测试音频的语音识别结果;依据各目标候选音频切片的目标候选倍速值的变化率,从各目标候选音频切片的目...
【专利技术属性】
技术研发人员:李超豪,王滨,王星,闫琛,王伟,
申请(专利权)人:杭州海康威视数字技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。