基于音频切片调节的智能语音识别安全防御方法及装置制造方法及图纸

技术编号:33864374 阅读:33 留言:0更新日期:2022-06-18 10:55
本申请提供一种基于音频切片调节的智能语音识别安全防御方法及装置,该方法包括:获取待保护音频数据;对所述待保护音频数据进行切分,并确定目标候选音频切片;从所述目标候选音频切片中确定出目标音频切片,并确定目标倍速值;依据所述目标音频切片的起止时间,利用所述目标倍速值对所述待保护音频数据中与所述起止时间对应的部分进行倍速操作,并输出倍速操作后的音频数据。该方法可以实现高隐蔽高保真的音频安全防御效果。高保真的音频安全防御效果。高保真的音频安全防御效果。

【技术实现步骤摘要】
基于音频切片调节的智能语音识别安全防御方法及装置


[0001]本申请涉及语音识别安全领域,尤其涉及一种基于音频切片调节的智能语音识别安全防御方法及装置。

技术介绍

[0002]随着语音识别技术的发展,智能语音识别系统逐渐成为物联网配备的重要智能组件之一,使得语音交互成为物联网人机交互中的重要场景。智能语音识别系统可用于语音智能翻译、语音控制助手等场景,其通过自动转录输入的音频文件,大幅提升用户的生活和工作效率。
[0003]对于一个输入音频,智能语音识别系统首先会对其进行信号预处理,减少原始音频中的噪声并去除无关的频率分量。然后经过处理的音频信号会被进一步分割为长度更短的音频帧。接着,智能语音识别系统从这些音频帧中提取声学特征,如梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,简称MFCC)等,并基于预先训练好的语音识别模型将提取的声学特征映射为概率最高的文本序列。
[0004]然而,智能语音识别系统在提升人们生活和工作便利的同时,也被攻击者用于非法智能监听等恶意行为,对合法用户的隐私与财产安全造成极大威胁。

技术实现思路

[0005]有鉴于此,本申请提供一种基于音频切片调节的智能语音识别安全防御方法及装置。
[0006]具体地,本申请是通过如下技术方案实现的:根据本申请实施例的第一方面,提供一种基于音频切片调节的智能语音识别安全防御方法,包括:获取待保护音频数据;对所述待保护音频数据进行切分,并确定目标候选音频切片;其中,对于任一所述目标候选音频切片,该目标候选音频切片对应的第一测试音频的语音识别结果与初始语音识别结果不一致,音频切片对应的第一测试音频通过利用第一倍速值对该音频切片进行倍速操作,并将倍速操作后的音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述初始语音识别结果为所述待保护音频数据的语音识别结果;从所述目标候选音频切片中确定出目标音频切片,并确定目标倍速值;其中,目标测试音频的语音识别结果与所述初始语音识别结果不一致,所述目标测试音频通过利用所述目标倍速值对所述目标音频切片进行倍速操作,并将倍速操作后的目标音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述目标倍速值的变化率小于等于所述第一倍速值的变化率,所述目标倍速值和所述第一倍速值均归属于预设倍速值取值范围;
依据所述目标音频切片的起止时间,利用所述目标倍速值对所述待保护音频数据中与所述起止时间对应的部分进行倍速操作,并输出倍速操作后的音频数据。
[0007]根据本申请实施例的第二方面,提供一种基于音频切片调节的智能语音识别安全防御装置,包括:获取单元,用于获取待保护音频数据;切分单元,用于对所述待保护音频数据进行切分,并确定目标候选音频切片;其中,对于任一所述目标候选音频切片,该目标候选音频切片对应的第一测试音频的语音识别结果与初始语音识别结果不一致,音频切片对应的第一测试音频通过利用第一倍速值对该音频切片进行倍速操作,并将倍速操作后的音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述初始语音识别结果为所述待保护音频数据的语音识别结果;确定单元,用于从所述目标候选音频切片中确定出目标音频切片,并确定目标倍速值;其中,目标测试音频的语音识别结果与所述初始语音识别结果不一致,所述目标测试音频通过利用所述目标倍速值对所述目标音频切片进行倍速操作,并将倍速操作后的目标音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述目标倍速值的变化率小于等于所述第一倍速值的变化率,所述目标倍速值和所述第一倍速值均归属于预设倍速值取值范围;防御单元,用于依据所述目标音频切片的起止时间,利用所述目标倍速值对所述待保护音频数据中与所述起止时间对应的部分进行倍速操作,并输出倍速操作后的音频数据。
[0008]根据本申请实施例的第三方面,提供一种电子设备,该电子设备包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现上述方法。
[0009]本申请实施例的基于音频切片调节的智能语音识别安全防御方法,通过依据人耳对不同播放速度的音频的理解能力设定倍速值取值范围,对于获取到的待保护音频数据,可以通过对待保护音频数据进行切分,并确定满足音频数据保护要求的目标候选音频切片,进而,可以从目标候选音频切片中确定出目标音频切片,确定目标倍速值,依据目标音频切片的起止时间,利用目标倍速值对待保护音频数据中与目标音频切片对应的部分进行倍速操作,并输出倍速操作后的音频数据,以得到人耳能够正常理解,且智能语音识别模型会错误识别的音频数据,在无需额外硬件的情况下,通过在软件层面对音频进行预处理即可实现对非法智能语音识别系统的安全防御功能,部署方便,可拓展性强,且无需对音频内容进行修改,实现了高隐蔽高保真的安全防御效果,此外,由于仅对待保护音频数据中的部分片段进行倍速操作,减少了对待保护音频数据的改动,降低了音频数据保护对原始音频数据的可听性与可理解性的影响。
附图说明
[0010]图1为本申请一示例性实施例示出的一种基于音频切片调节的智能语音识别安全防御方法的流程示意图;图2为本申请一示例性实施例示出的一种基于音频切片调节的智能语音识别安全
防御方法的流程示意图;图3为本申请一示例性实施例示出的一种基于二分法的最小变化率倍速值选取的流程示意图;图4为本申请一示例性实施例示出的一种基于音频切片调节的智能语音识别安全防御装置的结构示意图;图5为本申请一示例性实施例示出的一种电子设备的硬件结构示意图。
具体实施方式
[0011]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0012]在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
[0013]为了使本领域技术人员更好地理解本申请实施例提供的技术方案,下面先对本申请实施例涉及的部分术语进行简单说明。
[0014]1、智能语音识别系统:指的是能够自动识别音频文件并输出转录文本的语音识别系统。
[0015]2、倍速操作:指的是在不改变音频音调的基础上,改变音频播放速度的操作。
[0016]3、倍速值:指经过倍速操作后音频的播放速度相较于原始音频播放速度的比率。
[0017]为了使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。
[0018]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于音频切片调节的智能语音识别安全防御方法,其特征在于,包括:获取待保护音频数据;对所述待保护音频数据进行切分,并确定目标候选音频切片;其中,对于任一所述目标候选音频切片,该目标候选音频切片对应的第一测试音频的语音识别结果与初始语音识别结果不一致,音频切片对应的第一测试音频通过利用第一倍速值对该音频切片进行倍速操作,并将倍速操作后的音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述初始语音识别结果为所述待保护音频数据的语音识别结果;从所述目标候选音频切片中确定出目标音频切片,并确定目标倍速值;其中,目标测试音频的语音识别结果与所述初始语音识别结果不一致,所述目标测试音频通过利用所述目标倍速值对所述目标音频切片进行倍速操作,并将倍速操作后的目标音频切片与所述待保护音频数据中的其余未经过倍速操作的部分按原顺序拼接结合得到,所述目标倍速值的变化率小于等于所述第一倍速值的变化率,所述目标倍速值和所述第一倍速值均归属于预设倍速值取值范围;依据所述目标音频切片的起止时间,利用所述目标倍速值对所述待保护音频数据中与所述起止时间对应的部分进行倍速操作,并输出倍速操作后的音频数据。2.根据权利要求1所述的方法,其特征在于,所述对所述待保护音频数据进行切分,并确定目标候选音频切片,包括:依据预设最小切片长度,以及,预设切片数量,对所述待保护音频数据进行至少一个层级的切分;其中,对于任一层级的音频数据切分,所述待保护音频数据或一个音频切片切分得到的下一层级的音频切片的数量小于等于所述预设切片数量,且音频切片长度大于等于所述最小切片长度;将对应的第一测试音频的语音识别结果与所述初始语音识别结果不一致,且层级最低的音频切片,确定为目标候选音频切片。3.根据权利要求2所述的方法,其特征在于,所述依据预设最小切片长度,以及,预设切片数量,对所述待保护音频数据进行至少一个层级的切分,包括:在所述待保护音频数据的长度与所述预设切片数量的比值大于等于所述预设最小切片长度的情况下,将所述待保护音频数据切分为所述预设切片数量的初级音频切片;将对应的第一测试音频的语音识别结果与所述初始语音识别结果不一致的初级音频切片,确定为初级候选音频切片;在当前最低层级的候选音频切片的长度与所述预设切片数量的比值大于等于所述预设最小切片长度的情况下,分别对各当前最低层级的候选音频切片进行下一层级的切分,并确定下一层级的候选音频切片;在当前最低层级的候选音频切片的长度与所述预设切片数量的比值小于所述预设最小切片长度的情况下,分别对各当前最低层级的候选音频切片进行所述预设最小切片长度的音频切片切分,并确定下一层级的候选音频切片;在当前最低层级的候选音频切片的长度等于所述预设最小切片长度,或,当前最低层级的音频切片中不存在候选音频切片的情况下,结束音频数据切分。4.根据权利要求2所述的方法,其特征在于,所述依据预设最小切片长度,以及,预设切片数量,对所述待保护音频数据进行至少一个层级的切分,包括:
在所述待保护音频数据的长度与所述预设切片数量的比值小于所述预设最小切片长度的情况下,对所述待保护音频数据进行所述预设最小切片长度的音频切片切分,得到至少一个初级音频切片,并结束音频数据切分。5.根据权利要求3或4所述的方法,其特征在于,所述将对应的第一测试音频的语音识别结果与所述初始语音识别结果不一致,且层级最低的音频切片,确定为目标候选音频切片,包括:在最低层级的候选音频切片的长度等于所述预设最小切片长度的情况下,将最低层级的候选音频切片确定为目标候选音频切片;在最低层级的音频切片中不存在候选音频切片的情况下,将上一层级的候选音频切片确定为目标候选音频切片。6.根据权利要求1所述的方法,其特征在于,所述从所述目标候选音频切片中确定出目标音频切片,并确定目标倍速值,包括:对于任一目标候选音频切片,利用指定搜索策略,在所述预设倍速值取值范围内进行候选倍速值搜索,并在达到预设跳出条件的情况下,确定目标候选倍速值;其中,该目标候选音频切片在目标候选倍速值下的测试音频的语音识别结果与所述初始语音识别结果不一致;所述指定搜索策略包括:若目标语音识别结果与所述初始语音识别结果不一致,则在所述预设倍速值取值范围内向下调整当前使用的倍速值;若目标语音识别结果与所述初始语音识别结果一致,则在所述预设倍速值取值范围内向上调整当前使用的倍速值;所述目标语音识别结果为该目标候选音频切片在当前使用的倍速值下的测试音频的语音识别结果;依据各目标候选音频切片的目标候选倍速值的变化率,从各目标候选音频切片的目...

【专利技术属性】
技术研发人员:李超豪王滨王星闫琛王伟
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1