System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 音频的识别方法、装置、电子设备及存储介质制造方法及图纸_技高网

音频的识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40631030 阅读:5 留言:0更新日期:2024-03-13 21:16
本发明专利技术实施例提供了一种音频的识别方法、装置、电子设备及存储介质,涉及安全检测技术领域,所述方法包括:获取目标音频,并将所述目标音频切分为若干个音频切片;提取各个所述音频切片对应的音频特征,并根据各个所述音频特征对所述目标音频进行有效特征提取,获得所述目标音频的人声特征以及环境声特征;根据所述人声特征与所述环境声特征对所述目标音频进行识别,获得针对所述目标音频的识别结果,所述识别结果包括所述目标音频为存在异常入户的音频,或所述目标音频为不存在异常入户的音频,从而能够准确地识别出音频对应的入户事件,进而保证了用户或用户财产的安全。

【技术实现步骤摘要】

本专利技术涉及安全检测,特别是涉及一种音频的识别方法、一种音频的识别装置、一种电子设备以及一种计算机可读存储介质。


技术介绍

1、随着信息技术的发展和生活水平的提高,人们对智慧安防的需求也越来越迫切。目前,在安防领域中,主要采用摄像头为主的监控方式进行智慧监控,但是这种方式存在一定的弊端,如视频监控受光线、角度等影响,且视频监控一般都部署在公共区域,对隐私性的要求比较高。


技术实现思路

1、本专利技术实施例是提供一种音频的识别方法、装置、电子设备以及计算机可读存储介质,以解决或部分解决安放监控存在局限性大且隐私性差的问题。

2、本专利技术实施例公开了一种音频的识别方法,包括:

3、获取目标音频,并将所述目标音频切分为若干个音频切片;

4、提取各个所述音频切片对应的音频特征,并根据各个所述音频特征对所述目标音频进行有效特征提取,获得所述目标音频的人声特征以及环境声特征;

5、根据所述人声特征与所述环境声特征对所述目标音频进行识别,获得针对所述目标音频的识别结果,所述识别结果包括所述目标音频为存在异常入户的音频,或所述目标音频为不存在异常入户的音频。

6、可选地,所述提取各个所述音频切片对应的音频特征,包括:

7、获取各个所述音频切片的原始音频特征,所述原始音频特征包括时间步数以及特征维度,所述时间步数为所述音频切片在时间轴上的帧数,所述特征维度为每帧提取出的特征维度;

8、根据所述音频切片对应的时间步数和特征维度进行特征压缩,获得所述音频切片对应的音频特征。

9、可选地,所述根据所述音频切片对应的时间步数和特征维度进行特征压缩,获得所述音频切片对应的音频特征,包括:

10、获取针对所述原始音频特征的倍率因子;

11、采用所述倍率因子对所述时间步数和所述特征维度进行压缩,获得与所述原始音频特征对应的压缩特征向量;

12、获取针对所述压缩特征向量的投影权重;

13、根据所述投影矩阵以及所述压缩特征向量进行特征提取,获得所述音频切片对应的音频特征。

14、可选地,所述投影权重至少包括查询投影权重、键投影权重以及值投影权重,所述根据所述投影矩阵以及所述压缩特征向量进行特征提取,获得所述音频切片对应的音频特征,包括:

15、采用所述查询投影权重与所述压缩特征向量进行计算,获得所述音频切片对应的查询向量,采用所述键投影权重与所述压缩特征向量进行计算,获得所述音频切片对应的键向量,采用所述值投影权重与所述压缩特征向量进行计算,获得所述音频切片对应的值向量;

16、将查询向量与键向量的转置矩阵进行相乘,获得空间注意力特征图;

17、采用所述空间注意力特征图与所述值向量进行投影,获得所述音频切片对应的音频特征。

18、可选地,所述根据各个所述音频特征对所述目标音频进行有效特征提取,获得所述目标音频的人声特征以及环境声特征,包括:

19、获取针对所述音频特征的特征提取模型,所述特征提取模型包括用于提取人声特征的第一特征提取通道以及用于提取环境声特征的第二特征提取通道;

20、将所述音频特征输入所述第一特征提取通道进行特征提取,获得所述目标音频的目标人声特征;

21、将所述音频特征输入所述第二特征提取通道进行特征提取,获得所述目标音频的目标环境声特征。

22、可选地,所述第一特征提取通道至少包括第一输入卷积核、与所述第一输入卷积核连接的第一深度分离卷积层以及与所述第一深度分离卷积层连接的第一输出卷积核,所述将所述音频特征输入所述第一特征提取通道进行特征提取,获得所述目标音频的人声特征,包括:

23、将所述音频特征输入所述第一输入卷积核进行人声特征提取,获得所述音频特征中与人声关联的第一关键特征;

24、将所述第一关键特征输入所述第一深度分离卷积层进行特征组合,获得所述第一组合特征;

25、将所述第一组合特征输入所述第一输出卷积核增大感受野,获得所述目标音频的人声特征。

26、可选地,所述第二特征提取通道至少包括第二输入卷积核、与所述第二输入卷积核连接的第二深度分离卷积层以及与所述第二深度分离卷积层连接的第二输出卷积核,所述将所述音频特征输入所述第二特征提取通道进行特征提取,获得所述目标音频的环境声特征,包括:

27、将所述音频特征输入所述第二输入卷积核进行环境声特征提取,获得所述音频特征中与环境声关联的第二关键特征;

28、将所述第二关键特征输入所述第二深度分离卷积层进行特征组合,获得所述第二组合特征;

29、将所述第二组合特征输入所述第二输出卷积核增大感受野,获得所述目标音频的环境声特征。

30、可选地,所述根据所述人声特征与所述环境声特征对所述目标音频进行识别,获得针对所述目标音频的识别结果,包括:

31、获取针对所述人声特征的家庭成员声纹库,以及针对所述环境声特征的家庭正常声音库,所述家庭成员声纹库至少包括家庭用户的用户声纹特征,所述家庭正常声音库至少包括正常声音特征;

32、将所述人声特征与所述用户声纹特征进行拼接,以及将所述环境声特征与所述正常声音特征进行拼接,获得所述目标音频对应的四元组;

33、将所述四元组输入预设的多层感知器进行推理,获得针对所述目标音频的事件识别概率;

34、若所述事件识别概率为表征存在异常入户的概率,则生成针对所述目标音频的异常入户提示信息;

35、若所述事件识别概率为表征不存在异常入户的概率,则对所述目标音频进行静默处理。

36、本专利技术实施例还公开了一种音频的识别装置,包括:

37、音频处理模块,用于获取目标音频,并将所述目标音频切分为若干个音频切片;

38、特征提取模块,用于提取各个所述音频切片对应的音频特征,并根据各个所述音频特征对所述目标音频进行有效特征提取,获得所述目标音频的人声特征以及环境声特征;

39、音频识别模块,用于根据所述人声特征与所述环境声特征对所述目标音频进行识别,获得针对所述目标音频的识别结果,所述识别结果包括所述目标音频为存在异常入户的音频,或所述目标音频为不存在异常入户的音频。

40、可选地,所述特征提取模块具体用于:

41、获取各个所述音频切片的原始音频特征,所述原始音频特征包括时间步数以及特征维度,所述时间步数为所述音频切片在时间轴上的帧数,所述特征维度为每帧提取出的特征维度;

42、根据所述音频切片对应的时间步数和特征维度进行特征压缩,获得所述音频切片对应的音频特征。

43、可选地,所述特征提取模块具体用于:

44、获取针对所述原始音频特征的倍率因子;

45、采用所述倍率因子对所述时间步数和所述特征维度进行压缩,获得与所述原始音频特征对应的压缩特征向量;<本文档来自技高网...

【技术保护点】

1.一种音频的识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述提取各个所述音频切片对应的音频特征,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述音频切片对应的时间步数和特征维度进行特征压缩,获得所述音频切片对应的音频特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述投影权重至少包括查询投影权重、键投影权重以及值投影权重,所述根据所述投影矩阵以及所述压缩特征向量进行特征提取,获得所述音频切片对应的音频特征,包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据各个所述音频特征对所述目标音频进行有效特征提取,获得所述目标音频的人声特征以及环境声特征,包括:

6.根据权利要求5所述的方法,其特征在于,所述第一特征提取通道至少包括第一输入卷积核、与所述第一输入卷积核连接的第一深度分离卷积层以及与所述第一深度分离卷积层连接的第一输出卷积核,所述将所述音频特征输入所述第一特征提取通道进行特征提取,获得所述目标音频的人声特征,包括:

7.根据权利要求5所述的方法,其特征在于,所述第二特征提取通道至少包括第二输入卷积核、与所述第二输入卷积核连接的第二深度分离卷积层以及与所述第二深度分离卷积层连接的第二输出卷积核,所述将所述音频特征输入所述第二特征提取通道进行特征提取,获得所述目标音频的环境声特征,包括:

8.根据权利要求1所述的方法,其特征在于,所述根据所述人声特征与所述环境声特征对所述目标音频进行识别,获得针对所述目标音频的识别结果,包括:

9.一种音频的识别装置,其特征在于,包括:

10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;

11.一种计算机可读存储介质,其上存储有指令,当由一个或多个处理器执行所述指令时,使得所述处理器执行如权利要求1-8任一项所述的方法。

...

【技术特征摘要】

1.一种音频的识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述提取各个所述音频切片对应的音频特征,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述音频切片对应的时间步数和特征维度进行特征压缩,获得所述音频切片对应的音频特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述投影权重至少包括查询投影权重、键投影权重以及值投影权重,所述根据所述投影矩阵以及所述压缩特征向量进行特征提取,获得所述音频切片对应的音频特征,包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据各个所述音频特征对所述目标音频进行有效特征提取,获得所述目标音频的人声特征以及环境声特征,包括:

6.根据权利要求5所述的方法,其特征在于,所述第一特征提取通道至少包括第一输入卷积核、与所述第一输入卷积核连接的第一深度分离卷积层以及与所述第一深度分离卷积层连接的第一输出卷积核,所述将所述音频特...

【专利技术属性】
技术研发人员:潘礼文易业曦郭懿篆陈一雷黄俣焓陈聪郑文明游路路
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1