System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及语音识别,特别是涉及一种行为检测方法、系统、装置、设备以及存储介质。
技术介绍
1、随着教育行业的不断发展,校园安全问题日益受到广泛关注。由于霸凌行为通常发生在校园内的隐蔽角落或者安防摄像头无法覆盖的区域,因此如何有效对霸凌行为进行预警以提高校园的安全性显得尤为重要。
2、目前,通常通过在校园内部署多个声音传感器捕获音频,利用设备端部署神经网络模型对音频中的霸凌关键词进行识别,并在识别到音频中存在霸凌关键词时进行报警。
3、但是,仅通过音频中是否包含霸凌关键词来确定是否存在霸凌行为,会导致较高概率的误报问题。因此,如何有效检测出霸凌行为成为亟需解决的技术问题。
技术实现思路
1、本申请实施例的目的在于提供一种行为检测方法、系统、装置、设备以及存储介质,以有效检测出霸凌行为。具体技术方案如下:
2、第一方面,本申请实施例提供了一种行为检测方法,应用于中心端设备,所述方法包括:
3、接收待检测数据;其中,所述待检测数据为:前端设备对第一待检测特征进行霸凌关键词识别,并在关键词识别结果表示待检测音频中包含霸凌关键词的情况下所上传的,所述第一待检测特征为:所述前端设备对当前所处环境中采集到的待检测音频进行频域特征提取得到的,所述待检测数据用于表征所述待检测音频;
4、利用预先训练的音频大模型对所述待检测数据进行意图识别,得到表示所述待检测音频的采集环境中是否存在霸凌行为的检测结果。
5、可选地,所述音频大模型
6、利用预先训练的音频大模型对所述待检测数据进行意图识别,得到表示所述待检测音频的采集环境中是否存在霸凌行为的检测结果,包括:
7、利用所述语义特征提取网络对所述待检测数据进行特征提取,得到第二待检测特征;
8、将基于所述第二待检测特征得到的指定输入特征,输入所述大语言模型,得到表示所述待检测音频的采集环境中是否存在霸凌行为的检测结果。
9、可选地,所述音频大模型还包括第二转换模型,所述第二转换模型包括用于提取情感信息的情绪特征提取网络;
10、在将基于所述第二待检测特征得到的指定输入特征,输入所述大语言模型,得到表示所述待检测音频的采集环境中是否存在霸凌行为的检测结果之前,所述方法还包括:
11、利用所述情绪特征提取网络对所述待检测数据进行特征提取,得到第三待检测特征;
12、基于对所述第二待检测特征和所述第三待检测特征进行特征融合,得到指定输入特征。
13、可选地,所述语义特征提取网络包括串联的第一数量个语义特征提取层,所述第二转换模型还包括第一融合网络,以及第二融合网络;
14、在将基于所述第二待检测特征得到的指定输入特征,输入所述大语言模型,得到表示所述待检测音频的采集环境中是否存在霸凌行为的检测结果之前,所述方法还包括:
15、将所述语义特征提取网络中前第二数量个语义特征提取层的输出特征,输入所述第一融合网络,得到第一融合特征;
16、基于对所述第二待检测特征和所述第三待检测特征进行特征融合,得到指定输入特征,包括:
17、利用所述第二融合网络对所述第一融合特征和所述第三待检测特征进行特征融合,得到第二融合特征;
18、基于对所述第二待检测特征和所述第二融合特征进行特征融合,得到指定输入特征。
19、可选地,所述第二融合网络为交叉注意力网络;
20、利用所述第二融合网络对所述第一融合特征和所述第三待检测特征进行特征融合,得到第二融合特征,包括:
21、对所述第一融合特征进行映射得到所述交叉注意力网络的输入数据中的查询q和值v,以及对所述第三待检测特征进行映射得到所述交叉注意力网络的输入数据中的键k,并将得到的查询q、值v和键k输入至所述交叉注意力网络进行特征融合,得到第二融合特征。
22、可选地,所述语义特征提取网络包括串联的第一数量个语义特征提取层,所述音频大模型还包括第二转换模型,所述第二转换模型包括第一融合网络;
23、在将基于所述第二待检测特征得到的指定输入特征,输入所述大语言模型,得到表示所述待检测音频的采集环境中是否存在霸凌行为的检测结果之前,所述方法还包括:
24、将所述语义特征提取网络中前第二数量个语义特征提取层的输出特征,输入所述第一融合网络,得到第一融合特征;
25、基于对所述第二待检测特征和所述第一融合特征进行特征融合,得到指定输入特征。
26、可选地,所述待检测数据为所述第一待检测特征。
27、可选地,所述第一融合网络为注意力池化网络,所述语义特征提取层为transformer block。
28、可选地,所述预先训练的音频大模型为初始的音频大模型至少经过模型预训练得到的;所述第二转换模型的模型预训练过程包括:
29、获取第一样本音频,以及表征所述第一样本音频的情绪类别的第一标签;
30、提取所述第一样本音频的频域特征,作为第一样本特征;
31、将所述第一样本特征输入初始的分类模型,得到所述第一样本音频的情绪分类结果;其中,初始的分类模型包含初始的第二转换模型和分类网络,且初始的第二转换模型的输出数据作为所述分类网络的输入数据;
32、基于得到的情绪分类结果与所述第一标签之间的差值,确定第一模型损失值;
33、基于所述第一模型损失值,对初始的分类模型的模型参数进行调整,直至达到第一收敛条件。
34、可选地,所述预先训练的音频大模型为初始的音频大模型经过模型预训练后再进行模型微调得到的;经过模型预训练后的音频大模型的模型微调过程包括:
35、获取第二样本音频,以及表征所述第二样本音频的采集环境中是否存在霸凌行为的第二标签;
36、提取所述第二样本音频的频域特征,作为第二样本特征;
37、将所述第二样本特征输入经过模型预训练后的音频大模型,得到表示所述第二样本音频的采集环境中是否存在霸凌行为的检测结果;
38、基于得到的检测结果与所述第二标签之间的差值,确定第二模型损失值;
39、基于所述第二模型损失值,对经过模型预训练后的音频大模型的指定模型参数进行调整,直至达到第二收敛条件。
40、可选地,所述指定模型参数为除所述语义特征提取网络的模型参数、所述情绪特征提取网络的模型参数以及所述大语言模型的模型参数之外的模型参数。
41、可选地,所述方法还包括:
42、在确定出所述待检测音频的采集环境中存在霸凌行为时以第一报警方式进行报警。
43、第二方面,本申请实施例提供了一种行为检测方法,应用于前端设备,所述方法包括:
44、采集当前所处环境中的待检测音频,并提取本文档来自技高网...
【技术保护点】
1.一种行为检测方法,其特征在于,应用于中心端设备,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述音频大模型包括大语言模型和第一转换模型,所述第一转换模型包括用于提取上下文信息的语义特征提取网络;
3.根据权利要求2所述的方法,其特征在于,所述音频大模型还包括第二转换模型,所述第二转换模型包括用于提取情感信息的情绪特征提取网络;
4.根据权利要求3所述的方法,其特征在于,所述语义特征提取网络包括串联的第一数量个语义特征提取层,所述第二转换模型还包括第一融合网络,以及第二融合网络;
5.根据权利要求4所述的方法,其特征在于,所述第二融合网络为交叉注意力网络;
6.根据权利要求2所述的方法,其特征在于,所述语义特征提取网络包括串联的第一数量个语义特征提取层,所述音频大模型还包括第二转换模型,所述第二转换模型包括第一融合网络;
7.根据权利要求1-6任一项所述的方法,其特征在于,所述待检测数据为所述第一待检测特征。
8.根据权利要求4或6所述的方法,其特征在于,所述第一融合网络为注意力池
9.根据权利要求3所述的方法,其特征在于,所述预先训练的音频大模型为初始的音频大模型至少经过模型预训练得到的;所述第二转换模型的模型预训练过程包括:
10.根据权利要求3所述的方法,其特征在于,所述预先训练的音频大模型为初始的音频大模型经过模型预训练后再进行模型微调得到的;经过模型预训练后的音频大模型的模型微调过程包括:
11.根据权利要求10所述的方法,其特征在于,所述指定模型参数为除所述语义特征提取网络的模型参数、所述情绪特征提取网络的模型参数以及所述大语言模型的模型参数之外的模型参数。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
13.一种行为检测方法,其特征在于,应用于前端设备,所述方法包括:
14.根据权利要求13所述的方法,其特征在于,对所述第一待检测特征进行霸凌关键词识别,得到表示所述待检测音频中是否包含霸凌关键词的关键词识别结果,包括:
15.根据权利要求13所述的方法,其特征在于,所述方法还包括:
16.一种行为检测系统,其特征在于,所述系统包括中心端设备和前端设备;
17.根据权利要求16所述的系统,其特征在于,所述前端设备为多个,且所述多个前端设备的部署位置不同;
18.一种行为检测装置,其特征在于,应用于中心端设备,所述装置包括:
19.一种行为检测装置,其特征在于,应用于前端设备,所述装置包括:
20.一种电子设备,其特征在于,包括:
21.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-12任一项所述的方法,或者权利要求13-15任一项所述的方法。
22.一种计算机程序产品,其特征在于,所述计算机程序产品包含可执行指令,当所述可执行指令在计算机上执行时,使得计算机执行权利要求1-12任一项所述的方法,或者权利要求13-15任一项所述的方法。
...【技术特征摘要】
1.一种行为检测方法,其特征在于,应用于中心端设备,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述音频大模型包括大语言模型和第一转换模型,所述第一转换模型包括用于提取上下文信息的语义特征提取网络;
3.根据权利要求2所述的方法,其特征在于,所述音频大模型还包括第二转换模型,所述第二转换模型包括用于提取情感信息的情绪特征提取网络;
4.根据权利要求3所述的方法,其特征在于,所述语义特征提取网络包括串联的第一数量个语义特征提取层,所述第二转换模型还包括第一融合网络,以及第二融合网络;
5.根据权利要求4所述的方法,其特征在于,所述第二融合网络为交叉注意力网络;
6.根据权利要求2所述的方法,其特征在于,所述语义特征提取网络包括串联的第一数量个语义特征提取层,所述音频大模型还包括第二转换模型,所述第二转换模型包括第一融合网络;
7.根据权利要求1-6任一项所述的方法,其特征在于,所述待检测数据为所述第一待检测特征。
8.根据权利要求4或6所述的方法,其特征在于,所述第一融合网络为注意力池化网络,所述语义特征提取层为转换器层transformer block。
9.根据权利要求3所述的方法,其特征在于,所述预先训练的音频大模型为初始的音频大模型至少经过模型预训练得到的;所述第二转换模型的模型预训练过程包括:
10.根据权利要求3所述的方法,其特征在于,所述预先训练的音频大模型为初始的音频大模型经过模型预训练后再进行模型微调得到的;经过模型预训练后的音频大模型的模型微调过程包...
【专利技术属性】
技术研发人员:陈展,
申请(专利权)人:杭州海康威视数字技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。