摄像头调度模型的训练方法、违规事件的检测方法及装置制造方法及图纸

技术编号:36733083 阅读:18 留言:0更新日期:2023-03-04 10:01
本申请提供一种摄像头调度模型的训练方法、违规事件的检测方法及装置,该摄像头调度模型的训练方法包括:获取摄像头的历史样本数据;基于历史样本数据构建第一样本概率分布;基于第一样本概率分布进行采样,得到第一采样动作数据;基于第一采样动作数据对强化学习模型进行训练得到摄像头调度模型。本申请利用历史样本数据构造样本概率分布,再使用样本概率分布进行采样作为强化学习模型的输入对强化学习模型进行训练,由于强化学习模型的输入由构造的样本概率分布产生,并不真正进行环境响应,从而解决获取真实样本耗时久的难题,能够快速获取大量样本进行训练,从而能够提高摄像头调度模型的训练效率。头调度模型的训练效率。头调度模型的训练效率。

【技术实现步骤摘要】
摄像头调度模型的训练方法、违规事件的检测方法及装置


[0001]本申请主要涉及摄像头调度
,具体涉及一种摄像头调度模型的训练方法、违规事件的检测方法及装置。

技术介绍

[0002]强化学习在资源调度上有广泛应用,主要用于解决NP(非确定性多项式)难问题,尤其是在解决动态变化问题上具有推理速度快,模型鲁棒性高,适合高维度问题等特点。摄像头违规事件检测问题:要求把一台AI视频推理服务器的有限的计算资源分配给超量的摄像头以便进行视频异常行为检测,由于摄像头数量多计算资源有限,如何分配有限的推理资源使尽可能检测到最多异常行为。
[0003]违规事件检测的摄像头调度具有以下几个特点:
[0004]1.违规事件检测耗时较久。因为违规检测是基于GPU计算资源进行,因此不同于常规计算,获取历史数据耗时较久,因此样本量有限。
[0005]2.拿不到分布完整的历史数据。由于计算资源有限,摄像头数量众多,即便满负荷运算也获取不到所有摄像头24小时的违规事件分布特性,因此,现实中拿到的历史数据实际为稀疏的。
[0006]3.没有可用标签,不适用监督学习。因为摄像头会动态增删,拿不到充足的历史数据。
[0007]上述特点造成计算资源有限历史数据稀疏的问题以及受限于违规检测反馈耗时导致的时间成本无法忍受问题,使得摄像头调度模型训练效率较低。
[0008]但是现有技术中摄像头调度模型训练效率较低。

技术实现思路

[0009]本申请提供一种摄像头调度模型的训练方法、违规事件的检测方法及装置,旨在解决现有技术中摄像头调度模型训练效率较低的问题。
[0010]第一方面,本申请提供一种摄像头调度模型的训练方法,所述摄像头调度模型的训练方法包括:
[0011]获取摄像头的历史样本数据;
[0012]基于所述历史样本数据构建第一样本概率分布;
[0013]基于所述第一样本概率分布进行采样,得到第一采样动作数据;
[0014]基于所述第一采样动作数据对强化学习模型进行训练得到摄像头调度模型。
[0015]可选地,所述第一样本概率分布包括各个摄像头的贝塔分布和一天内各个时段的贝塔分布,所述基于所述历史样本数据构建第一样本概率分布,包括:
[0016]基于所述历史样本数据获取各个摄像头的违规频数和未违规频数、各个时段的违规频数和未违规频数;
[0017]基于各个摄像头的违规频数和未违规频数分别建立各个摄像头的贝塔分布,其
中,摄像头的贝塔分布的两个参数分别为摄像头的违规频数和未违规频数;
[0018]基于各个时段的违规频数和未违规频数分别建立各个时段的贝塔分布,其中,时段的贝塔分布的两个参数分别为时段的违规频数和未违规频数。
[0019]可选地,所述强化学习模型包括估值网络和现实网络,所述基于所述第一采样动作数据对强化学习模型进行训练得到摄像头调度模型,包括:
[0020]将所述第一采样动作数据对应的当前状态信息输入估值网络,得到估值输出动作数据;
[0021]基于所述估值输出动作数据更新所述第一样本概率分布,得到更新后的第二样本概率分布;
[0022]基于所述第二样本概率分布进行采样,得到第二采样动作数据;
[0023]基于所述第一采样动作数据和所述第二采样动作数据对所述估值网络和所述现实网络进行迭代训练,得到摄像头调度模型。
[0024]可选地,所述基于所述第一采样动作数据和所述第二采样动作数据对所述估值网络和所述现实网络进行迭代训练,得到摄像头调度模型,包括:
[0025]获取每次迭代时所述估值网络输出的估计Q值;
[0026]将每次迭代时所述第二采样动作数据对应的下一状态信息输入现实网络,得到现实网络的目标Q值;
[0027]基于估计Q值、奖励值以及目标Q值计算损失并对所述估值网络和所述现实网络进行迭代训练,得到摄像头调度模型。
[0028]可选地,所述基于估计Q值、奖励值以及目标Q值计算损失并对所述估值网络和所述现实网络进行迭代训练,得到摄像头调度模型,之前,包括:
[0029]根据所述估值输出动作数据与所述第二采样动作数据的相似度确定奖励值。
[0030]可选地,所述基于所述第一样本概率分布进行采样,得到第一采样动作数据,包括:
[0031]对各个摄像头的贝塔分布进行采样,得到各个摄像头的第一违规概率参数;
[0032]对各个时段的贝塔分布进行采样,得到各个时段的第二违规概率参数;
[0033]根据各个摄像头的第一违规概率参数和各个时段的第二违规概率参数确定各个摄像头在各个时段的第三违规概率参数;
[0034]将按从大到小排序靠前的预设数量的第三违规概率参数对应的摄像头和时段确定为待检查的摄像头时段组合,得到第一采样动作数据。
[0035]可选地,所述基于所述估值输出动作数据更新所述第一样本概率分布,得到更新后的第二样本概率分布,包括:
[0036]基于所述估值输出动作数据对所述历史样本数据进行检查,得到各个摄像头的检查违规频数和检测未违规频数、各个时段的检查违规频数和检测未违规频数;
[0037]根据各个摄像头的检查违规频数和检测未违规频数更新各个摄像头的违规频数和未违规频数,以更新各个摄像头的贝塔分布;
[0038]根据各个时段的检查违规频数和检测未违规频数更新各个时段的违规频数和未违规频数,以更新各个时段的贝塔分布;
[0039]将各个摄像头更新后的贝塔分布和各个时段更新后的贝塔分布确定为第二样本
概率分布。
[0040]第二方面,本申请提供一种违规事件的检测方法,所述检测方法包括:
[0041]获取各个摄像头的当前状态信息,其中,所述当前状态信息包括各个摄像头在各个时段的违规频数和未违规频数;
[0042]将所述当前状态信息输入摄像头调度模型,得到摄像头调度动作信息;其中,所述摄像头调度模型为第一方面任意一项所述的摄像头调度模型。
[0043]基于所述摄像头调度动作信息确定待检查摄像头时段组合,所述待检查摄像头时段组合包括待检查摄像头和对应的待检查时段;
[0044]对所述待检查摄像头在待检查时段的拍摄信息进行违规事件检测,得到违规事件检测结果。
[0045]第三方面,本申请提供一种摄像头调度模型的训练装置,所述训练装置包括:
[0046]获取单元,用于获取摄像头的历史样本数据;
[0047]分布构建单元,用于基于所述历史样本数据构建第一样本概率分布;
[0048]采样单元,用于基于所述第一样本概率分布进行采样,得到第一采样动作数据;
[0049]模型训练单元,用于基于所述第一采样动作数据对强化学习模型进行训练得到摄像头调度模型。
[0050]可选地,所述第一样本概率分布包括各个摄像头的贝塔分布和一天内各个时段的贝塔分布,所述分布构建单元,用于:
[0051]基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种摄像头调度模型的训练方法,其特征在于,所述摄像头调度模型的训练方法包括:获取摄像头的历史样本数据;基于所述历史样本数据构建第一样本概率分布;基于所述第一样本概率分布进行采样,得到第一采样动作数据;基于所述第一采样动作数据对强化学习模型进行训练得到摄像头调度模型。2.根据权利要求1所述的摄像头调度模型的训练方法,其特征在于,所述第一样本概率分布包括各个摄像头的贝塔分布和一天内各个时段的贝塔分布,所述基于所述历史样本数据构建第一样本概率分布,包括:基于所述历史样本数据获取各个摄像头的违规频数和未违规频数、各个时段的违规频数和未违规频数;基于各个摄像头的违规频数和未违规频数分别建立各个摄像头的贝塔分布,其中,摄像头的贝塔分布的两个参数分别为摄像头的违规频数和未违规频数;基于各个时段的违规频数和未违规频数分别建立各个时段的贝塔分布,其中,时段的贝塔分布的两个参数分别为时段的违规频数和未违规频数。3.根据权利要求2所述的摄像头调度模型的训练方法,其特征在于,所述强化学习模型包括估值网络和现实网络,所述基于所述第一采样动作数据对强化学习模型进行训练得到摄像头调度模型,包括:将所述第一采样动作数据对应的当前状态信息输入估值网络,得到估值输出动作数据;基于所述估值输出动作数据更新所述第一样本概率分布,得到更新后的第二样本概率分布;基于所述第二样本概率分布进行采样,得到第二采样动作数据;基于所述第一采样动作数据和所述第二采样动作数据对所述估值网络和所述现实网络进行迭代训练,得到摄像头调度模型。4.根据权利要求3所述的摄像头调度模型的训练方法,其特征在于,所述基于所述第一采样动作数据和所述第二采样动作数据对所述估值网络和所述现实网络进行迭代训练,得到摄像头调度模型,包括:获取每次迭代时所述估值网络输出的估计Q值;将每次迭代时所述第二采样动作数据对应的下一状态信息输入现实网络,得到现实网络的目标Q值;基于估计Q值、奖励值以及目标Q值计算损失并对所述估值网络和所述现实网络进行迭代训练,得到摄像头调度模型。5.根据权利要求4所述的摄像头调度模型的训练方法,其特征在于,所述基于估计Q值、奖励值以及目标Q值计算损失并对所述估值网络和所述现实网络进行迭代训练,得到摄像头调度模型,之前,包括:根据所述估值输出动作数据与所述第二采样动作数据的相似度确定奖励值。6.根据权利要求2所述的摄像头调度模型的训练方法,其特征在于,所述基于所述第一样本概率分布进行采样,得到第一采样动作数据,包括:
对各个摄像头的贝塔分布进行采样,得到各个摄像头的第一违规概率参数;对各个时段的贝塔分布进行采样,得到各个时段的第二违规概率参数;根据各个摄像头的第一违规概率参数和各个时段的第二违规概率参数确定各个摄像头在各个时段的第三违规概率参数;将按从大到小排序靠前的预设数量的第三违规概率参数对应的摄像头和时段确定为待检查的摄像头时段组合,得到第一采样动作数据。7.根据权利要求3...

【专利技术属性】
技术研发人员:楚国玉
申请(专利权)人:顺丰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1