一种基于强化学习和可形变Transformer的钓鱼危险行为管控方法技术

技术编号：38200292 阅读：11 留言：0更新日期：2023-07-21 16:42

一种基于强化学习和可形变Transformer的钓鱼危险行为管控方法，属于危险行为管控技术领域，解决针对体积小的细长鱼竿检测效果不准确问题；本发明专利技术通过基于强化学习的样本适应度评估模型为每个训练样本进行适应度评估，并挑选适应度高的样本送入可形变Transformer鱼竿检测模型进行训练，再通过可形变Transformer鱼竿检测模型提取细长物体的多尺度空间特征进行鱼竿检测，最后通过最大熵的强化学习算法更新基于强化学习的样本适应度评估模型，从而提升模型的检测精度；本发明专利技术的方法能有效提取鱼竿的细长结构特征，提高了模型识别细长特征的能力，能够实现高电压环境中危险行为的检测，保障高电压环境中人员安全。保障高电压环境中人员安全。保障高电压环境中人员安全。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习和可形变Transformer的钓鱼危险行为管控方法

[0001]本专利技术属于危险行为管控
，涉及一种基于强化学习和可形变Transformer的钓鱼危险行为管控方法。

技术介绍

[0002]随着电力系统的建设，高压电线在人们的日常生活中随处可见。但是，高压电给人们带来便利的同时也带来了危险。尽管在高压环境中有各种警告的标识，但是由于人们的疏忽，近几年来仍有安全事故发生。探究触电的原因，往往是发生在进入高压环境中人员的危险行为导致的，如接触高压电线或通过导体误触高压线等。因此，需要对进入高电压环境中的人员的潜在危险行为进行监控。其中，因为在高电压附近钓鱼时鱼竿接触高压线所导致的触电危险频频发生。针对触电行为进行分析，大部分钓鱼爱好者在抬杆或者甩杆的时候最容易引发触电危险。所以，为有效防止钓鱼爱好者发生触电，需要对进入高电压环境中的人员进行危险行为检测，并在检测到危险行为时及时发出警告。因此，一种能够实时检测并做出判断的危险行为管控算法具有重要意义。
[0003]随着计算机的发展，计算机视觉的应用使得这一问题得到解决，它使用各种成像系统取代视觉器官作为输入，并使用计算机取代大脑通过使用目标检测等措施来完成处理和判断。目标检测作为计算机视觉的一项基础性任务，近年来得到了广泛的研究关注。2021年12月公开的文献《基于改进Mask R
‑
CNN的输电线路防外破目标检测方法研究》(电力系统保护与控制，魏贤哲等)通过检测入侵高压架空输电线路监控区域的危险因素；但是该文献采用的算...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习和可形变Transformer的钓鱼危险行为管控方法，其特征在于，包括以下步骤：S1、获取危险行为管控数据集，通过人工标注后，按照一定的比例划分为危险行为管控训练集、危险行为管控验证集和危险行为管控测试集；S2、构建用于检测鱼竿的可形变Transformer网络鱼竿检测模型以及用于评估训练样本适应度的基于强化学习的样本适应度评估模型；S3、初始化基于强化学习的样本适应度评估模型，并将危险行为管控训练集通过基于强化学习的样本适应度评估模型进行样本适应度评估；S4、将采样后的训练样本集送入可形变Transformer网络鱼竿检测模型中进行训练，并通过危险行为管控验证集进行性能评估，从而得到训练后的可形变Transformer网络鱼竿检测模型，并将训练后的可形变Transformer网络鱼竿检测模型在危险行为管控验证集上进行性能评估；S5、通过最大熵的强化学习算法更新基于强化学习的样本适应度评估模型，更新迭代次数达到所设阈值时，保存可形变Transformer网络鱼竿检测模型参数，用于进行危险行为识别。2.根据权利要求1所述的一种基于强化学习和可形变Transformer的钓鱼危险行为管控方法，其特征在于，步骤S2中所述的可形变Transformer网络鱼竿检测模型包括：多尺度空间深度卷积模块、可形变Transformer编码器、可形变Transformer解码器、前馈网络；所述的多尺度空间深度卷积模块包括：ResNet
‑
50、SCNN网络、可控方向滤波器；所述的可形变Transformer网络鱼竿检测模型的运行机制如下：将基于强化学习的样本适应度评估模型输出的鱼竿检测模型训练的样本ResNet
‑
50中提取多尺度特征，得到多尺度特征图，将多尺度特征图通过SCNN网络进行空间深度卷积后，通过可控方向滤波器提取多方向的空间特征，得到多尺度空间特征图；通过可形变Transformer编码器进行编码，得到编码后的特征向量，再送入可形变Transformer解码器中进行解码，得到解码后的特征向量并通过两个前馈网络分别进行分类和坐标框的回归。同时，根据预测坐标框和实际坐标框计算损失更新鱼竿检测模型的参数，并通过验证集上的性能评估结果计算奖励作为基于最大熵的强化学习网络更新参数。3.根据权利要求2所述的一种基于强化学习和可形变Transformer的钓鱼危险行为管控方法，其特征在于，步骤S2中所述的基于强化学习的样本适应度评估模型包括：Actor网络、Critic网络、目标Critic网络、经验池，基于强化学习的样本适应度评估模型的运行机制如下：1)基于线型检测器提取训练样本中含有候选直线特征的特征图s；2)通过Actor网络对每一个训练样本的特征图s进行样本适应度评估，输出选择概率动作a对s所对应的训练样本进行采样，获取具有直线特征信息量的训练样本；3)通过可形变Transformer网络鱼竿检测模型对选取的训练样本进行训练，并在危险行为管控验证集上进行性能评估，得到性能评估结果与之前性能评估结果的移动平均值进行比较，得到性能评估结果变化量并作为奖励r，通过奖励r更新基于最大熵的Actor网络，直至Actor网络能够正确挑选鱼竿检测模型训练的样本，以获得最优检测结果。4.根据权利要求3所述的一种基于强化学习和可形变Transformer的钓鱼危险行为管
控方法，其特征在于，步骤S3中所述的初始化基于强化学习的样本适应度评估模型，并将危险行为管控训练集通过基于强化学习的样本适应度评估模型进行样本适应度评估的方法具体如下：1)初始化Actor网络参数φ、两个Critic网络参数θ1，θ2、两个目标Critic网络参数初始化经验...

【专利技术属性】
技术研发人员：丁立健，杨盛世，李帷韬，孙伟，李奇越，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人