The invention discloses a large range of double Q learning weighted depth monitoring method, based on the first Q value table including the robot, QA table and QB table then entered a wide range of unknown object space to trigger the robot, Robot Perception again, the current state of S, determine the current state of S is the target state, if yes, then the next state and monitor the robot to reach the object, if not, the robot to the next state, the next state of the robot according to the reward value of robot probabilistic choice to update the QA or QB values, and then update the Q value, convergence to obtain an optimal control strategy. The invention not only solves the problem of limited monitoring range and limited capacity of the camera, but also does not need to consider the problem of synchronization of multiple cameras, thereby reducing the cost. The invention also discloses a wide range monitoring robot based on deep weight dual Q learning.
【技术实现步骤摘要】
基于深度带权双Q学习的大范围监控方法及监控机器人
本专利技术涉及一种大范围监控领域,具体涉及一种基于深度带权双Q学习的大范围监控方法及监控机器人。
技术介绍
在我们平时的生活中,监控系统已经无处不在,例如:交通路口的红绿灯监控、住宅小区里的安全监控等。监控系统结合多媒体技术、计算机网络、工业控制以及人工智能等多方面的知识,可用于安全防范、信息获取和调度指挥等方面,还可为生产流程,远程教育提供多种服务。但在一些需要完成具体任务的大范围环境中,例如寻找并追踪监控不明物体,目前的监控系统还不能完全布控。原因在于:一方面由于监控摄像头的固有缺陷,例如监控范围,信息容量有限等问题;另一方面需要考虑布控的成本,大范围布控需要多摄像头、多地的同步监控,布控难,成本高。综上所述,如何对大范围的环境进行监控已经成为一项急需解决的问题。现有的监控系统存在如下缺陷:①有线模拟视频信号的传输距离有限。当传输距大于1km时,信号容易产生衰耗、畸变、群延等问题,图像质量将严重下降。②监控系统大多以录像的形式保存信息,但这种方法的容量有限,且需定期上传或替换存储介质,不能实现自动化监控。③多摄像头的监控往往成本过高,同时现有的监控摄像头还未考虑多设备同步的问题。
技术实现思路
本专利技术的专利技术目的是提供一种基于深度带权双Q学习的大范围监控方法,不但解决了因监控范围过大导致监控系统无法完全布控的难题,而且解决了摄像头容量有限的问题。同时通过深度估值网络,直接对图像信息进行特征提取,自行判断是否有不明物体出现在监视范围内,其中特征并直接与Q值表关联,省去了多台摄像头同步的问题,降低了成本。 ...
【技术保护点】
一种基于深度带权双Q学习的大范围监控方法,其特征在于,包括如下步骤:S1、提供一大范围空间和一机器人,所述机器人在所述大范围空间中,在工作状态下通过双Q学习方法从当前状态到达目标状态,所述机器人的Q值表包括QA表和QB表,Q值通过深度估值网络参数θ进行计算,其中,QA值的更新公式如下:
【技术特征摘要】
1.一种基于深度带权双Q学习的大范围监控方法,其特征在于,包括如下步骤:S1、提供一大范围空间和一机器人,所述机器人在所述大范围空间中,在工作状态下通过双Q学习方法从当前状态到达目标状态,所述机器人的Q值表包括QA表和QB表,Q值通过深度估值网络参数θ进行计算,其中,QA值的更新公式如下:δ=R(s,a)+γ[βAQA(s′,a*;θ)+(1-βA)QB(s′,a*;θ)]-QA(s,a;θ);QA←QA(s,a;θ)+α(s,a)δ;QB值的更新公式如下:δ=R(s,a)+γ[βBQB(s′,a*;θ)+(1-βB)QA(s′,a*;θ)]-QB(s,a;θ);QB←QB(s,a;θ)+α(s,a)δ;其中,βA,βB表示权重;s′表示下一状态;a*表示下一状态的最优动作;aL表示下一状态的最差动作;c为自由参数,c≥0;δ表示时间差分;R表示奖赏值;γ表示目标折扣,0≤γ≤1;s表示当前状态,a表示当前动作;α表示学习率,α在区间(0,1)内,θ表示深度估值网络参数;工作状态时,所述大范围空间中有不明物体;目标状态时,所述不明物体在所述机器人的监控范围内;S2、所述机器人设置其初始状态为当前状态s;S3、所述机器人检测并判断当前状态s是否为工作状态,如否,进入S4,如是,进入S5;S4、所述机器人待机后到达下一状态s′,进入S11;S5、所述机器人检测并判断当前状态s是否为目标状态,如否,进入S6,如是,进入S7;S6、所述机器人选择并执行当前动作a后到达下一状态s′,进入S8;S7、所述机器人选择并执行当前动作a后到达下一状态s′并监控所述不明物体,进入S8;S8、所述机器人根据下一状态s′得到奖赏值R,进入S9;S9、所述机器人等概率的选择更新QA值或QB值并进行更新,进入S10S10、所述机器人判断其Q值表是否收敛,如否,进入S11,如是,进入S12;S11、所述机器人重置下一状态s′为当前状态s,回到S3;S12、所述机器人制定最优监控策略,进入S13;S13、所述机器人重置下一状态s′为当前状态s,进入S14;S14、所述机器人检测并判断当前状态s是否为工作状态,如否,进入S15,如是,进入S16;S15、所述机器人待机后到达下一状态s′,返回S13;S16、所述机器人通过深度估值网络检测并判断当前状态s是否为目标状态,如否,进入S17,如是,进入S18;S17、所述机器人根据所述最优监控策略到达下一状态s′,回到S13;S18、所述机器人选择并执行当前动作a后到达下一状态s′并监控所述不明物体,回到S13。其中,在同一大范围空间中,所述机器人仅初次选择并执行当前动作a前初始化其Q值、学习率α、目标折扣γ、深度估值网络的结构和参数θ、动作选择方式以及权重β。2.根据权利要求1所述的基于深度带权双Q学习的大范围监控方法,其特征在于,所述大范围空间划分为若干子空间,所述机器人...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。