当前位置: 首页 > 专利查询>苏州大学专利>正文

基于深度带权双Q学习的大范围监控方法及监控机器人技术

技术编号:16457351 阅读:54 留言:0更新日期:2017-10-25 21:26
本发明专利技术公开了一种基于深度带权双Q学习的大范围监控方法,首先,提供Q值表包括QA表和QB表的机器人,其次,不明物体进入大范围空间以触发机器人,再次,机器人感知当前状态s,判断当前状态s是否为目标状态,如是,则机器人到达下一状态并监控不明物体,如不是,机器人到下一状态,机器人根据下一状态得到奖赏值,机器人等概率的选择更新QA值或QB值,然后更新Q值,知道收敛得到一个最优监控策略。本发明专利技术不但解决监控范围有限和摄像头容量有限的问题,而且不需考虑多台摄像头同步的问题,降低了成本。本发明专利技术还公开了一种基于深度带权双Q学习的大范围监控机器人。

Wide range monitoring method and monitoring robot based on deep weight dual Q learning

The invention discloses a large range of double Q learning weighted depth monitoring method, based on the first Q value table including the robot, QA table and QB table then entered a wide range of unknown object space to trigger the robot, Robot Perception again, the current state of S, determine the current state of S is the target state, if yes, then the next state and monitor the robot to reach the object, if not, the robot to the next state, the next state of the robot according to the reward value of robot probabilistic choice to update the QA or QB values, and then update the Q value, convergence to obtain an optimal control strategy. The invention not only solves the problem of limited monitoring range and limited capacity of the camera, but also does not need to consider the problem of synchronization of multiple cameras, thereby reducing the cost. The invention also discloses a wide range monitoring robot based on deep weight dual Q learning.

【技术实现步骤摘要】
基于深度带权双Q学习的大范围监控方法及监控机器人
本专利技术涉及一种大范围监控领域,具体涉及一种基于深度带权双Q学习的大范围监控方法及监控机器人。
技术介绍
在我们平时的生活中,监控系统已经无处不在,例如:交通路口的红绿灯监控、住宅小区里的安全监控等。监控系统结合多媒体技术、计算机网络、工业控制以及人工智能等多方面的知识,可用于安全防范、信息获取和调度指挥等方面,还可为生产流程,远程教育提供多种服务。但在一些需要完成具体任务的大范围环境中,例如寻找并追踪监控不明物体,目前的监控系统还不能完全布控。原因在于:一方面由于监控摄像头的固有缺陷,例如监控范围,信息容量有限等问题;另一方面需要考虑布控的成本,大范围布控需要多摄像头、多地的同步监控,布控难,成本高。综上所述,如何对大范围的环境进行监控已经成为一项急需解决的问题。现有的监控系统存在如下缺陷:①有线模拟视频信号的传输距离有限。当传输距大于1km时,信号容易产生衰耗、畸变、群延等问题,图像质量将严重下降。②监控系统大多以录像的形式保存信息,但这种方法的容量有限,且需定期上传或替换存储介质,不能实现自动化监控。③多摄像头的监控往往成本过高,同时现有的监控摄像头还未考虑多设备同步的问题。
技术实现思路
本专利技术的专利技术目的是提供一种基于深度带权双Q学习的大范围监控方法,不但解决了因监控范围过大导致监控系统无法完全布控的难题,而且解决了摄像头容量有限的问题。同时通过深度估值网络,直接对图像信息进行特征提取,自行判断是否有不明物体出现在监视范围内,其中特征并直接与Q值表关联,省去了多台摄像头同步的问题,降低了成本。为实现上述专利技术目的,本专利技术提供以下的技术方案:一种基于深度带权双Q学习的大范围监控方法,包括如下步骤:S1、提供一大范围空间和一机器人,所述机器人在所述大范围空间中,在工作状态下,通过双Q学习方法从当前状态到达目标状态,所述机器人的Q值表包括QA表和QB表,Q值通过深度估值网络参数θ进行计算,其中,QA值的更新公式如下:δ=R(s,a)+γ[βAQA(s′,a*;θ)+(1-βA)QB(s′,a*;θ)]-QA(s,a;θ);QA←QA(s,a;θ)+α(s,a)δ;QB值的更新公式如下:δ=R(s,a)+γ[βBQB(s′,a*;θ)+(1-βB)QA(s′,a*;θ)]-QB(s,a;θ);QB←QB(s,a;θ)+α(s,a)δ;其中,βA,βB表示权重;s′表示下一状态;a*表示下一状态的最优动作;aL表示下一状态的最差动作;c为自由参数,c≥0;δ表示时间差分;R表示奖赏值;γ表示目标折扣,0≤γ≤1;s表示当前状态,a表示当前动作;α表示学习率,α在区间(0,1)内;θ表示深度估值网络参数;工作状态时,所述大范围空间中有不明物体;目标状态时,所述不明物体在所述机器人的监控范围内;S2、所述机器人设置其初始状态为当前状态s;S3、所述机器人检测并判断当前状态s是否为工作状态,如否,进入S4,如是,进入S5;S4、所述机器人待机后到达下一状态s′,进入S11;S5、所述机器人通过深度估值网络检测并判断当前状态s是否为目标状态,如否,进入S6,如是,进入S7;S6、所述机器人选择并执行当前动作a后到达下一状态s′,进入S8;S7、所述机器人选择并执行当前动作a后到达下一状态s′并监控所述不明物体,进入S8;S8、所述机器人根据下一状态s′得到奖赏值R,进入S9;S9、所述机器人等概率的选择更新QA值或QB值并进行更新,进入S10S10、所述机器人判断其Q值表是否收敛,如否,进入S11,如是,进入S12;S11、所述机器人重置下一状态s′为当前状态s,回到S3;S12、所述机器人制定最优监控策略,进入S13;S13、所述机器人重置下一状态s′为当前状态s,进入S14;S14、所述机器人检测并判断当前状态s是否为工作状态,如否,进入S15,如是,进入S16;S15、所述机器人待机后到达下一状态s′,返回S13;S16、所述机器人检测并判断当前状态s是否为目标状态,如否,进入S17,如是,进入S18;S17、所述机器人根据所述最优监控策略到达下一状态s′,回到S13;S18、所述机器人选择并执行当前动作a后到达下一状态s′并监控所述不明物体,回到S13。其中,在同一大范围空间中,所述机器人仅初次选择并执行当前动作a前初始化其Q值、学习率α、目标折扣γ、深度估值网络的结构和参数θ、动作选择方式以及权重β。深度带权双Q方法利用深度估值网络,输入视频图像等状态信息和环境给予的反馈信号(如奖赏等),先通过可提取空间结构信息的卷积层神经网络来抽取图像中重要目标的特征信息,再通过全连接层的非线性变换来做分类或回归,最终在输出层产生每个动作的Q值。该网络通过网络参数θ,将奖赏值和误差项缩小至有限范围内,保证了Q值处于合理的范围内,并提高了该方法的稳定性。该网络对传统的Q学习算法进行了多处改进,其中包括:(1)在训练过程中利用经验回放机制,将得到的状态转移样本存放至记忆单元中,训练时从样本池中随机选择一小批样本对网络参数θ进行更新,增加了可利用的样本量,降低了样本间的关联性,提高了算法的稳定性。(2)除了使用深度网络表示当前Q值外,还另外使用一个网络来产生目标Q值,使用当前Q值和目标Q值的线性组合来选择动作,并通过最小化当前Q值和目标Q值之间的均方误差来更新网络参数θ。引入该网络后,在一段时间内目标Q值保持不变,可以减少值波动对训练过程的影响,提升算法的稳定性。上述技术方案中,所述大范围空间划分为若干子空间,所述机器人选择并执行当前动作a后,静止于当前子空间或移动至与当前子空间相邻的子空间,每个所述子空间不大于所述机器人的监控范围。上述技术方案中,所述机器人检测当前状态s时,通过其传感器获知所述不明物体的大概位置loci和所述机器人的精确位置loca,记作s=<loci,loca>。上述技术方案中,所述机器人通过其摄像头获取图像信息,通过深度估值网络进行特征提取和分类,自行判断是否有不明物体在监控范围内,若有则通过其报警器进行报警。上述技术方案中,所述机器人通过方式选择当前动作a。上述技术方案中,所述机器人选择当前动作a时,有较大概率选择最大Q值所代表的动作,较小概率选择其他任意动作。上述技术方案中,所述奖赏值R的设置如下:其中,loca为机器人的精确位置,loci为不明物体的大概位置,即当不明物体在机器人的监控范围内时给予正奖赏,而机器人未观测到不明物体时给予负奖赏。上述技术方案中,所述机器人不断更新其学习率α,其中,所述机器人执行当前动作a时不明物体也在移动构成双移状态,n为双移状态下执行a动作的次数。本专利技术还提供另外一个技术方案:一种基于深度带权双Q学习的大范围监控机器人,所述机器人的Q值表包括QA表和QB表,Q值通过深度估值网络参数θ进行计算,其中,QA值的更新公式如下:δ=R(s,a)+γ[βAQA(s′,a*;θ)+(1-βA)QB(s′,a*;θ)]-QA(s,a;θ);QA←QA(s,a;θ)+α(s,a)δ;QB值的更新公式如下:δ=R(s,a)+γ[βBQB(s′,a*;θ)+(1-βB)QA(s′,a*;θ)]-QB(s,a;θ)本文档来自技高网...
基于深度带权双Q学习的大范围监控方法及监控机器人

【技术保护点】
一种基于深度带权双Q学习的大范围监控方法,其特征在于,包括如下步骤:S1、提供一大范围空间和一机器人,所述机器人在所述大范围空间中,在工作状态下通过双Q学习方法从当前状态到达目标状态,所述机器人的Q值表包括QA表和QB表,Q值通过深度估值网络参数θ进行计算,其中,QA值的更新公式如下:

【技术特征摘要】
1.一种基于深度带权双Q学习的大范围监控方法,其特征在于,包括如下步骤:S1、提供一大范围空间和一机器人,所述机器人在所述大范围空间中,在工作状态下通过双Q学习方法从当前状态到达目标状态,所述机器人的Q值表包括QA表和QB表,Q值通过深度估值网络参数θ进行计算,其中,QA值的更新公式如下:δ=R(s,a)+γ[βAQA(s′,a*;θ)+(1-βA)QB(s′,a*;θ)]-QA(s,a;θ);QA←QA(s,a;θ)+α(s,a)δ;QB值的更新公式如下:δ=R(s,a)+γ[βBQB(s′,a*;θ)+(1-βB)QA(s′,a*;θ)]-QB(s,a;θ);QB←QB(s,a;θ)+α(s,a)δ;其中,βA,βB表示权重;s′表示下一状态;a*表示下一状态的最优动作;aL表示下一状态的最差动作;c为自由参数,c≥0;δ表示时间差分;R表示奖赏值;γ表示目标折扣,0≤γ≤1;s表示当前状态,a表示当前动作;α表示学习率,α在区间(0,1)内,θ表示深度估值网络参数;工作状态时,所述大范围空间中有不明物体;目标状态时,所述不明物体在所述机器人的监控范围内;S2、所述机器人设置其初始状态为当前状态s;S3、所述机器人检测并判断当前状态s是否为工作状态,如否,进入S4,如是,进入S5;S4、所述机器人待机后到达下一状态s′,进入S11;S5、所述机器人检测并判断当前状态s是否为目标状态,如否,进入S6,如是,进入S7;S6、所述机器人选择并执行当前动作a后到达下一状态s′,进入S8;S7、所述机器人选择并执行当前动作a后到达下一状态s′并监控所述不明物体,进入S8;S8、所述机器人根据下一状态s′得到奖赏值R,进入S9;S9、所述机器人等概率的选择更新QA值或QB值并进行更新,进入S10S10、所述机器人判断其Q值表是否收敛,如否,进入S11,如是,进入S12;S11、所述机器人重置下一状态s′为当前状态s,回到S3;S12、所述机器人制定最优监控策略,进入S13;S13、所述机器人重置下一状态s′为当前状态s,进入S14;S14、所述机器人检测并判断当前状态s是否为工作状态,如否,进入S15,如是,进入S16;S15、所述机器人待机后到达下一状态s′,返回S13;S16、所述机器人通过深度估值网络检测并判断当前状态s是否为目标状态,如否,进入S17,如是,进入S18;S17、所述机器人根据所述最优监控策略到达下一状态s′,回到S13;S18、所述机器人选择并执行当前动作a后到达下一状态s′并监控所述不明物体,回到S13。其中,在同一大范围空间中,所述机器人仅初次选择并执行当前动作a前初始化其Q值、学习率α、目标折扣γ、深度估值网络的结构和参数θ、动作选择方式以及权重β。2.根据权利要求1所述的基于深度带权双Q学习的大范围监控方法,其特征在于,所述大范围空间划分为若干子空间,所述机器人...

【专利技术属性】
技术研发人员:章宗长潘致远王辉
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1