一种用于理解DQN模型的可视分析方法技术

技术编号:24939833 阅读:27 留言:0更新日期:2020-07-17 21:20
本发明专利技术公开了一种用于理解DQN模型的可视分析方法,包括如下步骤:步骤一,定义参数集合,选取DQN模型的运行环境;步骤二,训练所述DQN模型,测试训练好的所述DQN模型,保存中间数据;步骤三,设计Q值分布视图,展示不同的所述Q值数据对应的不同运行环境的情况,分析所述Q值数据的计算规律;步骤四,设计卷积层分析视图,用于呈现训练过程中感受野范围和影响所述智能体做出相应动作的重要因素;步骤五,设计时间序列视图,用于展示测试过程中的运行过程。

【技术实现步骤摘要】
一种用于理解DQN模型的可视分析方法
本专利技术涉及可视分析的信息
,尤其是涉及了一种用于理解DQN模型的可视分析方法。
技术介绍
强化学习是当今非常热门的一个研究领域。强化学习的目标是生成一个与环境自主交互的智能体,从环境中获取高维的输入数据,通过反复试验来学习最优行为。随着深度学习的兴起,深度神经网络被用于优化传统的强化学习方法,这类方法也称为深度强化学习。深度强化学习方法在动态救护车调配、智能交通灯控制、大规模车队管理等诸多实际问题中表现出了强大的性能,DeepQ-networks(DQN)是深度强化学习中一个开创性的算法。它将强化学习与卷积神经网络相结合,直接从高维的输入图像中学习得到成功的策略。该方法在不加入任何先验知识的情况下,对Atari2600环境中43个游戏的执行效果优于现有的强化学习方法。尽管DQN模型被用于解决各类问题,但由于它是一个黑盒模型,人们无法直接掌握其内部的执行原理,理解为什么它拥有如此强大的性能。理解深度神经网络是现阶段人工智能研究的热点之一。现有的数据可视分析方法能辅助人们理解深度神经网络,已被用于分析卷积神经网络、循环神经网络等,但是现有研究缺乏提供一种易于理解的方式来分析DQN模型的内部原理和决策过程。
技术实现思路
为解决现有技术的不足,使DQN模型分析易于理解,本专利技术采用如下的技术方案:一种用于理解DQN模型的可视分析方法,包括如下步骤:步骤一,定义参数集合,选取DQN模型的运行环境;所述参数集合,包括ReplayMemory、学习率、折扣因子、初始随机概率;步骤二,训练所述DQN模型,保存中间数据,所述DQN模型包括卷积层和全连接层,保存训练过程中的运行状态数据、卷积层数据以及Q值数据;步骤三,设计Q值分布视图,采用T-SNE方法,对高维的所述训练过程中的所述运行环境进行可视化,展示不同的所述Q值数据对应的不同运行环境的情况,分析所述Q值数据的计算规律,包括如下步骤:(1)在所述DQN模型训练末期,从所述ReplayMemory中读取所述训练过程中的运行状态数据M在全连接层中的特征矩阵X∈RM×N,每条特征数据Xi对应N个特征,所述i∈(1,2,…,M),将所述Xi作为高维空间中的一个点,使用所述t-SNE方法将高维空间中的所述特征矩阵映射到二维空间,得到降维后的矩阵rdata:(2)基于所述rdata和所述Q值数据来生成所述Q值分布视图,所述Q值分布视图中的一个点对应一个特定的运行状态,所述Q值分布视图中的点的位置由所述rdata决定,颜色由所述Q值数据决定。步骤四,设计卷积层分析视图,所述卷积层分析视图包括感受野图和混合图,所述感受野图用于呈现训练过程中感受野范围,所述混合图用于呈现影响所述智能体做出相应动作的重要因素;(1)生成感受野图,所述感受野是所述卷积层生成的特征在原始输入图像中所表示的范围,即不同特征在原始输入图像中像素的映射大小,所述特征的感受野可以由其中心位置和大小来描述,通过所述卷积层数据,计算所述感受野的大小,计算公式如下:所述rl+1表示第l+1层卷积层的感受野的大小,r0=1,表示第0层卷积层对应于输入的运行状态图,所述kl+1表示第l+1层卷积层的卷积核大小,所述si表示第i层卷积层的步长;计算感受野的中心位置,计算公式如下:所述startl+1表示第(l+1)层特征图左上角像素在输入的所述运行状态图中感受野的中心位置,所述start0=(0.5,0.5),表示输入的所述运行状态图中左上角像素的中心位置,所述pl+1为第l+1层卷积层的填充大小;基于所述感受野的中心位置和所述感受野大小,在输入的所述运行状态图中标记出感受野范围,生成所述感受野图,显示卷积层生成的特征受输入图像中的哪些像素点所影响;(2)生成混合图,采用导向反向传播方法处理所述运行状态图,通过所述卷积层的高层特征,生成导向反向传播图,所述导向反向传播方法将反向传播与反卷积进行结合,使用梯度值和正向传播的特征作为门阀,计算公式如下:Rl=(fl>0)·(Rl+1>0)·Rl+1所述Rl和所述Rl+1分别表示第l层和第l+1层所述卷积层的梯度值,所述fl表示第l层所述卷积层的特征;所述导向反向传播图中的非零位置识别出了高层卷积层中神经元学习到的信息,对相应的特征进行表示;将所述运行状态图和导向反向传播图混合生成混合图,更加清晰地表示智能体观察到的重要像素点,使得分析者能在环境中,找出影响智能体行为的重要像素。所述步骤二,还包括测试训练好的所述DQN模型,保存测试过程中的运行状态图、执行动作数据;还包括步骤五,设计时间序列视图,所述时间序列视图用于展示测试过程中的运行过程,清晰地呈现智能体的行为模式和策略,所述时间序列视图包括时间序列图、所述运行状态图、轨迹图和执行视频;基于测试过程中保存的所述运行状态图、所述执行动作数据,绘制时间序列图,用X轴表示时间步,Y轴表示所述智能体的动作空间;所述时间序列图中的点表示一个时间步对应的运行状态图,所述Y轴的值表示所述智能体即将执行的动作,所述圆点包括实心点和空心点,所述实心点表示开始时的状态数据,所述空心点表示正常运行时的状态数据,两点之间的连线表示两个状态之间执行的动作;当选择所述时间序列图中的一个点时,显示该点对应时间步的所述运行状态图,当选择一段时间时,首先生成对应时间段内所述执行视频,然后通过叠加在此期间的图像来合成所述轨迹图,显示智能体和操作对象的运行轨迹。所述步骤一,所述初始随机概率,随着所述运行环境的运行逐渐减小,随着智能体的训练,逐渐减小随机动作产生的概率,使智能体更好的利用现有经验进行训练。所述DQN模型包括三个卷积层和二个全连接层。所述步骤三,所述全连接层为第一个全连接层,所述t-SNE方法将高维空间中的所述特征矩阵映射到二维空间,表示为:rdata=t_sne(fc1(conv3(conv2(conv1(X)))))所述rdata表示降维后的矩阵,所述fc1表示第一个全连接层,所述conv1-3分别表示第一至第三个卷积层。所述步骤三,所述Q值分布视图,通过选定的所述Q值数据的范围,筛选出所述范围内的Q值数据对应的点。视图具有筛选功能,研究人员可以通过修改Q值范围来更新此视图,此时视图中仅显示在所选范围内的点。所述步骤三,所述Q值分布视图中的点的颜色使用渐变的颜色映射机制,根据所述Q值数据的高低,对不同的所述点上色。所述步骤三,选中所述Q值分布视图中的点时,显示所述点相应的Q值、感受野图以及混合图。所述步骤四,所述感受野大小,是计算第三层卷积层感受野的大小;所述感受野的中心位置,是在所述第三层卷积层找到激活值最大的神经元的坐标,并计算其在输入层的感受野的中心位置。所述步骤二,还包括保存测试过程中的随机动作数据;所述步骤五,所述时间序列视图还用于展示随机动作的发生,清晰地呈现智能体的随机动作的作用;上本文档来自技高网...

【技术保护点】
1.一种用于理解DQN模型的可视分析方法,其特征在于,包括如下步骤:/n步骤一,定义参数集合,选取DQN模型的运行环境;所述参数集合,包括Replay Memory、学习率、折扣因子、初始随机概率;/n步骤二,训练所述DQN模型,保存中间数据,所述DQN模型包括卷积层和全连接层,保存训练过程中的运行状态数据、卷积层数据以及Q值数据;/n步骤三,设计Q值分布视图,采用T-SNE方法,对高维的所述训练过程中的所述运行环境进行可视化,展示不同的所述Q值数据对应的不同运行环境的情况,分析所述Q值数据的计算规律,包括如下步骤:/n(1)在所述DQN模型训练末期,从所述Replay Memory中读取所述训练过程中的运行状态数据M在全连接层中的特征矩阵X∈R

【技术特征摘要】
1.一种用于理解DQN模型的可视分析方法,其特征在于,包括如下步骤:
步骤一,定义参数集合,选取DQN模型的运行环境;所述参数集合,包括ReplayMemory、学习率、折扣因子、初始随机概率;
步骤二,训练所述DQN模型,保存中间数据,所述DQN模型包括卷积层和全连接层,保存训练过程中的运行状态数据、卷积层数据以及Q值数据;
步骤三,设计Q值分布视图,采用T-SNE方法,对高维的所述训练过程中的所述运行环境进行可视化,展示不同的所述Q值数据对应的不同运行环境的情况,分析所述Q值数据的计算规律,包括如下步骤:
(1)在所述DQN模型训练末期,从所述ReplayMemory中读取所述训练过程中的运行状态数据M在全连接层中的特征矩阵X∈RM×N,每条特征数据Xi对应N个特征,所述i∈(1,2,…,M),将所述Xi作为高维空间中的一个点,使用所述t-SNE方法将高维空间中的所述特征矩阵映射到二维空间,得到降维后的矩阵rdata;
(2)基于所述rdata和所述Q值数据来生成所述Q值分布视图,所述Q值分布视图中的一个点对应一个特定的运行状态,所述Q值分布视图中的点的位置由所述rdata决定,颜色由所述Q值数据决定;
步骤四,设计卷积层分析视图,所述卷积层分析视图包括感受野图和混合图,所述感受野图用于呈现训练过程中感受野范围,所述混合图用于呈现影响所述智能体做出相应动作的重要因素;
(1)生成感受野图,所述感受野是所述卷积层生成的特征在原始输入图像中所表示的范围,即不同特征在原始输入图像中像素的映射大小,所述特征的感受野可以由其中心位置和大小来描述,通过所述卷积层数据,计算所述感受野的大小,计算公式如下:



所述rl+1表示第l+1层卷积层的感受野的大小,r0=1,表示第0层卷积层对应于输入的运行状态图,所述kl+1表示第l+1层卷积层的卷积核大小,所述si表示第i层卷积层的步长;
计算感受野的中心位置,计算公式如下:



所述startl+1表示第(l+1)层特征图左上角像素在输入的所述运行状态图中感受野的中心位置,所述start0=(0.5,0.5),表示输入的所述运行状态图中左上角像素的中心位置,所述pl+1为第l+1层卷积层的填充大小;
基于所述感受野的中心位置和所述感受野大小,在输入的所述运行状态图中标记出感受野范围,生成所述感受野图;
(2)生成混合图,采用导向反向传播方法处理所述运行状态图,通过所述卷积层的高层特征,生成导向反向传播图,所述导向反向传播方法将反向传播与反卷积进行结合,使用梯度值和正向传播的特征作为门阀,计算公式如下:
Rl=(fl>0)·(Rl+1>0)·Rl+1
所述Rl和所述Rl+1分别表示第l层和第l+1层所述卷积层的梯度值,所述fl表示第l层所述卷积层的特征;所述导向反向传播图中的非零位置识别出了高层卷积层中神经元学习到的信息,对相应的特征进行表示;将所述运行状态图和导向反向传播图混合生成混合图。


2.根据权利要求1所...

【专利技术属性】
技术研发人员:僧德文张家铭史晓颖
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1