【技术实现步骤摘要】
一种用于理解DQN模型的可视分析方法
本专利技术涉及可视分析的信息
,尤其是涉及了一种用于理解DQN模型的可视分析方法。
技术介绍
强化学习是当今非常热门的一个研究领域。强化学习的目标是生成一个与环境自主交互的智能体,从环境中获取高维的输入数据,通过反复试验来学习最优行为。随着深度学习的兴起,深度神经网络被用于优化传统的强化学习方法,这类方法也称为深度强化学习。深度强化学习方法在动态救护车调配、智能交通灯控制、大规模车队管理等诸多实际问题中表现出了强大的性能,DeepQ-networks(DQN)是深度强化学习中一个开创性的算法。它将强化学习与卷积神经网络相结合,直接从高维的输入图像中学习得到成功的策略。该方法在不加入任何先验知识的情况下,对Atari2600环境中43个游戏的执行效果优于现有的强化学习方法。尽管DQN模型被用于解决各类问题,但由于它是一个黑盒模型,人们无法直接掌握其内部的执行原理,理解为什么它拥有如此强大的性能。理解深度神经网络是现阶段人工智能研究的热点之一。现有的数据可视分析方法能辅助人们理解深度神经网络,已被用于分析卷积神经网络、循环神经网络等,但是现有研究缺乏提供一种易于理解的方式来分析DQN模型的内部原理和决策过程。
技术实现思路
为解决现有技术的不足,使DQN模型分析易于理解,本专利技术采用如下的技术方案:一种用于理解DQN模型的可视分析方法,包括如下步骤:步骤一,定义参数集合,选取DQN模型的运行环境;所述参数集合,包括ReplayMem ...
【技术保护点】
1.一种用于理解DQN模型的可视分析方法,其特征在于,包括如下步骤:/n步骤一,定义参数集合,选取DQN模型的运行环境;所述参数集合,包括Replay Memory、学习率、折扣因子、初始随机概率;/n步骤二,训练所述DQN模型,保存中间数据,所述DQN模型包括卷积层和全连接层,保存训练过程中的运行状态数据、卷积层数据以及Q值数据;/n步骤三,设计Q值分布视图,采用T-SNE方法,对高维的所述训练过程中的所述运行环境进行可视化,展示不同的所述Q值数据对应的不同运行环境的情况,分析所述Q值数据的计算规律,包括如下步骤:/n(1)在所述DQN模型训练末期,从所述Replay Memory中读取所述训练过程中的运行状态数据M在全连接层中的特征矩阵X∈R
【技术特征摘要】
1.一种用于理解DQN模型的可视分析方法,其特征在于,包括如下步骤:
步骤一,定义参数集合,选取DQN模型的运行环境;所述参数集合,包括ReplayMemory、学习率、折扣因子、初始随机概率;
步骤二,训练所述DQN模型,保存中间数据,所述DQN模型包括卷积层和全连接层,保存训练过程中的运行状态数据、卷积层数据以及Q值数据;
步骤三,设计Q值分布视图,采用T-SNE方法,对高维的所述训练过程中的所述运行环境进行可视化,展示不同的所述Q值数据对应的不同运行环境的情况,分析所述Q值数据的计算规律,包括如下步骤:
(1)在所述DQN模型训练末期,从所述ReplayMemory中读取所述训练过程中的运行状态数据M在全连接层中的特征矩阵X∈RM×N,每条特征数据Xi对应N个特征,所述i∈(1,2,…,M),将所述Xi作为高维空间中的一个点,使用所述t-SNE方法将高维空间中的所述特征矩阵映射到二维空间,得到降维后的矩阵rdata;
(2)基于所述rdata和所述Q值数据来生成所述Q值分布视图,所述Q值分布视图中的一个点对应一个特定的运行状态,所述Q值分布视图中的点的位置由所述rdata决定,颜色由所述Q值数据决定;
步骤四,设计卷积层分析视图,所述卷积层分析视图包括感受野图和混合图,所述感受野图用于呈现训练过程中感受野范围,所述混合图用于呈现影响所述智能体做出相应动作的重要因素;
(1)生成感受野图,所述感受野是所述卷积层生成的特征在原始输入图像中所表示的范围,即不同特征在原始输入图像中像素的映射大小,所述特征的感受野可以由其中心位置和大小来描述,通过所述卷积层数据,计算所述感受野的大小,计算公式如下:
所述rl+1表示第l+1层卷积层的感受野的大小,r0=1,表示第0层卷积层对应于输入的运行状态图,所述kl+1表示第l+1层卷积层的卷积核大小,所述si表示第i层卷积层的步长;
计算感受野的中心位置,计算公式如下:
所述startl+1表示第(l+1)层特征图左上角像素在输入的所述运行状态图中感受野的中心位置,所述start0=(0.5,0.5),表示输入的所述运行状态图中左上角像素的中心位置,所述pl+1为第l+1层卷积层的填充大小;
基于所述感受野的中心位置和所述感受野大小,在输入的所述运行状态图中标记出感受野范围,生成所述感受野图;
(2)生成混合图,采用导向反向传播方法处理所述运行状态图,通过所述卷积层的高层特征,生成导向反向传播图,所述导向反向传播方法将反向传播与反卷积进行结合,使用梯度值和正向传播的特征作为门阀,计算公式如下:
Rl=(fl>0)·(Rl+1>0)·Rl+1
所述Rl和所述Rl+1分别表示第l层和第l+1层所述卷积层的梯度值,所述fl表示第l层所述卷积层的特征;所述导向反向传播图中的非零位置识别出了高层卷积层中神经元学习到的信息,对相应的特征进行表示;将所述运行状态图和导向反向传播图混合生成混合图。
2.根据权利要求1所...
【专利技术属性】
技术研发人员:僧德文,张家铭,史晓颖,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。