【技术实现步骤摘要】
模型训练方法、装置、存储介质及电子设备
[0001]本申请涉及计算机
,具体涉及一种模型训练方法、装置、存储介质及电子设备。
技术介绍
[0002]近年来,深度学习(Deep Learning,DL)技术不断发展,在各个领域都取得了许多重大成果,并且应用愈加广泛。凭借深度神经网络优异的特征表示能力,解决了许多学术界、工业界的难题。强化学习(Reinforcement Learning,RL)作为解决序列决策的重要方法,赋予智能体自监督学习能力,能过自主与环境进行交互,通过获得的奖励不断修正策略。而深度神经网络的引入,使得强化学习取得了长足的进步,作为强化学习中的一个非常基础但又非常重要的概念和问题,探索和利用困境问题仍是其中最为值得深入研究的领域之一。
[0003]探索与利用困境一直是深度强化学习中的主要矛盾,很多国外学者对探索与利用困境问题进行了深入的研究,现有技术中通常采用将深度探索与深度神经网络相结合、基于信息增益的内在奖励、基于计数的探索或者基于信息增益的好奇心机制探索等方法来解决问题。但现有算法均用来和强化学习结合解决探索与利用困境问题,虽然在一些简单的环境中有较好的探索效果,但在稍复杂的环境中大多表现并不出色,探索的难度也相应增大。
技术实现思路
[0004]本申请实施例提供了一种模型训练方法、装置、存储介质及电子设备,可以避免噪声电视问题,加强模型的探索能力。所述技术方案如下:
[0005]第一方面,本申请实施例提供了一种模型训练方法,包括:
[0006]获 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取状态信息和动作信息;其中,所述状态信息与所述动作信息存在映射关系;计算所述状态信息和所述动作信息对应的状态特征和预测动作信息;其中,所述状态特征包括实际状态特征、预测状态特征和固定状态特征;通过模型基于所述实际状态特征、所述预测状态特征、所述预测动作信息和所述固定状态特征计算学习目标;其中,所述模型至少包括特征模块、前向模块、反向模块和目标模块,所述特征模块用于计算所述实际状态特征,所述前向模块用于计算所述预测状态特征,所述反向模块用于计算所述预测动作信息,所述目标模块用于计算所述固定状态特征;基于所述学习目标确定所述模型中的所述特征模块、所述前向模块和所述反向模块对应的训练参数。2.根据权利要求1所述的方法,其特征在于,所述通过模型基于所述实际状态特征、所述预测状态特征、所述预测动作信息和所述固定状态特征计算学习目标,包括:基于所述实际状态特征和所述预测状态特征通过所述前向模块计算第一损失函数;其中,所述第一损失函数为所述前向模块对应的损失函数;基于所述动作信息和所述预测动作信息通过所述反向模块计算第二损失函数;其中,所述第二损失函数为所述反向模块对应的损失函数;基于所述实际状态特征和所述固定状态特征通过所述目标模块计算第三损失函数;其中,所述第三损失函数为所述目标模块对应的损失函数;基于所述实际状态特征、所述预测状态特征和所述固定状态特征计算整体奖励;其中,所述整体奖励为所述模型对应的奖励;基于所述第一损失函数、所述第二损失函数、所述第三损失函数和所述整体奖励计算学习目标。3.根据权利要求2所述的方法,其特征在于,所述第一损失函数通过如下公式进行计算:其中,L
F
()表示前向模块对应的第一损失函数,φ(s
t+1
)表示状态信息s
t+1
对应的实际状态特征,表示状态信息s
t+1
对应的预测状态特征,s
t+1
表示第t+1步的状态信息,t为正整数,||
·
||表示L2范数。4.根据权利要求2所述的方法,其特征在于,所述第二损失函数通过如下公式进行计算:其中,L
I
()表示反向模块对应的第二损失函数,a
t
表示第t步的实际动作信息,表示第t步的预测动作信息,t为正整数,表示取最小值,θ
I
表示反向模块对应的训练参数。5.根据权利要求2所述的方法,其特征在于,所述第三损失函数通过如下公式进行计算:
其中,L
P
()表示目标模块对应的第三损失函数,φ(s
t+1
)表示状态信息s
t+1
对应的实际状态特征,ψ(s
t+1
)表示状态信息s
t+1
对应的固定状态特征,s
t+1
表示第t+1步的状态信息,t为正整数,||
·
||表示L2范数。6.根据权利要求2所述的方法,其特征在于,所述基于所述实际状态特征、所述预测状态特征和所述...
【专利技术属性】
技术研发人员:赵博,陈贺昌,孙智孝,朴海音,詹光,常毅,
申请(专利权)人:吉林大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。