当前位置: 首页 > 专利查询>吉林大学专利>正文

模型训练方法、装置、存储介质及电子设备制造方法及图纸

技术编号:30050382 阅读:19 留言:0更新日期:2021-09-15 10:52
本申请公开了一种模型训练方法、装置、存储介质及电子设备,属于计算机技术领域。所述模型训练方法包括:计算所述状态信息和所述动作信息对应的状态特征和预测动作信息,所述状态特征包括实际状态特征、预测状态特征和固定状态特征,通过模型基于所述实际状态特征、所述预测状态特征、所述预测动作信息和所述固定状态特征计算学习目标,所述模型至少包括特征模块、前向模块、反向模块和目标模块,基于所述学习目标确定所述模型中的所述特征模块、所述前向模块和所述反向模块对应的训练参数。本申请可以避免噪声电视问题,加强模型的探索能力。力。力。

【技术实现步骤摘要】
模型训练方法、装置、存储介质及电子设备


[0001]本申请涉及计算机
,具体涉及一种模型训练方法、装置、存储介质及电子设备。

技术介绍

[0002]近年来,深度学习(Deep Learning,DL)技术不断发展,在各个领域都取得了许多重大成果,并且应用愈加广泛。凭借深度神经网络优异的特征表示能力,解决了许多学术界、工业界的难题。强化学习(Reinforcement Learning,RL)作为解决序列决策的重要方法,赋予智能体自监督学习能力,能过自主与环境进行交互,通过获得的奖励不断修正策略。而深度神经网络的引入,使得强化学习取得了长足的进步,作为强化学习中的一个非常基础但又非常重要的概念和问题,探索和利用困境问题仍是其中最为值得深入研究的领域之一。
[0003]探索与利用困境一直是深度强化学习中的主要矛盾,很多国外学者对探索与利用困境问题进行了深入的研究,现有技术中通常采用将深度探索与深度神经网络相结合、基于信息增益的内在奖励、基于计数的探索或者基于信息增益的好奇心机制探索等方法来解决问题。但现有算法均用来和强化学习结合解决探索与利用困境问题,虽然在一些简单的环境中有较好的探索效果,但在稍复杂的环境中大多表现并不出色,探索的难度也相应增大。

技术实现思路

[0004]本申请实施例提供了一种模型训练方法、装置、存储介质及电子设备,可以避免噪声电视问题,加强模型的探索能力。所述技术方案如下:
[0005]第一方面,本申请实施例提供了一种模型训练方法,包括:
[0006]获取状态信息和动作信息;其中,所述状态信息与所述动作信息存在映射关系;
[0007]计算所述状态信息和所述动作信息对应的状态特征和预测动作信息;其中,所述状态特征包括实际状态特征、预测状态特征和固定状态特征;
[0008]通过模型基于所述实际状态特征、所述预测状态特征、所述预测动作信息和所述固定状态特征计算学习目标;其中,所述模型至少包括特征模块、前向模块、反向模块和目标模块,所述特征模块用于计算所述实际状态特征,所述前向模块用于计算所述预测状态特征,所述反向模块用于计算所述预测动作信息,所述目标模块用于计算所述固定状态特征;
[0009]基于所述学习目标确定所述模型中的所述特征模块、所述前向模块和所述反向模块对应的训练参数。
[0010]第二方面,本申请实施例提供了一种模型训练装置,所述装置包括:
[0011]获取模块,用于获取状态信息和动作信息;其中,所述状态信息与所述动作信息存在映射关系;
[0012]第一计算模块,用于计算所述状态信息和所述动作信息对应的状态特征和预测动作信息;其中,所述状态特征包括实际状态特征、预测状态特征和固定状态特征;
[0013]第二计算模块,用于通过模型基于所述实际状态特征、所述预测状态特征、所述预测动作信息和所述固定状态特征计算学习目标;其中,所述模型至少包括特征模块、前向模块、反向模块和目标模块,所述特征模块用于计算所述实际状态特征,所述前向模块用于计算所述预测状态特征,所述反向模块用于计算所述预测动作信息,所述目标模块用于计算所述固定状态特征;
[0014]确定模块,用于基于所述学习目标确定所述模型中的所述特征模块、所述前向模块和所述反向模块对应的训练参数。
[0015]第三方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
[0016]第四方面,本申请实施例提供了一种电子设备,包括:存储器和处理器;其中,所述存储器存储有计算机程序,所述计算机程序适用于由所述处理器加载并执行上述的方法步骤。
[0017]本申请一些实施例提供的技术方案带来的有益效果至少包括:
[0018]本申请实施例通过获取状态信息和动作信息,计算所述状态信息和所述动作信息对应的状态特征和预测动作信息,所述状态特征包括实际状态特征、预测状态特征和固定状态特征,通过模型基于所述实际状态特征、所述预测状态特征、所述预测动作信息和所述固定状态特征计算学习目标,所述模型至少包括特征模块、前向模块、反向模块和目标模块,所述特征模块用于计算所述实际状态特征,所述前向模块用于计算所述预测状态特征,所述反向模块用于计算所述预测动作信息,所述目标模块用于计算所述固定状态特征,基于所述学习目标确定所述模型中的所述特征模块、所述前向模块和所述反向模块对应的训练参数。本申请通过添加固定参数的目标模块来约束特征模块的变化,使得训练过程中计算出的奖励较小,也即学习目标较小,得到较低的好奇心,从而使得模型可以避免出现噪声电视问题,以及避免了快速陷入次优解的训练情况,加强了模型的探索能力。
附图说明
[0019]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本申请实施例提供的一种模型训练系统的网络架构示意图;
[0021]图2是本申请实施例提供的一种模型训练方法的交互示意图;
[0022]图3是本申请实施例提供的一种模型训练方法的另一交互示意图;
[0023]图4是本申请实施例提供的一种信息上传示意图;
[0024]图5是本申请实施例提供的一种环境交互示意图;
[0025]图6是本申请实施例提供的一种状态动作值关联示意图;
[0026]图7是本申请实施例提供的一种模型结构示意图;
[0027]图8是本申请实施例提供的一种模型训练装置的结构示意图;
[0028]图9是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0029]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
[0030]下面的描述设计附图时,除非另有表示,不同附图中的相同数字表示相同的或相似的要素。以下示例性实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0031]在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0032]下面结合具体的实施例对本申请进行详细说明。
[0033]图1示出了可以应用于本申请的问答推理方法的示例性系统架构100。
[0034]如图1所示,系统架构100可以包括用户本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取状态信息和动作信息;其中,所述状态信息与所述动作信息存在映射关系;计算所述状态信息和所述动作信息对应的状态特征和预测动作信息;其中,所述状态特征包括实际状态特征、预测状态特征和固定状态特征;通过模型基于所述实际状态特征、所述预测状态特征、所述预测动作信息和所述固定状态特征计算学习目标;其中,所述模型至少包括特征模块、前向模块、反向模块和目标模块,所述特征模块用于计算所述实际状态特征,所述前向模块用于计算所述预测状态特征,所述反向模块用于计算所述预测动作信息,所述目标模块用于计算所述固定状态特征;基于所述学习目标确定所述模型中的所述特征模块、所述前向模块和所述反向模块对应的训练参数。2.根据权利要求1所述的方法,其特征在于,所述通过模型基于所述实际状态特征、所述预测状态特征、所述预测动作信息和所述固定状态特征计算学习目标,包括:基于所述实际状态特征和所述预测状态特征通过所述前向模块计算第一损失函数;其中,所述第一损失函数为所述前向模块对应的损失函数;基于所述动作信息和所述预测动作信息通过所述反向模块计算第二损失函数;其中,所述第二损失函数为所述反向模块对应的损失函数;基于所述实际状态特征和所述固定状态特征通过所述目标模块计算第三损失函数;其中,所述第三损失函数为所述目标模块对应的损失函数;基于所述实际状态特征、所述预测状态特征和所述固定状态特征计算整体奖励;其中,所述整体奖励为所述模型对应的奖励;基于所述第一损失函数、所述第二损失函数、所述第三损失函数和所述整体奖励计算学习目标。3.根据权利要求2所述的方法,其特征在于,所述第一损失函数通过如下公式进行计算:其中,L
F
()表示前向模块对应的第一损失函数,φ(s
t+1
)表示状态信息s
t+1
对应的实际状态特征,表示状态信息s
t+1
对应的预测状态特征,s
t+1
表示第t+1步的状态信息,t为正整数,||
·
||表示L2范数。4.根据权利要求2所述的方法,其特征在于,所述第二损失函数通过如下公式进行计算:其中,L
I
()表示反向模块对应的第二损失函数,a
t
表示第t步的实际动作信息,表示第t步的预测动作信息,t为正整数,表示取最小值,θ
I
表示反向模块对应的训练参数。5.根据权利要求2所述的方法,其特征在于,所述第三损失函数通过如下公式进行计算:
其中,L
P
()表示目标模块对应的第三损失函数,φ(s
t+1
)表示状态信息s
t+1
对应的实际状态特征,ψ(s
t+1
)表示状态信息s
t+1
对应的固定状态特征,s
t+1
表示第t+1步的状态信息,t为正整数,||
·
||表示L2范数。6.根据权利要求2所述的方法,其特征在于,所述基于所述实际状态特征、所述预测状态特征和所述...

【专利技术属性】
技术研发人员:赵博陈贺昌孙智孝朴海音詹光常毅
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1