System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 深度强化学习泛化性的评估方法及应用技术_技高网

深度强化学习泛化性的评估方法及应用技术

技术编号:44048049 阅读:3 留言:0更新日期:2025-01-15 01:27
本发明专利技术属于强化学习技术领域,具体涉及一种深度强化学习泛化性的评估方法及应用,包括设置强化学习算法环境,通过总的所有回合的奖励平均值和总的最终回合的奖励平均值对超参数进行优化,随后计算改进渐进校验损失,训练代理来收集奖励数据;使用奖励数据计算每个算法在每个环境下的改进渐进校验损失;采用Z测试进行显著胜负统计,进行胜负差量化计算,定义两个算法之间的胜负差并利用其评估强化学习泛化性性能,本发明专利技术采用了改进渐进校验损失计算函数,同时考虑基于奖励的状态和行动序列,可以量化且直观的确定每个算法对其他算法的显著胜负表现。

【技术实现步骤摘要】

本专利技术属于强化学习,具体涉及一种深度强化学习泛化性的评估方法及应用


技术介绍

1、通用人工智能(artificial general intelligence,agi)作为一种具备强大泛化迁移能力的人工智能,已成为时代的重要发展趋势,其应具备在各种上下文和环境中实现不同目标,解决不同问题,执行不同任务的能力。其中,强化学习是构筑agi的关键技术之一,智能体可通过与环境交互的奖励反馈优化行为策略,归纳模式和规律,从而在动态决策等众多领域超越人类操作效率。然而,由于现实环境复杂多变,在实验环境下高效运行的强化学习智能体有时不能适用于新的环境。为保障强化学习未来更广泛、高效的应用,以及其对agi技术发展的促进,强化学习方法的泛化性,即强化学习的智能体的设置不变时,在不同环境下,智能体获取奖励的表现一致的能力,是至关重要的。

2、为了提升该泛化性,如何对强化学习尤其是深度强化学习,进行合理量化评估,则是不可或缺的需求。但一般来说,由于强化学习的主要目标为让智能体累计获得更多奖励,设计思想是在某状态下和环境交互,根据反馈的奖励调整选择更优动作,因此目前的多数研究集中在如何设计算法以更高效地积累奖励,主流且成熟的强化学习评估指标多与衡量奖励直接相关,包括总奖励、平均奖励、人类标准化分数等。而关于泛化性评估等研究则相对较少。

3、随着人工智能发展的需求,在考虑强化学习的主要目标之外,也有一些研究关注了强化学习算法泛化性的提升及评估。但是现有泛化性评估指标大多无法准确具体的量化该泛化性,或者不适用于通用环境下的算法评估。因此,提供一种完善的强化学习泛化性评估框架是当前亟待解决的问题。


技术实现思路

1、为解决现有技术中的上述问题,本专利技术提出了一种新的评估深度强化学习泛化性的方法,进行了针对强化学习的改进,包括采用改进渐进校验损失计算函数来计算渐进校验损失,其中算法运行得到的奖励rt采用环境的最大奖励rmax和最小奖励rmin进行归一化,从而得到代价项ci;将损失计算函数的计算结果,输入到z检验,来挑出算法在其中具有显著差异的环境,来计算不同算法的输赢差,输赢差作为热度图的输入,则显著胜过其他算法的算法具有更好的泛化性。

2、本专利技术完整的技术方案包括:

3、一种评估深度强化学习泛化性的方法,包括如下步骤:

4、(1)针对不同强化学习算法,设置强化学习算法环境,每种算法选择t个任务,每个任务采用z个随机种子,共得到k=tz个环境;

5、(2)通过总的所有回合的奖励平均值ravg,all和总的最终回合的奖励平均值ravg,final对不同强化学习算法的超参数进行优化,通过调整超参数,使得ravg,all和ravg,final达到最大值;

6、(3)计算改进渐进校验损失,包括训练代理来收集奖励数据;使用奖励数据计算每个算法在每个环境下的改进渐进校验损失pvr;

7、

8、式中,n代表每次训练的固定时间步数,ci为代价项,si是在第i次训练的状态序列,ai是

9、在第i次训练的动作序列,代价项ci由如下反向归一化公式计算得到:

10、

11、式中,t为一次任务的总时间步数,rt(st,at)为在时间步t下由状态st采取动作at所得到的奖励值rmax是环境的最大奖励,rmin是环境的最小奖励。

12、(4)对每两个算法在同一个环境中运行的结果进行胜负计算;

13、(5)进行胜负差量化计算,并基于胜负差量化计算结果对强化学习算法的泛化性能进行评估。

14、进一步的,所述强化学习算法为深度神经网络。

15、进一步的,步骤(2)中,总的所有回合的奖励平均值ravg,all为:

16、

17、式中,n代表所有训练时间步的总数,n=nk,ri代表训练中在第i个时间步下得到的奖励。

18、进一步的,步骤(2)中,总的最终回合的奖励平均值ravg,final为:

19、

20、式中:k为每种强化学习算法的环境数量,rni为训练中在第ni个时间步下得到的奖励。

21、进一步的,所述超参数包括学习率、探索率和神经网络隐藏层的神经元数量。

22、进一步的,步骤(4)中,胜负计算为对改进渐进校验损失pr,a和pr,b按照如下公式行比较,如果满足以下公式,则为算法a显著赢得算法b,反之为输:

23、

24、式中,pr,a为算法a的改进渐进校验损失,pr,b为算法b的改进渐进校验损失。

25、进一步的,步骤(4)中,采用采用z测试进行显著胜负统计。

26、进一步的,步骤(5)中,胜负差量化计算方法为:根据每两个算法在每个环境下得到的胜负结果,统计每种算法相对其他算法的所有胜负差,即胜的次数减去负的次数,得到胜负差:dwl=w-l,其中w代表相对其他算法的胜场数,l代表相对其他算法的负场数,相对其他算法dwl较大的算法,其强化学习泛化性性能更好。

27、本专利技术针对强化学习泛化性性能评估的问题,提出了一种新的评估强化学习泛化性的方法,相对于现有技术,具有如下优点:

28、(1)提出了一种环境配置的方法,使环境的任务能够覆盖算法的奖励区间以及连续/分立动作等各种配置;在该环境配置的基础上,采用网格搜索对超参数进行优化;

29、(2)采用了改进渐进校验损失计算函数;

30、传统的pv损失函数基于上下文设置,缺少对于强化学习的至关重要的状态,通过采用改进渐进校验损失计算函数,状态可以更好的被纳入考虑,每个回合中的代价项ci都会同时考虑基于奖励的状态和行动序列,并且其值被归一化到(0,1)的区间,使得后继的z测试计算以及显著胜负计算更加方便;

31、(3)对每个算法,采用了基于改进渐进校验损失计算函数的显著胜负计算统计,即z测试。

32、(4)最终对每个算法在所有环境中,整体对其他算法的表现,进行了汇总打分,即dwl,将量化结果放入热度图中,该方法能量化且直观的确定每个算法对其他算法的显著胜负表现。

本文档来自技高网...

【技术保护点】

1.一种评估深度强化学习泛化性的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种评估深度强化学习泛化性的方法,其特征在于,所述强化学习算法包括深度神经网络。

3.根据权利要求2所述的一种评估深度强化学习泛化性的方法,其特征在于,步骤(2)中,总的所有回合的奖励平均值ravg,all为:

4.根据权利要求3所述的一种评估深度强化学习泛化性的方法,其特征在于,步骤(2)中,总的最终回合的奖励平均值ravg,final为:

5.根据权利要求4所述的一种评估深度强化学习泛化性的方法,其特征在于,所述超参数包括学习率、探索率和神经网络隐藏层的神经元数量。

6.根据权利要求5所述的一种评估深度强化学习泛化性的方法,其特征在于,步骤(4)中,胜负计算为对改进渐进校验损失pr,a和pr,b按照如下公式行比较,如果满足以下公式,则为算法a显著赢得算法b,反之为输:

7.根据权利要求6所述的一种评估深度强化学习泛化性的方法,其特征在于,步骤(4)中,采用采用Z测试进行显著胜负统计。

8.根据权利要求7所述的一种评估深度强化学习泛化性的方法,其特征在于,步骤(5)中,胜负差量化计算方法为:根据每两个算法在每个环境下得到的胜负结果,统计每种算法相对其他算法的所有胜负差,即胜的次数减去负的次数,得到胜负差:DWL=W-L,其中W代表相对其他算法的胜场数,L代表相对其他算法的负场数,相对其他算法DWL较大的算法,其强化学习泛化性性能更好。

9.一种评估深度强化学习泛化性的方法的应用,其特征在于,针对强化学习算法,采用权利要求1-7任一项所述评估深度强化学习泛化性的方法对其泛化性进行评估,并选择泛化性最好的算法应用于产业领域,所述产业包括自动驾驶、机器人、半导体、大语言模型、医疗健康、能源、电信、航空航天、网络安全、环境保护、化工、制药等。

...

【技术特征摘要】

1.一种评估深度强化学习泛化性的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种评估深度强化学习泛化性的方法,其特征在于,所述强化学习算法包括深度神经网络。

3.根据权利要求2所述的一种评估深度强化学习泛化性的方法,其特征在于,步骤(2)中,总的所有回合的奖励平均值ravg,all为:

4.根据权利要求3所述的一种评估深度强化学习泛化性的方法,其特征在于,步骤(2)中,总的最终回合的奖励平均值ravg,final为:

5.根据权利要求4所述的一种评估深度强化学习泛化性的方法,其特征在于,所述超参数包括学习率、探索率和神经网络隐藏层的神经元数量。

6.根据权利要求5所述的一种评估深度强化学习泛化性的方法,其特征在于,步骤(4)中,胜负计算为对改进渐进校验损失pr,a和pr,b按照如下公式行比较,如果满足以下公式,则为算法a显著赢得算法b,反之...

【专利技术属性】
技术研发人员:陈磊田芸箫张军
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1