System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于强化学习,具体涉及一种深度强化学习泛化性的评估方法及应用。
技术介绍
1、通用人工智能(artificial general intelligence,agi)作为一种具备强大泛化迁移能力的人工智能,已成为时代的重要发展趋势,其应具备在各种上下文和环境中实现不同目标,解决不同问题,执行不同任务的能力。其中,强化学习是构筑agi的关键技术之一,智能体可通过与环境交互的奖励反馈优化行为策略,归纳模式和规律,从而在动态决策等众多领域超越人类操作效率。然而,由于现实环境复杂多变,在实验环境下高效运行的强化学习智能体有时不能适用于新的环境。为保障强化学习未来更广泛、高效的应用,以及其对agi技术发展的促进,强化学习方法的泛化性,即强化学习的智能体的设置不变时,在不同环境下,智能体获取奖励的表现一致的能力,是至关重要的。
2、为了提升该泛化性,如何对强化学习尤其是深度强化学习,进行合理量化评估,则是不可或缺的需求。但一般来说,由于强化学习的主要目标为让智能体累计获得更多奖励,设计思想是在某状态下和环境交互,根据反馈的奖励调整选择更优动作,因此目前的多数研究集中在如何设计算法以更高效地积累奖励,主流且成熟的强化学习评估指标多与衡量奖励直接相关,包括总奖励、平均奖励、人类标准化分数等。而关于泛化性评估等研究则相对较少。
3、随着人工智能发展的需求,在考虑强化学习的主要目标之外,也有一些研究关注了强化学习算法泛化性的提升及评估。但是现有泛化性评估指标大多无法准确具体的量化该泛化性,或者不适用于通用环境下的算法
技术实现思路
1、为解决现有技术中的上述问题,本专利技术提出了一种新的评估深度强化学习泛化性的方法,进行了针对强化学习的改进,包括采用改进渐进校验损失计算函数来计算渐进校验损失,其中算法运行得到的奖励rt采用环境的最大奖励rmax和最小奖励rmin进行归一化,从而得到代价项ci;将损失计算函数的计算结果,输入到z检验,来挑出算法在其中具有显著差异的环境,来计算不同算法的输赢差,输赢差作为热度图的输入,则显著胜过其他算法的算法具有更好的泛化性。
2、本专利技术完整的技术方案包括:
3、一种评估深度强化学习泛化性的方法,包括如下步骤:
4、(1)针对不同强化学习算法,设置强化学习算法环境,每种算法选择t个任务,每个任务采用z个随机种子,共得到k=tz个环境;
5、(2)通过总的所有回合的奖励平均值ravg,all和总的最终回合的奖励平均值ravg,final对不同强化学习算法的超参数进行优化,通过调整超参数,使得ravg,all和ravg,final达到最大值;
6、(3)计算改进渐进校验损失,包括训练代理来收集奖励数据;使用奖励数据计算每个算法在每个环境下的改进渐进校验损失pvr;
7、
8、式中,n代表每次训练的固定时间步数,ci为代价项,si是在第i次训练的状态序列,ai是
9、在第i次训练的动作序列,代价项ci由如下反向归一化公式计算得到:
10、
11、式中,t为一次任务的总时间步数,rt(st,at)为在时间步t下由状态st采取动作at所得到的奖励值rmax是环境的最大奖励,rmin是环境的最小奖励。
12、(4)对每两个算法在同一个环境中运行的结果进行胜负计算;
13、(5)进行胜负差量化计算,并基于胜负差量化计算结果对强化学习算法的泛化性能进行评估。
14、进一步的,所述强化学习算法为深度神经网络。
15、进一步的,步骤(2)中,总的所有回合的奖励平均值ravg,all为:
16、
17、式中,n代表所有训练时间步的总数,n=nk,ri代表训练中在第i个时间步下得到的奖励。
18、进一步的,步骤(2)中,总的最终回合的奖励平均值ravg,final为:
19、
20、式中:k为每种强化学习算法的环境数量,rni为训练中在第ni个时间步下得到的奖励。
21、进一步的,所述超参数包括学习率、探索率和神经网络隐藏层的神经元数量。
22、进一步的,步骤(4)中,胜负计算为对改进渐进校验损失pr,a和pr,b按照如下公式行比较,如果满足以下公式,则为算法a显著赢得算法b,反之为输:
23、
24、式中,pr,a为算法a的改进渐进校验损失,pr,b为算法b的改进渐进校验损失。
25、进一步的,步骤(4)中,采用采用z测试进行显著胜负统计。
26、进一步的,步骤(5)中,胜负差量化计算方法为:根据每两个算法在每个环境下得到的胜负结果,统计每种算法相对其他算法的所有胜负差,即胜的次数减去负的次数,得到胜负差:dwl=w-l,其中w代表相对其他算法的胜场数,l代表相对其他算法的负场数,相对其他算法dwl较大的算法,其强化学习泛化性性能更好。
27、本专利技术针对强化学习泛化性性能评估的问题,提出了一种新的评估强化学习泛化性的方法,相对于现有技术,具有如下优点:
28、(1)提出了一种环境配置的方法,使环境的任务能够覆盖算法的奖励区间以及连续/分立动作等各种配置;在该环境配置的基础上,采用网格搜索对超参数进行优化;
29、(2)采用了改进渐进校验损失计算函数;
30、传统的pv损失函数基于上下文设置,缺少对于强化学习的至关重要的状态,通过采用改进渐进校验损失计算函数,状态可以更好的被纳入考虑,每个回合中的代价项ci都会同时考虑基于奖励的状态和行动序列,并且其值被归一化到(0,1)的区间,使得后继的z测试计算以及显著胜负计算更加方便;
31、(3)对每个算法,采用了基于改进渐进校验损失计算函数的显著胜负计算统计,即z测试。
32、(4)最终对每个算法在所有环境中,整体对其他算法的表现,进行了汇总打分,即dwl,将量化结果放入热度图中,该方法能量化且直观的确定每个算法对其他算法的显著胜负表现。
本文档来自技高网...【技术保护点】
1.一种评估深度强化学习泛化性的方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种评估深度强化学习泛化性的方法,其特征在于,所述强化学习算法包括深度神经网络。
3.根据权利要求2所述的一种评估深度强化学习泛化性的方法,其特征在于,步骤(2)中,总的所有回合的奖励平均值ravg,all为:
4.根据权利要求3所述的一种评估深度强化学习泛化性的方法,其特征在于,步骤(2)中,总的最终回合的奖励平均值ravg,final为:
5.根据权利要求4所述的一种评估深度强化学习泛化性的方法,其特征在于,所述超参数包括学习率、探索率和神经网络隐藏层的神经元数量。
6.根据权利要求5所述的一种评估深度强化学习泛化性的方法,其特征在于,步骤(4)中,胜负计算为对改进渐进校验损失pr,a和pr,b按照如下公式行比较,如果满足以下公式,则为算法a显著赢得算法b,反之为输:
7.根据权利要求6所述的一种评估深度强化学习泛化性的方法,其特征在于,步骤(4)中,采用采用Z测试进行显著胜负统计。
8.根据权利要求7所
9.一种评估深度强化学习泛化性的方法的应用,其特征在于,针对强化学习算法,采用权利要求1-7任一项所述评估深度强化学习泛化性的方法对其泛化性进行评估,并选择泛化性最好的算法应用于产业领域,所述产业包括自动驾驶、机器人、半导体、大语言模型、医疗健康、能源、电信、航空航天、网络安全、环境保护、化工、制药等。
...【技术特征摘要】
1.一种评估深度强化学习泛化性的方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种评估深度强化学习泛化性的方法,其特征在于,所述强化学习算法包括深度神经网络。
3.根据权利要求2所述的一种评估深度强化学习泛化性的方法,其特征在于,步骤(2)中,总的所有回合的奖励平均值ravg,all为:
4.根据权利要求3所述的一种评估深度强化学习泛化性的方法,其特征在于,步骤(2)中,总的最终回合的奖励平均值ravg,final为:
5.根据权利要求4所述的一种评估深度强化学习泛化性的方法,其特征在于,所述超参数包括学习率、探索率和神经网络隐藏层的神经元数量。
6.根据权利要求5所述的一种评估深度强化学习泛化性的方法,其特征在于,步骤(4)中,胜负计算为对改进渐进校验损失pr,a和pr,b按照如下公式行比较,如果满足以下公式,则为算法a显著赢得算法b,反之...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。