System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及ai,具体地,涉及一种基于强化学习的多风格高可控策略学习方法及系统。
技术介绍
1、基于强化学习技术得到的ai策略在能力上具有较高的上限,但却具有模式单一、且难以在推理中进行风格控制的问题。这导致基于强化学习的ai策略的泛化性较差,不能同时具有多样性的策略,容易被发现并针对弱点,从而难以适应不同的应用场景。
2、如果需要多种ai策略,现有技术方案为先定义所需要的策略,然后设计策略所对应的奖励塑造方案,然后基于强化学习方法对不同的奖励塑造方案进行训练,得到不同的模型,然后根据具体的业务场景投放对应的模型。
3、专利文献cn115430154a公开了一种面向不同玩家的游戏ai训练方法及系统,根据对手种类m构建游戏ai的应对策略、采样策略和奖励模型。游戏ai使用采样策略与对手交互,采集各种类型对手的交互数据;步骤s3:使用交互数据计算m个对手奖励模型。使用极大极小q学习算法、游戏模型和奖励模型学习第m类对手的纳什均衡策略作为应对策略,重复学习得到所有类型对手的应对策略。该方案需要精细的设计出策略所需要的奖励塑造方案,而设计奖励塑造方案的过程比较困难,因为不恰当的奖励塑造过程可能会导致智能体学习到错误的策略或行为。而且即使所有的奖励塑造过程都设计正确且训练完毕,得到的大量模型也需要针对不同的业务场景进行精确投放。这大大增加了训练的难度、业务的复杂性和维护成本,降低了策略的可靠性。
技术实现思路
1、针对现有技术中的缺陷,本专利技术的目的是提供一种基于强
2、根据本专利技术提供的一种基于强化学习的多风格高可控策略学习方法,包括:
3、元行为获取步骤:获取智能体在环境中的元行为,对每个元行为进行奖励塑造,每个元行为包括一个对应的风格参数,所述风格参数控制完成这些元行为后的奖励尺度;
4、风格生成步骤:在智能体与环境交互的过程中,根据元行为的数目,随机生成一组风格参数,所述风格参数与状态组合送入智能体的模型进行推理得到动作,动作反馈至环境后,产生当前时刻智能体获得的奖励和下一时刻的状态;
5、强化学习步骤:对智能体与环境交互的过程中的风格参数、状态、动作以及奖励进行强化学习,得到多风格高可控策略模型。
6、优选地,所述元行为包括智能体的基础动作,智能体完成所述元行为的奖励=完成第 n个元行为的基础奖励 an×第 n个元行为的风格参数 wn。
7、优选地,所述风格参数的范围包括[-1,1];
8、当风格参数为-1时,表示执行该元行为将会获得相反的奖励,从而形成相反的倾向;
9、当风格参数为0时,表示执行该元行为没有奖励,从而表示既不鼓励也不支持执行该行为;
10、当风格参数为1时,表示最大程度的对该元行为的奖励有正向的加成。
11、优选地,在所述强化学习步骤中,风格参数通过风格编码器进行编码,得到风格特征,并与所述状态的特征进行合并,送入训练网络进行学习,生成动作概率和价值;
12、当风格参数发生变化时,状态的特征不会改变,策略的变化只由后续的训练网络参数进行拟合。
13、优选地,所述多风格高可控策略模型采用近端策略优化算法,通过限制当前策略和旧策略之间的动作概率比值来限制策略的变化程度,当前策略和旧策略之间的动作概率比值如下:
14、
15、其中 st 、ct 、at分别表示时间步 t下的状态、风格参数和动作;和分别是当前策略和旧策略在状态 st和风格参数 ct下采取动作 at的概率;限制后的比值为,其中 ε是超参数,用于控制限制的程度;
16、策略目标函数定义为:
17、
18、其中表示某一样本批次的期望, at是通过广义优势估计算法计算得到的时间步 t的优势估计;
19、价值函数目标定义为:
20、
21、其中,目标回报,为当前策略的价值函数,是旧策略的价值函数;
22、通过不断优化和,令训练网络在不同的状态 s和风格参数 c下都具有最优的策略,不同的风格参数与对应奖励由价值函数进行拟合。
23、根据本专利技术提供的一种基于强化学习的多风格高可控策略学习系统,包括:
24、元行为获取模块:获取智能体在环境中的元行为,对每个元行为进行奖励塑造,每个元行为包括一个对应的风格参数,所述风格参数控制完成这些元行为后的奖励尺度;
25、风格生成模块:在智能体与环境交互的过程中,根据元行为的数目,随机生成一组风格参数,所述风格参数与状态组合送入智能体的模型进行推理得到动作,动作反馈至环境后,产生当前时刻智能体获得的奖励和下一时刻的状态;
26、强化学习模块:对智能体与环境交互的过程中的风格参数、状态、动作以及奖励进行强化学习,得到多风格高可控策略模型。
27、优选地,所述元行为包括智能体的基础动作,智能体完成所述元行为的奖励=完成第 n个元行为的基础奖励 an×第 n个元行为的风格参数 wn。
28、优选地,所述风格参数的范围包括[-1,1];
29、当风格参数为-1时,表示执行该元行为将会获得相反的奖励,从而形成相反的倾向;
30、当风格参数为0时,表示执行该元行为没有奖励,从而表示既不鼓励也不支持执行该行为;
31、当风格参数为1时,表示最大程度的对该元行为的奖励有正向的加成。
32、优选地,在所述强化学习模块中,风格参数通过风格编码器进行编码,得到风格特征,并与所述状态的特征进行合并,送入训练网络进行学习,生成动作概率和价值;
33、当风格参数发生变化时,状态的特征不会改变,策略的变化只由后续的训练网络参数进行拟合。
34、优选地,所述多风格高可控策略模型采用近端策略优化算法,通过限制当前策略和旧策略之间的动作概率比值来限制策略的变化程度,当前策略和旧策略之间的动作概率比值如下:
35、
36、其中 st 、ct 本文档来自技高网...
【技术保护点】
1.一种基于强化学习的多风格高可控策略学习方法,其特征在于,包括:
2.根据权利要求1所述的基于强化学习的多风格高可控策略学习方法,其特征在于,所述元行为包括智能体的基础动作,智能体完成所述元行为的奖励=完成第n个元行为的基础奖励an×第n个元行为的风格参数wn。
3.根据权利要求1所述的基于强化学习的多风格高可控策略学习方法,其特征在于,所述风格参数的范围包括[-1,1];
4.根据权利要求1所述的基于强化学习的多风格高可控策略学习方法,其特征在于,在所述强化学习步骤中,风格参数通过风格编码器进行编码,得到风格特征,并与所述状态的特征进行合并,送入训练网络进行学习,生成动作概率和价值;
5.根据权利要求4所述的基于强化学习的多风格高可控策略学习方法,其特征在于,所述多风格高可控策略模型采用近端策略优化算法,通过限制当前策略和旧策略之间的动作概率比值来限制策略的变化程度,当前策略和旧策略之间的动作概率比值如下:
6.一种基于强化学习的多风格高可控策略学习系统,其特征在于,包括:
7.根据权利要求6所述的基于强
8.根据权利要求6所述的基于强化学习的多风格高可控策略学习系统,其特征在于,所述风格参数的范围包括[-1,1];
9.根据权利要求6所述的基于强化学习的多风格高可控策略学习系统,其特征在于,在所述强化学习模块中,风格参数通过风格编码器进行编码,得到风格特征,并与所述状态的特征进行合并,送入训练网络进行学习,生成动作概率和价值;
10.根据权利要求9所述的基于强化学习的多风格高可控策略学习系统,其特征在于,所述多风格高可控策略模型采用近端策略优化算法,通过限制当前策略和旧策略之间的动作概率比值来限制策略的变化程度,当前策略和旧策略之间的动作概率比值如下:
...【技术特征摘要】
1.一种基于强化学习的多风格高可控策略学习方法,其特征在于,包括:
2.根据权利要求1所述的基于强化学习的多风格高可控策略学习方法,其特征在于,所述元行为包括智能体的基础动作,智能体完成所述元行为的奖励=完成第n个元行为的基础奖励an×第n个元行为的风格参数wn。
3.根据权利要求1所述的基于强化学习的多风格高可控策略学习方法,其特征在于,所述风格参数的范围包括[-1,1];
4.根据权利要求1所述的基于强化学习的多风格高可控策略学习方法,其特征在于,在所述强化学习步骤中,风格参数通过风格编码器进行编码,得到风格特征,并与所述状态的特征进行合并,送入训练网络进行学习,生成动作概率和价值;
5.根据权利要求4所述的基于强化学习的多风格高可控策略学习方法,其特征在于,所述多风格高可控策略模型采用近端策略优化算法,通过限制当前策略和旧策略之间的动作概率比值来限制策略的变化程度,当前策略和旧策略之间的动作概率比值如下:
...【专利技术属性】
技术研发人员:秦旭伟,孙珵琭,沈硕,
申请(专利权)人:上海临竞科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。