上海临竞科技有限公司专利技术

上海临竞科技有限公司共有3项专利

  • 本发明提供了一种基于强化学习的多风格高可控策略学习方法及系统,获取智能体在环境中的元行为,对每个元行为进行奖励塑造,每个元行为包括一个对应的风格参数,风格参数控制完成这些元行为后的奖励尺度;在智能体与环境交互的过程中,根据元行为的数目,...
  • 本发明提供了一种基于自然语言的多风格强化学习策略控制方法及系统。首先在所需的环境中训练多风格强化学习策略,多风格强化学习策略基于元行为集合,每个元行为与对应的风格参数关联,风格参数代表执行该元行为的倾向性,每个训练时期开始时,随机采样一...
  • 本发明提供了一种基于指令的智能体多风格无极调整方法及系统,包括:令控制策略模型根据风格参数控制智能体在环境中的表现策略,所述风格参数代表控制所述智能体执行不同表现策略的倾向性;解析用户输入的自然语言指令,确定所需调整的风格参数及对应的数...
1