当前位置: 首页 > 专利查询>清华大学专利>正文

用于人机交互的行为决策方法、装置、设备及存储介质制造方法及图纸

技术编号:35219102 阅读:15 留言:0更新日期:2022-10-15 10:35
本申请涉及人工智能技术领域,特别涉及一种用于人机交互的行为决策方法、装置、设备及存储介质,其中,方法包括:获取人机交互场景中至少一个目标事件;随机搜索至少一个目标事件的目标奖励函数空间,得到多个行为偏好,基于多个行为偏好生成偏置策略集合,根据预设行为指标从偏置策略集合中依次选择不同类型的偏见策略,根据不同类型的偏见策略和预设奖励策略构建策略多样化的策略池;从策略池中随机采样策略训练得到目标智能体的自适应策略,并基于自适应策略决策与目标智能体进行人机交互的行为,得到行为决策结果。由此,本申请实施例可以实现以人为中心的强交互与协同泛化性,以及大规模多智能体在开放场景中的群体行为决策泛化性。策泛化性。策泛化性。

【技术实现步骤摘要】
用于人机交互的行为决策方法、装置、设备及存储介质


[0001]本申请涉及人工智能
,特别涉及一种用于人机交互的行为决策方法、装置、设备及存储介质。

技术介绍

[0002]经过数十年的研究努力,构建可以与人类交互、合作和辅助人类的智能体仍然是一项长期的AI挑战。经典方法通常是基于模型的(model

based),它通常是基于人类数据建立一个有效的行为模型,并使用这样的人类模型进行规划。尽管这种方案取得了巨大成功,但这种基于模型的范式需要一个昂贵且耗时的数据收集过程,这对于当今AI技术面向的复杂问题很不友好,并且还可能存在隐私问题。
[0003]最近,多智能体强化学习(multi

agent reinforcement learning,MARL)已成为解决许多具有挑战性的决策问题的有前途的方法。特别是在竞争环境中,基于自我博弈(self

play,SP)的MARL算法训练的人工智能在各个领域都击败了人类专业人士。这一经验证据表明,开发强大的AI的新方向可以以类似的“无模型”(model

free)方式直接与人类合作,即通过自我博弈。
[0004]与简单地采用纳什均衡策略(Nash equilibrium strategy)就足够的零和游戏(zero

sum game)不同,通过自我博弈训练合作智能体时的一个明显问题是共识过度拟合(convention overfitting)。由于合作博弈中存在大量可能的最优策略,自我博弈训练的智能体可以很容易地收敛到一个特定的最优值,并仅根据其共同训练者的某种特定行为模式(即共识)做出决策,导致对未知的合作伙伴的泛化能力差。

技术实现思路

[0005]本申请提供一种用于人机交互的行为决策方法、装置、电子设备及存储介质,可以实现以人为中心的强交互与协同泛化性,以及大规模多智能体在开放场景中的群体行为决策泛化性。
[0006]本申请第一方面实施例提供一种用于人机交互的行为决策方法,包括以下步骤:获取人机交互场景中至少一个目标事件;随机搜索所述至少一个目标事件的目标奖励函数空间,得到多个行为偏好,基于所述多个行为偏好生成偏置策略集合,根据预设行为指标从所述偏置策略集合中依次选择不同类型的偏见策略,根据所述不同类型的偏见策略和预设奖励策略构建策略多样化的策略池;从所述策略池中随机采样策略训练得到目标智能体的自适应策略,并基于所述自适应策略决策与所述目标智能体进行人机交互的行为,得到行为决策结果。
[0007]可选地,所述随机搜索所述至少一个目标事件的目标奖励函数空间,得到多个行为偏好,基于所述多个行为偏好生成偏置策略集合,包括:对所述目标奖励函数空间的特征权重采样多个样本,并根据所述多个样本得到一组隐藏的奖励函数;对于每个隐藏奖励函数,通过自我博弈找到由其推导的隐势能马尔可夫博弈的近似纳什均衡解,并基于所述近
似纳什均衡解得到涵盖多个行为偏好的偏置策略集合。
[0008]可选地,所述根据预设行为指标从所述偏置策略集合中依次选择不同类型的偏见策略,包括:获取初始池中的初始策略;根据预设行为指标从所述偏置策略集合中选择与所述初始策略不同的偏见策略。
[0009]可选地,在随机搜索所述至少一个目标事件的目标奖励函数空间之前,包括:识别所述至少一个目标事件的事件特征;根据所述事件特征的线性函数和特征权重的界限生成所述目标奖励函数空间。
[0010]本申请第二方面实施例提供一种用于人机交互的行为决策装置,包括:获取模块,用于获取人机交互场景中至少一个目标事件;构建模块,用于随机搜索所述至少一个目标事件的目标奖励函数空间,得到多个行为偏好,基于所述多个行为偏好生成偏置策略集合,根据预设行为指标从所述偏置策略集合中依次选择不同类型的偏见策略,根据所述不同类型的偏见策略和预设奖励策略构建策略多样化的策略池;决策模块,用于从所述策略池中随机采样策略训练得到目标智能体的自适应策略,并基于所述自适应策略决策与所述目标智能体进行人机交互的行为,得到行为决策结果。
[0011]可选地,所述构建模块进一步用于:对所述目标奖励函数空间的特征权重采样多个样本,并根据所述多个样本得到一组隐藏的奖励函数;对于每个隐藏奖励函数,通过自我博弈找到由其推导的隐势能马尔可夫博弈的近似纳什均衡解,并基于所述近似纳什均衡解得到涵盖多个行为偏好的偏置策略集合。
[0012]可选地,所述构建模块进一步用于:获取初始池中的初始策略;根据预设行为指标从所述偏置策略集合中选择与所述初始策略不同的偏见策略。
[0013]可选地,所述构建模块进一步用于:在随机搜索所述至少一个目标事件的目标奖励函数空间之前,识别所述至少一个目标事件的事件特征;根据所述事件特征的线性函数和特征权重的界限生成所述目标奖励函数空间。
[0014]本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的用于人机交互的行为决策方法。
[0015]本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上述实施例所述的用于人机交互的行为决策方法。
[0016]由此,本申请至少具有如下有益效果:
[0017]下一代基于强化学习的人工智能,需要在复杂交互场景下多机多人合作交互。传统多智能体强化学习采用自博弈算法体系,即采用传统强化学习算法优化群体或各智能体的奖励函数。这样的传统框架并不满足泛化性要求,尤以需要与人进行交互的场景为甚,传统自博弈,不考虑多样性,因此往往求解出特异化策略。然而对于人来说,人会选择多样性的行为,甚至由于不同人有着不同的偏好,人的行为策略甚至会极大的偏离最高奖励策略。因此要与人类进行高效率协同与合作,则必须在自博弈求解中找到多种可能的最优策略,甚至是非最优的拟人策略。下一代多智能体强化学习算法,必须充分的考虑人的存在与可能的偏好,并从理论层面全面将人的行为偏好引入自博弈中,并根据人类的意图自适应的调整自身行为,实现以人为中心的强交互与协同泛化性,并进一步基于多样性理论,实现大规模多智能体在开放场景中的群体行为决策泛化性。
[0018]本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
[0019]本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0020]图1为根据本申请实施例提供的用于人机交互的行为决策方法的流程图;
[0021]图2为根据本申请实施例提供的自适应智能体训练流程图;
[0022]图3为根据本申请实施例提供的用于人机交互的行为决策装置的示例图;
[0023]图4为根据本申请实施例提供的电子设备的结构示意图。
具体实施方式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于人机交互的行为决策方法,其特征在于,包括以下步骤:获取人机交互场景中至少一个目标事件;随机搜索所述至少一个目标事件的目标奖励函数空间,得到多个行为偏好,基于所述多个行为偏好生成偏置策略集合,根据预设行为指标从所述偏置策略集合中依次选择不同类型的偏见策略,根据所述不同类型的偏见策略和预设奖励策略构建策略多样化的策略池;从所述策略池中随机采样策略训练得到目标智能体的自适应策略,并基于所述自适应策略决策与所述目标智能体进行人机交互的行为,得到行为决策结果。2.根据权利要求1所述的方法,其特征在于,所述随机搜索所述至少一个目标事件的目标奖励函数空间,得到多个行为偏好,基于所述多个行为偏好生成偏置策略集合,包括:对所述目标奖励函数空间的特征权重采样多个样本,并根据所述多个样本得到一组隐藏的奖励函数;对于每个隐藏奖励函数,通过自我博弈找到由其推导的隐势能马尔可夫博弈的近似纳什均衡解,并基于所述近似纳什均衡解得到涵盖多个行为偏好的偏置策略集合。3.根据权利要求1所述的方法,其特征在于,所述根据预设行为指标从所述偏置策略集合中依次选择不同类型的偏见策略,包括:获取初始池中的初始策略;根据预设行为指标从所述偏置策略集合中选择与所述初始策略不同的偏见策略。4.根据权利要求1

3任意一项所述的方法,其特征在于,在随机搜索所述至少一个目标事件的目标奖励函数空间之前,包括:识别所述至少一个目标事件的事件特征;根据所述事件特征的线性函数和特征权重的界限生成所述目标奖励函数空间。5.一种用于人机交互的行为决策装置,其特征在于,包括:获取模块,用于获取人机交互场景中至少一个目标事件;构建模块,用于随机搜索所述至少一个目标事件的目标奖励函数空间,得...

【专利技术属性】
技术研发人员:吴翼于超汪玉高嘉煊刘巍林
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1