用于人机交互的行为决策方法、装置、设备及存储介质制造方法及图纸

技术编号：35219102 阅读：15 留言：0更新日期：2022-10-15 10:35

本申请涉及人工智能技术领域，特别涉及一种用于人机交互的行为决策方法、装置、设备及存储介质，其中，方法包括：获取人机交互场景中至少一个目标事件；随机搜索至少一个目标事件的目标奖励函数空间，得到多个行为偏好，基于多个行为偏好生成偏置策略集合，根据预设行为指标从偏置策略集合中依次选择不同类型的偏见策略，根据不同类型的偏见策略和预设奖励策略构建策略多样化的策略池；从策略池中随机采样策略训练得到目标智能体的自适应策略，并基于自适应策略决策与目标智能体进行人机交互的行为，得到行为决策结果。由此，本申请实施例可以实现以人为中心的强交互与协同泛化性，以及大规模多智能体在开放场景中的群体行为决策泛化性。策泛化性。策泛化性。

全部详细技术资料下载

【技术实现步骤摘要】
用于人机交互的行为决策方法、装置、设备及存储介质

[0001]本申请涉及人工智能
，特别涉及一种用于人机交互的行为决策方法、装置、设备及存储介质。

技术介绍

[0002]经过数十年的研究努力，构建可以与人类交互、合作和辅助人类的智能体仍然是一项长期的AI挑战。经典方法通常是基于模型的(model
‑
based)，它通常是基于人类数据建立一个有效的行为模型，并使用这样的人类模型进行规划。尽管这种方案取得了巨大成功，但这种基于模型的范式需要一个昂贵且耗时的数据收集过程，这对于当今AI技术面向的复杂问题很不友好，并且还可能存在隐私问题。
[0003]最近，多智能体强化学习(multi
‑
agent reinforcement learning，MARL)已成为解决许多具有挑战性的决策问题的有前途的方法。特别是在竞争环境中，基于自我博弈(self
‑
play，SP)的MARL算法训练的人工智能在各个领域都击败了人类专业人士。这一经验证据表明，开发强大的AI的新方向可以以类似的“无模型”(model
‑
free)方式直接与人类合作，即通过自我博弈。
[0004]与简单地采用纳什均衡策略(Nash equilibrium strategy)就足够的零和游戏(zero
‑
sum game)不同，通过自我博弈训练合作智能体时的一个明显问题是共识过度拟合(convention overfitting)。由于合作博弈中存在大量...

【技术保护点】

【技术特征摘要】
1.一种用于人机交互的行为决策方法，其特征在于，包括以下步骤：获取人机交互场景中至少一个目标事件；随机搜索所述至少一个目标事件的目标奖励函数空间，得到多个行为偏好，基于所述多个行为偏好生成偏置策略集合，根据预设行为指标从所述偏置策略集合中依次选择不同类型的偏见策略，根据所述不同类型的偏见策略和预设奖励策略构建策略多样化的策略池；从所述策略池中随机采样策略训练得到目标智能体的自适应策略，并基于所述自适应策略决策与所述目标智能体进行人机交互的行为，得到行为决策结果。2.根据权利要求1所述的方法，其特征在于，所述随机搜索所述至少一个目标事件的目标奖励函数空间，得到多个行为偏好，基于所述多个行为偏好生成偏置策略集合，包括：对所述目标奖励函数空间的特征权重采样多个样本，并根据所述多个样本得到一组隐藏的奖励函数；对于每个隐藏奖励函数，通过自我博弈找到由其推导的隐势能马尔可夫博弈的近似纳什均衡解，并基于所述近似纳什均衡解得到涵盖多个行为偏好的偏置策略集合。3.根据权利要求1所述的方法，其特征在于，所述根据预设行为指标从所述偏置策略集合中依次选择不同类型的偏见策略，包括：获取初始池中的初始策略；根据预设行为指标从所述偏置策略集合中选择与所述初始策略不同的偏见策略。4.根据权利要求1
‑
3任意一项所述的方法，其特征在于，在随机搜索所述至少一个目标事件的目标奖励函数空间之前，包括：识别所述至少一个目标事件的事件特征；根据所述事件特征的线性函数和特征权重的界限生成所述目标奖励函数空间。5.一种用于人机交互的行为决策装置，其特征在于，包括：获取模块，用于获取人机交互场景中至少一个目标事件；构建模块，用于随机搜索所述至少一个目标事件的目标奖励函数空间，得...

【专利技术属性】
技术研发人员：吴翼，于超，汪玉，高嘉煊，刘巍林，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人