面向人机物协同情景的多智能体群体决策方法及相关设备技术

技术编号：43531651 阅读：11 留言：0更新日期：2024-12-03 12:16

本发明专利技术公开了一种面向人机物协同情景的多智能体群体决策方法及相关设备，包括：针对第i个智能体，使用自编码器提取数据集的多模态特征；对每个智能体内部的多模态数据进行融合，得到第一融合特征；为了体现每个智能体均参与群体决策，采用加权平均法对每个第一融合特征进行加权融合，得到具备全局性的第二融合特征；通过多模态数据集合进行分布式训练，得到各个智能体的本地模型，并对每个智能体的本地模型进行迭代聚合训练，得到全局模型；采用全局模型对第二融合特征进行分析决策，得到决策输出结果。实现了同时对隐私数据保护和智能体多模态融合，以达成协作决策提供解决方案，提高了多智能体的决策精准性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种面向人机物协同情景的多智能体群体决策方法及相关设备。

技术介绍

1、多智能体系统是由相互配合的计算单元—智能体所组成的系统。智能体协同是将多个单智能体组织为一个群体并使各个智能体有效地进行协调合作，从而产生总体解决问题的能力。多智能体系统构成方式分为集中式和分布式两种。集中式系统有一个核心agent和多个与之在结构上分散的、独立的协作agent构成。核心的agent负责任务的动态分配与资源的动态调度，协调各协作agent间的竞争与合作，该类系统比较容易实现系统的管理、控制和调度；分布式系统中各agent彼此独立、完全平等、无逻辑上的主从关系，各agent按预先规定的协议，根据系统的目标、状态与自身的状态、能力、资源和知识，利用通信网络相互间通过协商与谈判，确定各自的任务，协调各自的行为活动，实现资源、知识、信息和功能的共享，协作完成共同的任务，以达到整体目标，该系统具有良好的封装性、容错性、开放性和可扩展性。

2、基于环境反馈信息自主形成应对策略，一直是智能体研究领域里的核心话题。在过去的一段时间中，计算能力不足和提升策略的限制使得这一领域一直缺乏根本性的进展。近年来，由于摩尔定律以及深度神经网络方法的应用，硬件性能和提升算法有了长足的进步。随着神经网络在增强学习任务中投入应用，业界不断发展出来一系列相对成熟的智能体训练策略。

3、现有技术中，较先进的多智能体协同问题多采用dqn(deep q network，深度q值网络)或者ddpg(deep determinist

4、在当今决策环境逐渐趋于复杂的情景下，作为群体决策参与者的人、机、物和其它协同配合的智能体往往拥有诸多敏感信息，而传统的集中式群体决策方法难以满足智能体对私密内容的保护需求。此外，对高质量决策的追求还要求整个决策系统整体与各个智能体尽可能将更多来源、格式、质量等方面可能存在差异的数据信息纳入考量，由此带来的多模态数据融合问题也给群体决策带来了挑战。

技术实现思路

1、本专利技术实施例提供一种面向人机物协同情景的多智能体群体决策方法、装置、计算机设备和存储介质，以提高多智能体群体决策的精准性。

2、为了解决上述技术问题，本申请实施例提供一种面向人机物协同情景的多智能体群体决策方法，包括：

3、针对第 i个智能体，使用自编码器提取数据集的多模态特征，其中，自编码器由一个编码器和一个解码器组成，编码器将多模态数据映射到一个低维空间，解码器将低维空间的表示重构为原始数据，数据集为智能体的数据集，在多智能体构成的决策情景中，数据集通常为由图像数据、文本数据、音频数据、视频数据、传感器数据中的一种或数种所组成的多模态数据集合；

4、对每个所述智能体内部的多模态数据进行融合，得到第一融合特征；

5、为了体现每个智能体均能参与群体决策，采用加权平均法对每个所述第一融合特征进行加权融合，得到具备全局性的第二融合特征；

6、通过所述多模态数据集合进行分布式训练，得到各个智能体的本地模型，并对每个智能体的本地模型进行迭代聚合训练，得到全局模型；

7、采用所述全局模型对所述第二融合特征进行分析决策，得到决策输出结果。

8、可选地，所述针对第i个智能体，使用自编码器提取数据集的多模态特征包括：

9、设自编码器的编码函数为，解码函数为，重构误差为，则自编码器的训练目标为：

10、；

11、其中，是智能体的多模态数据，分别代表图像数据、文本数据、音频数据、视频数据、传感器数据在内的任意多模态数据；

12、训练完成后，采用如下公式得到多模态数据的低维表示：

13、。

14、可选地，通过所述多模态数据集合进行分布式训练，得到各个智能体的本地模型，包括：

15、初始化一个全局决策模型，并将全局模型参数随机初始化设为，再将发送给所有参与决策的智能体；

16、在智能体中将接受到的作为本地模型参数，结合所述多模态数据的低维表示对本地模型进行训练，通过不断得到更新的；

17、定义一个损失函数用来衡量模型的性能：

18、；

19、其中，代表拟合损失，代表正则化项；

20、计算损失函数对参数的梯度：

21、；

22、采用梯度下降来更新本地模型参数：

23、；

24、其中，是学习率，控制着参数更新的步长；

25、通过梯度计算和参数更新的过程，直到达到预设条件，得到理想的本地模型参数。

26、可选地，所述对每个智能体的本地模型进行迭代聚合训练，得到全局模型包括：

27、接收所有智能体经过训练更新得到的模型参数，或是接收所有智能体所更新参数的增量；接收共计个智能体的返回内容后，通过加权处理可以得到新的全局参数，分别表示为：

28、或者

29、；

30、其中，是智能体的权重；

31、采用更新后的参数进行聚合迭代更新训练，在迭代达到预设条件时，得到全局模型。

32、可选地，所述预设条件为平均损失小于阈值：，或者，迭代次数，其中，为全局损失函数阈值， t为模型最大迭代次数。

33、可选地，所述对每个所述智能体内部的多模态数据进行融合，得到第一融合特征包括：

34、对各本文档来自技高网...

【技术保护点】

1.一种面向人机物协同情景的多智能体群体决策方法，其特征在于，包括：

2.如权利要求1所述的面向人机物协同情景的多智能体群体决策方法，其特征在于，所述针对第i个智能体，使用自编码器提取其对应数据集的多模态特征包括：

3.如权利要求1所述的面向人机物协同情景的多智能体群体决策方法，其特征在于，所述通过所述多模态数据集合进行分布式训练，得到各个智能体的本地模型包括：

4.如权利要求1所述的面向人机物协同情景的多智能体群体决策方法，其特征在于，所述对每个智能体的本地模型进行迭代聚合训练，得到全局模型包括：

5.如权利要求4所述的面向人机物协同情景的多智能体群体决策方法，其特征在于，所述预设条件为平均损失小于阈值：，或者，迭代次数，其中，为全局损失函数阈值，T为模型最大迭代次数。

6.如权利要求1所述的面向人机物协同情景的多智能体群体决策方法，其特征在于，所述对每个所述智能体内部的多模态数据进行融合，得到第一融合特征包括：

7.如权利要求4所述的面向人机物协同情景的多智能体群体决策方法，其特征在于，所述采用加权平均法

8.一种面向人机物协同情景的多智能体群体决策装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的面向人机物协同情景的多智能体群体决策方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的面向人机物协同情景的多智能体群体决策方法。

...

【技术特征摘要】

1.一种面向人机物协同情景的多智能体群体决策方法，其特征在于，包括：

5.如权利要求4所述的面向人机物协同情景的多智能体群体决策方法，其特征在于，所述预设条件为平均损失小于阈值：，或者，迭代次数，其中，为全局损失函数阈值，t为模型最大迭代次数。

6.如权利要求1所述的面向人机物协同情...

【专利技术属性】
技术研发人员：胡春华，袁一豪，苏影，聂伊朵，张雪荣，
申请(专利权)人：湖南工商大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人