一种多智能体系统协同策略的反演辨识方法技术方案

技术编号:24453539 阅读:18 留言:0更新日期:2020-06-10 14:54
本发明专利技术公开了一种多智能体系统协同策略的反演辨识方法,通过采用线形二次型最优控制方法,基于智能体的动力学特性构建了多智能体系统协同策略反演辨识模型,能够基于有限时域内的离散状态观测值计算得到协同策略,同时,本发明专利技术建立的反演辨识模型能够同时估计得到智能体的真实运动状态,因此实现了在噪声干扰下的精确协同策略反演。

An inverse identification method for cooperative strategy of multi-agent system

【技术实现步骤摘要】
一种多智能体系统协同策略的反演辨识方法
本专利技术属于系统辨识和参数
,具体涉及一种多智能体系统协同策略的反演辨识方法。
技术介绍
反演问题是指由结果及某些一般原理(或模型)出发去确定表征问题特征的参数(或模型参数)。在工程应用中,反演问题广泛出现在地球物理、生物、医疗及建筑等领域。反演是指能够模仿人类智能的计算机程序系统的人工智能系统,它具有学习和推理的功能。例如专家系统、人工神经网络系统等。在反问题求解过程中应用人工智能的方法技术,引导局部或全局最优,这种反演方法称为人工智能反演,现阶段又分为线性反演、迭代反演、最优化反演等。其中,最优化反演建模算法不但具有较强的理论研究意义,而且在军事上有着重要应用价值。例如,对敌方多无人车/机的协同模式进行反演辨识,能够探悉敌方作战策略的缺陷/弱点,从而提高己方的胜算概率。关于反演建模问题的研究,最早期的工作可以追溯到20世纪20年代在研究线性偏微分方程的Cauchy问题时对反演问题不适定性的陈述和研究。20世纪40年代前苏联开始了反问题的理论研究,在60年代推出了至今仍然广泛沿用的Tikhonov变分正则化方法,于70年代出版了关于病态反演理论的论著,并将不适定反演问题的正则化放在抽象的泛函空间进行完整描述。关于反演理论和方法研究的另一个方向是迭代正则化方法,也就是通过迭代求解正则优化问题来获得反演问题的近似解。广义逆方法、梯度型方法和Newton型方法是目前求解反演问题的常用方法。上述这些传统反演建模算法多是在对最佳轨迹的完整观察条件下进行的,难以实现在有限数据条件下对最优系统目标函数参数进行准确推断和估计。最优化反演建模在控制领域也称为最优控制反演或逆强化学习,最早由RudolfEmilKalman于1964年提出,并广泛的应用于机器人、经济学、仿生学领域。BrianDOAnderson、AntonyJameson、TakaoFuji等人研究了在连续无限时间域条件下LQR(LinearQuadraticRegulator)反最优控制问题,但他们都是在假设最优反馈增益已知的条件下进行针对目标函数的反演建模。在实际应用中,由于受到电磁干扰、虚假信息攻击、信息屏蔽以及障碍物影响,所观测到的数据通常是有噪声的,只有离散有限时序内观测数据可利用且反馈增益也无法提前获知。MCodyPriess等人于2015年发表《SolutionstotheinverseLQRproblemwithapplicationtobiologicalsystemsanalysis》一文中,针对离散无限时域噪声下的观测数据,研究了反馈增益是时变的LQR反最优化控制问题。但在实际应用中,反演建模任务必须在有限时序内完成,这种方法不能实现,并且这个算法是先辨识最优反馈增益矩阵再计算相应目标函数参数矩阵,涉及大量的参数计算,普通计算平台难以实现,难以进行实际运用。上述最优化反演建模方法要应用于多智能体系统协同策略的辨识还存在两个方面的难点:一方面在于结合多智能体协同系统的特征,恰当地描述问题,建立简明实用的多智能体协同策略最优化反演模型;另一方面在于,对离散有限时间域的情形,上述方法难以在噪声影响下对多智能体系统协同策略进行准确可靠的反演辨识。
技术实现思路
有鉴于此,本专利技术提供了一种多智能体系统协同策略的反演辨识方法,实现了在噪声影响下对多智能体系统的协同策略的可靠反演辨识。本专利技术提供的一种多智能体系统协同策略的反演辨识方法,采用反演辨识得到的协同策略实现对多智能体系统的控制,其特征在于,包括以下步骤:步骤1、根据获取的智能体动力学特性得到智能体的系统矩阵A和输入矩阵B,根据所述系统矩阵A和输入矩阵B采用线性二次调节器构建多智能体系统协同策略反演辨识模型,所述反演辨识模型如公式(1)所示:其中,Q为多智能体之间的协同策略矩阵,Q为正半定矩阵;t为第t个观测时间点,N为观测时间点的最大值,xt为智能体在第t个观测时间点的真实状态向量,yt为智能体在第t个观测时间点的观测状态向量,λt为智能体在第t个观测时间点的最优对偶状态序列向量;步骤2、根据获取的智能体的观测状态向量yt,求解所述反演辨识模型,得到所述协同策略矩阵Q,即多智能体系统的协同策略。进一步地,所述步骤2中求解所述反演辨识模型采用逐步二次规划法实现。有益效果:本专利技术通过采用线形二次型最优控制方法,基于智能体的动力学特性构建了多智能体系统协同策略反演辨识模型,能够基于有限时域内的离散状态观测值计算得到协同策略,同时,本专利技术建立的反演辨识模型能够同时估计得到智能体的真实运动状态,因此实现了在噪声干扰下的精确协同策略反演。附图说明图1为本专利技术提供的一种多智能体系统协同策略的反演辨识方法的应用场景示意图。图2为本专利技术提供的一种多智能体系统协同策略的反演辨识方法的求解过程流程图。图3为本专利技术提供的一种多智能体系统协同策略的反演辨识方法的100次随机仿真所获得矩阵Q的相对误差分布图。图4为本专利技术提供的一种多智能体系统协同策略的反演辨识方法的100次随机仿真所获得矩阵Q的相对误差直方图。具体实施方式下面结合附图并举实施例,对本专利技术进行详细描述。多智能体系统执行协同任务即由多个智能体组成的系统共同执行任务的过程,其应用场景之一是多无人机系统执行协同任务的情况,如图1所示,多无人机系统需要根据协同策略执行协同任务。单个智能体为离散线性定常控制系统,符合离散线性定常控制系统状态空间描述的状态方程,具有如下一般形式:x′(t+1)=A′x′(t)+B′u′(t)t=0,1,2,…其中,x′(t)为智能体在t时刻的状态变量组;u′(t)为智能体在t时刻的输入变量组;A′为系统矩阵,描述了不考虑输入的情况下t时刻的状态与t+1时刻的状态的关系;B′为输入矩阵,描述了t时刻的输入如何对t+1时刻状态产生影响。上述状态方程的系统矩阵和输入矩阵共同反映了系统的动力学特性,是一个离散线性定常控制系统的固有属性。多智能体系统是由多个彼此独立的智能体组成的系统,也是一个离散线性定常控制系统。根据单个智能体的状态方程可推导出由多个智能体组成的多智能体系统的状态方程,记智能体的状态分别为x′1(t),x′2(t),…,x′n(t),输入为u′1(t),u′2(t),…,u′n(t),系统矩阵为A′1,A′2,…,A′n,状态矩阵为B′1,B′2,…,B′n,各单智能体组成的整体组成多智能体系统,其状态空间描述的状态方程如下:其中,xt为多智能体系统在t时刻的状态向量,ut为多智能体系统在t时刻的输入向量,A为多智能体系统的系统矩阵,为多智能体系统的输入矩阵,n为多智能体系统中智能体的编号。在多智能体系统执行协同任务的过程中,要实现对多智能体的最优控制,通常情况下,将求解最优控制问题转换为求解线性二次调节器(LQR)的优化问题,即通过求解线性二次调节器(LQR)的优化问题来获得多无人本文档来自技高网
...

【技术保护点】
1.一种多智能体系统协同策略的反演辨识方法,采用反演辨识得到的协同策略实现对多智能体系统的控制,其特征在于,包括以下步骤:/n步骤1、根据获取的智能体动力学特性得到智能体的系统矩阵A和输入矩阵B,根据所述系统矩阵A和输入矩阵B采用线性二次调节器构建多智能体系统协同策略反演辨识模型,所述反演辨识模型如公式(1)所示:/n

【技术特征摘要】
1.一种多智能体系统协同策略的反演辨识方法,采用反演辨识得到的协同策略实现对多智能体系统的控制,其特征在于,包括以下步骤:
步骤1、根据获取的智能体动力学特性得到智能体的系统矩阵A和输入矩阵B,根据所述系统矩阵A和输入矩阵B采用线性二次调节器构建多智能体系统协同策略反演辨识模型,所述反演辨识模型如公式(1)所示:



其中,Q为多智能体之间的协同策略矩阵,Q为正半定矩阵;t为第t个观测时...

【专利技术属性】
技术研发人员:俞成浦李尧张振华王萍邓方陈杰
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1