多智能主体协同搬运物件的方法、系统和存储介质技术方案

技术编号:26596013 阅读:18 留言:0更新日期:2020-12-04 21:17
本申请涉及群体智能领域,提供了一种多智能主体协同搬运货物的方法、系统和存储介质。所述方法包括:从执行搬运物件这一任务的多智能主体中确定一目标智能主体;根据成本函数,从决策集中为目标智能主体调用相应的至少一策略以控制目标智能主体执行期望行为;按照目标智能主体周围的邻居分布各向异同性以及多智能主体中各个智能主体之间释放的信息素,构建多智能主体协同作业的拓扑结构;在多智能主体协同作业的拓扑结构下,更新目标智能主体的协同作业伙伴;更新目标智能主体的移动速度与位置,直至多智能主体完成搬运物件这一任务。本申请的技术方案使得智能主体能够学习到复杂的合作策略,以有效地解决针对复杂型任务的协同作业。

【技术实现步骤摘要】
多智能主体协同搬运物件的方法、系统和存储介质
本申请涉及群体智能领域,特别涉及一种多智能主体协同搬运物件的方法、系统和计算机可读存储介质。
技术介绍
在群体智能领域中,智能主体(例如传感器、机器人、飞行器等)的个体能力有限,但其群体却能表现出高效的协同合作能力和高级的智能协调水平。随着计算机网络、通信通讯、分布计算等技术的不断发展,许多实际应用系统往往变得非常的庞大和复杂,如何使智能主体的团队合作达到最大化效果,有关智能群体协同理论的研究一直以来为群体智能的重要课题和关键。例如,在无人场景下(例如,无人超市、智能仓储),往往需要多智能主体协同才能搬运一件超过单个智能主体能力的物件。然而,群体智能系统通常高度复杂,群体行为极其多样,现有的多智能主体协同搬运物件的方法存在一定的局限性,仅仅依靠局部控制策略并不能满足大规模群体智能系统的有效控制。
技术实现思路
本申请实施例提供了一种多智能主体协同搬运物件的方法、系统和计算机可读存储介质,以解决现有的多智能主体协同搬运物件的方法存在一定的局限性。该技术方案如下:一方面,提供了一种多智能主体协同搬运物件的方法,该方法包括:从执行搬运物件这一任务的多智能主体中确定一目标智能主体;根据成本函数,从决策集中为所述目标智能主体调用相应的至少一策略以控制所述目标智能主体执行期望行为,所述成本函数与所述目标智能主体的激励成本函数以及所述多智能主体中除所述目标智能主体之外的其他智能主体相对所述目标智能主体的交互成本函数相关;按照所述目标智能主体周围的邻居分布各向异同性以及多智能主体中各个智能主体之间释放的信息素,构建多智能主体协同作业的拓扑结构;在所述多智能主体协同作业的拓扑结构下,更新所述目标智能主体的协同作业伙伴;更新所述目标智能主体的移动速度与位置,返回所述构建多智能主体协同作业的拓扑结构的步骤,直至所述多智能主体完成搬运物件这一任务。一方面,提供了一种多智能主体协同搬运物件的系统,该系统包括:确定模块,用于从执行搬运物件这一任务的多智能主体中确定一目标智能主体;策略调用模块,用于根据成本函数,从决策集中为所述目标智能主体调用相应的至少一策略以控制所述目标智能主体执行期望行为,所述成本函数与所述目标智能主体的激励成本函数以及所述多智能主体中除所述目标智能主体之外的其他智能主体相对所述目标智能主体的交互成本函数相关;构建模块,用于按照所述目标智能主体周围的邻居分布各向异同性以及多智能主体中各个智能主体之间释放的信息素,构建多智能主体协同作业的拓扑结构;第一更新模块,用于在所述多智能主体协同作业的拓扑结构下,更新所述目标智能主体的协同作业伙伴;第二更新模块,用于更新所述目标智能主体的移动速度与位置,返回所述构建多智能主体协同作业的拓扑结构的步骤,直至所述多智能主体完成搬运物件这一任务。一方面,提供了一种多智能主体协同搬运物件的系统,该系统包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,该计算机程序代码由该一个或多个处理器加载并执行以实现该多智能主体协同搬运物件的方法所执行的操作。一方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序由处理器加载并执行以实现该多智能主体协同搬运物件的方法所执行的操作。从上述本申请提供的技术方案可知,根据成本函数,为目标智能主体从决策集中调用相应的至少一策略以控制目标智能主体执行期望行为,并且,在多智能主体协同作业的拓扑结构下,更新目标智能主体的协同作业伙伴以及目标智能主体的移动速度与位置,然后,返回构建多智能主体协同作业的拓扑结构的步骤,直至多智能主体完成搬运物件这一任务,由于前述通过设置交互成本函数作为一种内在激励成本函数,使得每个智能主体对有影响力的状态和行为点进行更频繁的探索,通过激励智能主体之间的交互,促使多个智能主体之间产生合作,进而使得智能主体能够学习到复杂的合作策略,以有效地解决针对复杂型任务的协同作业和完成。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的多智能主体协同搬运物件的方法的流程图;图2是本申请实施例提供的多智能主体协同搬运物件的系统的结构示意图;图3是本申请另一实施例提供的多智能主体协同搬运物件的系统的功能结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。参见图1,是本申请实施例提供的一种多智能主体协同搬运物件的方法,该方法主要包括以下步骤S101至S105,详细说明如下:步骤S101:从执行搬运物件这一任务的多智能主体中确定一目标智能主体。在本申请实施例中,多智能主体包含多个智能主体,例如,多个自动引导车辆(AutomatedGuidedVehicle,AGV),各个智能主体为执行目标任务而分别执行各自的子任务,例如,无人超市、智能仓储等无人场景下搬运物件。需要的是,目标智能主体并不意味着与多智能主体中其他智能主体有所区别,而是用于指示多智能主体协同搬运物件的方法在此次动作的执行主体,换言之,多智能主体中任一智能主体均能够作为目标智能主体。在本申请实施例中,搬运物件这一任务,由于物件比较大,超出了单个智能主体的能力,因此,搬运物件这一任务是合作类任务,即需要目标智能主体与多智能主体中其他智能主体协同作业才可坑完成的任务。例如,,需要目标智能主体与多智能主体中其他智能主体通过各自“向前移动”、“向后移动”、“向左移动”、“向右移动”等动作协同才能完成的任务。步骤S102:根据成本函数,从决策集中为目标智能主体调用相应的至少一策略以控制目标智能主体执行期望行为,其中,成本函数与目标智能主体的激励成本函数以及多智能主体中除目标智能主体之外的其他智能主体相对目标智能主体的交互成本函数相关。在本申请实施例中,期望行为包括能够使智能主体直接或间接完成某项目标任务的动作。例如,智能主体在当前时刻位于智能仓储或无人超市的某一处,当目标任务为打开智能仓储或无人超市的门,向某个出口搬运物件时,智能主体能够执行的动作包括“向前移动”、“向后移动”、“向左移动”、“向右移动”以及“转动库房门把手”等,则期望行为可以为例如“转动库房门把手”的动作。本申请实施例所涉及的搬运物件这一任务是根据强化学习(ReinforcementLearning,RL)的任务,该搬运物件任务的应用环境由马尔科夫决策过程(MarkovDecisionProcesses,MDP)建模。强化学习通过智能主体从环境学习以使得奖励最大,若智能主体的某个行为策略导致环境正的奖励,则智能主体以后产生这个行为策略的趋势便会本文档来自技高网...

【技术保护点】
1.一种多智能主体协同搬运物件的方法,其特征在于,所述方法包括:/n从执行搬运物件这一任务的多智能主体中确定一目标智能主体;/n根据成本函数,从决策集中为所述目标智能主体调用相应的至少一策略以控制所述目标智能主体执行期望行为,所述成本函数与所述目标智能主体的激励成本函数以及所述多智能主体中除所述目标智能主体之外的其他智能主体相对所述目标智能主体的交互成本函数相关;/n按照所述目标智能主体周围的邻居分布各向异同性以及多智能主体中各个智能主体之间释放的信息素,构建多智能主体协同作业的拓扑结构;/n在所述多智能主体协同作业的拓扑结构下,更新所述目标智能主体的协同作业伙伴;/n更新所述目标智能主体的移动速度与位置,返回所述构建多智能主体协同作业的拓扑结构的步骤,直至所述多智能主体完成搬运物件这一任务。/n

【技术特征摘要】
1.一种多智能主体协同搬运物件的方法,其特征在于,所述方法包括:
从执行搬运物件这一任务的多智能主体中确定一目标智能主体;
根据成本函数,从决策集中为所述目标智能主体调用相应的至少一策略以控制所述目标智能主体执行期望行为,所述成本函数与所述目标智能主体的激励成本函数以及所述多智能主体中除所述目标智能主体之外的其他智能主体相对所述目标智能主体的交互成本函数相关;
按照所述目标智能主体周围的邻居分布各向异同性以及多智能主体中各个智能主体之间释放的信息素,构建多智能主体协同作业的拓扑结构;
在所述多智能主体协同作业的拓扑结构下,更新所述目标智能主体的协同作业伙伴;
更新所述目标智能主体的移动速度与位置,返回所述构建多智能主体协同作业的拓扑结构的步骤,直至所述多智能主体完成搬运物件这一任务。


2.根据权利要求1所述的多智能主体协同搬运物件方法,其特征在于,所述根据成本函数,为所述目标智能主体从决策集中调用相应的至少一策略以控制所述目标智能主体执行期望行为,包括:
确定所述多智能主体中目标智能主体的交互成本函数;
根据所述交互成本函数和所述激励成本函数确定所述目标智能主体的成本函数;
根据所述目标智能主体的成本函数,从所述决策集中获得一策略,根据所述策略控制所述目标智能主体执行期望行为。


3.根据权利要求1所述的多智能主体协同搬运物件的方法,其特征在于,所述在所述多智能主体协同作业的拓扑结构下,更新所述目标智能主体的协同作业伙伴,包括:
按照选中概率pj与距离dij成反比原则,在距离所述目标智能主体的视野半径r范围内从最邻近的m个邻居中选择智能主体作为目标智能主体的预协同作业伙伴Aj,所述所述dij为所述目标智能主体与所述预协同作业伙伴Aj之间的距离,所述m为6或7;
将所述预协同作业伙伴Aj的合适度与预设合适度函数阈值fthre相比,若所述预协同作业伙伴Aj的合适度大于所述fthre,则不将所述预协同作业伙伴Aj作为所述目标智能主体的协同作业伙伴,否则将所述预协同作业伙伴Aj作为所述目标智能主体的协同作业伙伴。


4.根据权利要求1所述的多智能主体协同搬运物件的方法,其特征在于,所述更新所述目标智能主体的移动速度与位置,包括:
通过引入的两极分化因子对所述多智能主体群体进行控制,以更新所述目标智能主体的移动速度与位置,所述所述vi是所述多智能主体...

【专利技术属性】
技术研发人员:于欣佳程涛
申请(专利权)人:深圳技术大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1