System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开属于智能控制,更具体地说,是涉及一种智能决策方法及装置、电子设备、可读存储介质。
技术介绍
1、在工业控制、自动驾驶、游戏等领域,决策transformer发挥了巨大作用。通过扩展模型规模并充分利用庞大的离线数据集,进一步验证了决策transformer的有效性,将其打造成一种能够高效解决各类决策任务的通用智能体。虽然基于决策transformer的智能体在进行已知任务决策时准确性高,但是还不能很好地对分布外的决策任务做到很好的泛化,在进行新决策任务时准确性差。
技术实现思路
1、本公开的目的在于提供一种智能决策方法及装置、电子设备、可读存储介质,以提高智能体在新决策任务中决策的准确性。
2、本公开实施例的第一方面,提供了一种智能决策方法,包括:
3、基于第一任务的决策知识信息确定所述第一任务对应的模型参数;
4、基于所述模型参数对决策模型的网络参数进行调整;所述决策模型为第二任务的决策模型;所述网络参数调整后的决策模型用于任务决策。
5、本公开实施例的第二方面,提供了一种智能决策装置,包括:
6、参数计算模块,用于基于第一任务的决策知识信息确定所述第一任务对应的模型参数;
7、参数注入模块,用于基于所述模型参数对决策模型的网络参数进行调整;所述决策模型为第二任务的决策模型;所述网络参数调整后的决策模型用于任务决策。
8、本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在
9、本公开实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的智能决策方法的步骤。
10、本公开实施例提供的智能决策方法及装置、电子设备、可读存储介质的有益效果在于:
11、本公开实施例中,第一任务为新决策任务,第二任务为已知的决策任务。在把第二任务的决策模型应用到第一任务时,首先获取第一任务的决策知识信息,然后根据第一任务的决策知识信息确定第一任务对应的模型参数,再根据第一任务对应的模型参数调整第二任务的网络参数。通过上述过程,将新决策任务的知识注入到决策模型中,使得决策模型具备新决策任务的知识,提高决策模型(智能体)在新决策任务中决策的准确性。与传统的增加新决策任务的样本、重新训练决策模型的方法相比,本公开实施例不需要重新训练模型,能够快速泛化到新任务。
本文档来自技高网...【技术保护点】
1.一种智能决策方法,其特征在于,包括:
2.如权利要求1所述的智能决策方法,其特征在于,还包括:
3.如权利要求1所述的智能决策方法,其特征在于,所述基于第一任务的决策知识信息确定所述第一任务对应的模型参数,包括:
4.如权利要求3所述的智能决策方法,其特征在于,所述决策知识信息为多条,所述基于第一任务的决策知识信息确定所述第一任务对应的模型参数,包括:
5.如权利要求4所述的智能决策方法,其特征在于,所述将多个模型参数进行融合,得到融合后的模型参数,包括:
6.如权利要求1至5任一项所述的智能决策方法,其特征在于,所述网络参数为所述决策模型中各个注意力模块对应的参数。
7.如权利要求1任一项所述的智能决策方法,其特征在于,所述基于所述模型参数对决策模型的网络参数进行调整,包括:
8.一种智能决策装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
...【技术特征摘要】
1.一种智能决策方法,其特征在于,包括:
2.如权利要求1所述的智能决策方法,其特征在于,还包括:
3.如权利要求1所述的智能决策方法,其特征在于,所述基于第一任务的决策知识信息确定所述第一任务对应的模型参数,包括:
4.如权利要求3所述的智能决策方法,其特征在于,所述决策知识信息为多条,所述基于第一任务的决策知识信息确定所述第一任务对应的模型参数,包括:
5.如权利要求4所述的智能决策方法,其特征在于,所述将多个模型参数进行融合,得到融合后的模型参数,包括:
6.如权利要求1至5任一项所述的智能决策方法,其特征在于,所述...
【专利技术属性】
技术研发人员:何召锋,金永刚,项刘宇,郭嘉伟,赵浩,郑天昱,侯金冰,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。