System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及智能决策,尤其涉及一种基于知识引导的智能决策方法及装置。
技术介绍
1、在人机混合博弈场景中,智能决策是指在博弈(如游戏)环境中,智能体通过对抗、竞争或协作等方式进行决策和行动。在这种情况下,智能体需要考虑与其他参与者的交互,以最大化自身利益或达到特定的目标。
2、目前,多通过强化学习算法训练得到的智能决策模型进行博弈对抗,但博弈对抗场景的决策空间大、决策要素多,传统智能决策模型依靠强化学习算法从零开始探索需要大量的探索时间,探索效率较低。
技术实现思路
1、本专利技术提供一种基于知识引导的智能决策方法及装置,用以解决现有技术中强化学习算法在决策空间大、决策要素多的场景中探索效率低下的缺陷。
2、本专利技术提供一种基于知识引导的智能决策方法,包括:
3、确定智能体的当前进程以及所述当前进程的目标参数;
4、基于智能决策模型,应用所述当前进程以及所述目标参数,确定所述智能体在所述当前进程下的执行动作;
5、所述智能决策模型基于样本进程、所述样本进程的样本目标参数、所述样本进程下的样本执行动作以及所述样本执行动作对应的奖励值训练得到;所述智能决策模型用于基于任务树,确定所述样本进程的候选执行动作,并基于所述样本目标参数从所述候选执行动作中确定所述样本执行动作,所述任务树用于描述不同层级下的任务以及各任务对应的执行动作。
6、根据本专利技术提供的一种基于知识引导的智能决策方法,所述智能决策模型基于如下步
7、获取样本进程以及所述样本目标参数;
8、基于所述样本目标参数,提取样本目标特征;
9、基于所述任务树,确定所述候选执行动作;
10、基于所述样本目标特征,从所述候选执行动作中确定所述样本执行动作;
11、基于所述样本执行动作的目标达成数据以及博弈对抗结果,确定所述样本执行动作对应的奖励值;
12、基于所述奖励值,对初始模型进行训练,得到所述智能决策模型。
13、根据本专利技术提供的一种基于知识引导的智能决策方法,所述任务树包括进程层、任务层以及动作层;
14、所述基于所述任务树,确定所述候选执行动作,包括:
15、基于所述进程层与所述任务层,确定所述样本进程对应的样本任务;
16、基于所述任务层与所述动作层,确定所述样本进程对应的样本动作;
17、将所述样本动作作为所述候选执行动作。
18、根据本专利技术提供的一种基于知识引导的智能决策方法,所述基于所述样本目标特征,从所述候选执行动作中确定所述样本执行动作,包括:
19、基于样本原始特征以及所述样本目标特征,从所述候选执行动作中确定所述样本执行动作,所述样本原始特征是从与所述智能体关联的样本状态信息中提取得到的。
20、根据本专利技术提供的一种基于知识引导的智能决策方法,所述基于所述样本执行动作的目标达成数据以及博弈对抗结果,确定所述样本执行动作对应的奖励值,包括:
21、基于所述目标达成数据,确定目标达成奖励值;
22、基于所述博弈对抗结果,确定输赢奖励值;
23、基于所述目标达成奖励值以及所述输赢奖励值,确定所述奖励值。
24、根据本专利技术提供的一种基于知识引导的智能决策方法,所述基于所述样本目标参数,提取样本目标特征,包括:
25、将所述样本目标参数编码化,得到所述样本目标特征。
26、本专利技术还提供一种基于知识引导的智能决策装置,包括:
27、所述基于所述样本目标参数,提取样本目标特征,包括:
28、将所述样本目标参数编码化,得到所述样本目标特征。
29、本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述基于知识引导的智能决策方法。
30、本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于知识引导的智能决策方法。
31、本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于知识引导的智能决策方法。
32、本专利技术提供的基于知识引导的智能决策方法及装置,基于任务树,能够将样本进程下的不可行动作滤除,缩小模型的探索空间,避免模型在不可行动作上浪费资源和时间,提高探索效率。也就是本专利技术通过将任务树作为知识约束,实现任务树约束下的强化学习,从而可以有效提高学习效率和能力,使智能体能够更好地应对复杂决策空间中的挑战。
本文档来自技高网...【技术保护点】
1.一种基于知识引导的智能决策方法,其特征在于,包括:
2.根据权利要求1所述的基于知识引导的智能决策方法,其特征在于,所述智能决策模型基于如下步骤训练得到:
3.根据权利要求2所述的基于知识引导的智能决策方法,其特征在于,所述任务树包括进程层、任务层以及动作层;
4.根据权利要求2所述的基于知识引导的智能决策方法,其特征在于,所述基于所述样本目标特征,从所述候选执行动作中确定所述样本执行动作,包括:
5.根据权利要求2所述的基于知识引导的智能决策方法,其特征在于,所述基于所述样本执行动作的目标达成数据以及博弈对抗结果,确定所述样本执行动作对应的奖励值,包括:
6.根据权利要求2所述的基于知识引导的智能决策方法,其特征在于,所述基于所述样本目标参数,提取样本目标特征,包括:
7.一种基于知识引导的智能决策装置,其特征在于,包括:
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述基于知
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于知识引导的智能决策方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于知识引导的智能决策方法。
...【技术特征摘要】
1.一种基于知识引导的智能决策方法,其特征在于,包括:
2.根据权利要求1所述的基于知识引导的智能决策方法,其特征在于,所述智能决策模型基于如下步骤训练得到:
3.根据权利要求2所述的基于知识引导的智能决策方法,其特征在于,所述任务树包括进程层、任务层以及动作层;
4.根据权利要求2所述的基于知识引导的智能决策方法,其特征在于,所述基于所述样本目标特征,从所述候选执行动作中确定所述样本执行动作,包括:
5.根据权利要求2所述的基于知识引导的智能决策方法,其特征在于,所述基于所述样本执行动作的目标达成数据以及博弈对抗结果,确定所述样本执行动作对应的奖励值,包括:
6.根据权利要求2所述的基于知识引导的智能...
【专利技术属性】
技术研发人员:徐博,王燕娜,王媛媛,谷召振,徐波,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。