一种基于样本状态对比表征的智能体自主行为决策方法技术

技术编号：41570199 阅读：7 留言：0更新日期：2024-06-06 23:50

本发明专利技术公开一种基于样本状态对比表征的智能体自主行为决策方法，涉及无人系统自主决策技术领域，方法包括：通过当前迭代过程的训练样本确定当前迭代过程的高维正样本、高维负样本及高维锚点样本；将当前迭代过程的高维正样本及高维负样本输入至当前迭代过程优化后的键值编码器，确定当前迭代过程的低维正样本及低维负样本；采用当前迭代过程的低维正样本及低维负样本对当前迭代过程优化后的查询编码器进行优化，确定下一迭代过程优化后的查询编码器；根据将下一迭代过程的高维锚点样本输入至下一迭代过程优化后的查询编码器确定的第一低维锚点样本确定智能体的自主行为决策。提高了自主行为决策输入样本的效率，优化了自主行为决策的策略。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及无人系统自主决策，特别是涉及一种基于样本状态对比表征的智能体自主行为决策方法。

技术介绍

1、在复杂环境下自主行为决策的训练过程中，智能体(也即无人系统)需要对当前状态进行表征提取，并根据提取后的表征来决定下一步的动作，进而更新行为策略。这意味着复杂环境下自主行为决策算法在解决策略学习任务的同时，还需要进行状态表征提取。在低维物理特征的状态空间中进行复杂环境下自主行为决策训练，其样本效率远高于在以图像为状态空间的任务，并且更容易收敛。然而，在现实任务中，低维物理信息的状态通常难以获得。因此，在高维图像的状态空间下提高复杂环境下自主行为决策算法的样本效率是一个必要且具有挑战性的问题。

2、传统自主行为决策局限于状态空间和动作空间都很小的情况，然而更接近现实情况的任务往往有着高维的状态空间和连续的动作空间。比如输入状态数据为图像时，传统自主行为决策很难处理，此时深度神经网络和自主行为决策结合在一起诞生了复杂环境下自主行为决策。深度神经网络赋予了自主行为决策处理高维度状态空间的能力，使其能够解决更加复杂的决策问题，但是也使得算法的样本效率大幅下降。这是因为深度神经网络是通过从大量数据中学习非线性关系的一种范式，而问题就出在“大量数据”，要知道在自主行为决策领域是样本数据是与环境不断交互得来的，那就意味着算法与环境交互次数大幅上升，这是最不想看到的现象，也是造成复杂环境下自主行为决策代价大和落地难最主要的原因之一。

3、现代自主行为决策之父sutton在2021年的学术报告中也提出了这个问题：相同任

技术实现思路

1、本专利技术的目的是提供一种基于样本状态对比表征的智能体自主行为决策方法，以解决现有技术中，无法从冗余的高维样本的状态中高效地提取出低维的且具有区分度的有效表征，由于低维样本作为输入进行复杂环境下自主行为决策训练时，其样本效率远高于高维样本作为输入进行复杂环境下自主行为决策训练，进而使得高维样本作为输入的自主行为决策模型的样本效率低，导致智能体无法专注于自主行为决策的策略的优化的问题。

2、为实现上述目的，本专利技术提供了如下方案：

3、一种基于样本状态对比表征的智能体自主行为决策方法，包括：

4、获取当前迭代过程的训练样本；所述训练样本为高维样本；

5、根据所述当前迭代过程的训练样本，确定当前迭代过程的高维正样本、当前迭代过程的高维负样本及当前迭代过程的高维锚点样本；

6、将所述当前迭代过程的高维正样本输入至当前迭代过程优化后的键值编码器，确定当前迭代过程的低维正样本；

7、将所述当前迭代过程的高维负样本输入至所述当前迭代过程优化后的键值编码器，确定当前迭代过程的低维负样本；

8、采用所述当前迭代过程的低维正样本及所述当前迭代过程的低维负样本对当前迭代过程优化后的查询编码器进行优化，确定下一迭代过程优化后的查询编码器；

9、将下一迭代过程的高维锚点样本输入至所述下一迭代过程优化后的查询编码器，确定第一低维锚点样本；

10、根据所述第一低维锚点样本，确定智能体的自主行为决策。

11、可选地，采用所述当前迭代过程的低维正样本及所述当前迭代过程的低维负样本对当前迭代过程优化后的查询编码器进行优化，确定下一迭代过程优化后的查询编码器，具体包括：

12、基于互信息的损失函数，对所述当前迭代过程的低维正样本及所述当前迭代过程的低维负样本进行对比学习，确定下一迭代过程优化后的查询编码器。

13、可选地，采用所述当前迭代过程的低维正样本及所述当前迭代过程的低维负样本对当前迭代过程优化后的查询编码器进行优化，确定下一迭代过程优化后的查询编码器，之前还包括：

14、将所述当前迭代过程的高维锚点样本输入至当前迭代过程优化后的查询编码器，确定第二低维锚点样本。

15、可选地，所述互信息的损失函数的公式为：

16、

17、其中，为互信息的损失函数，k+为低维正样本的表征向量，ki为低维负样本的表征向量，w为可学习的参数矩阵，qt为第二低维锚点样本的表征向量的转置。

18、可选地，将所述当前迭代过程的高维正样本输入至当前迭代过程优化后的键值编码器，确定当前迭代过程的低维正样本，之前还包括：

19、获取所述当前迭代过程优化后的查询编码器的参数；

20、根据上一迭代过程优化后的键值编码器的参数与所述当前迭代过程优化后的查询编码器的参数，确定当前迭代过程键值编码器的参数；

21、根据所述当前迭代过程键值编码器的参数，确定当前迭代过程优化后的键值编码器。

22、可选地，根据上一迭代过程优化后的键值编码器的参数与所述当前迭代过程优化后的查询编码器的参数，确定当前迭代过程键值编码器的参数，具体包括：

23、根据上一迭代过程优化后的键值编码器的参数与所述当前迭代过程优化后的查询编码器的参数，利用公式θk1＝mθk0+(1-m)θq1，确定当前迭代过程键值编码器的参数；

24、其中，θk1为当前迭代过程键值编码器的参数，θk0为上一迭代过程优化后的键值编码器的参数，θq1为当前迭代过程优化后的查询编码器的参数，m为动量参数。

25、可选地，获取当前迭代过程的训练样本，具体包括：

26、基于实验场景，通过所述智能体与所述智能体所处的场景环境交互，获取当前迭代过程的连续的在线样本图像；

27、将多张所述当前迭代过程的连续的在线样本图像进行堆叠，确定当前迭代过程的训练样本。

本文档来自技高网...

【技术保护点】

1.一种基于样本状态对比表征的智能体自主行为决策方法，其特征在于，包括：

2.根据权利要求1所述的基于样本状态对比表征的智能体自主行为决策方法，其特征在于，采用所述当前迭代过程的低维正样本及所述当前迭代过程的低维负样本对当前迭代过程优化后的查询编码器进行优化，确定下一迭代过程优化后的查询编码器，具体包括：

3.根据权利要求2所述的基于样本状态对比表征的智能体自主行为决策方法，其特征在于，采用所述当前迭代过程的低维正样本及所述当前迭代过程的低维负样本对当前迭代过程优化后的查询编码器进行优化，确定下一迭代过程优化后的查询编码器，之前还包括：

4.根据权利要求3所述的基于样本状态对比表征的智能体自主行为决策方法，其特征在于，所述互信息的损失函数的公式为：

5.根据权利要求1所述的基于样本状态对比表征的智能体自主行为决策方法，其特征在于，将所述当前迭代过程的高维正样本输入至当前迭代过程优化后的键值编码器，确定当前迭代过程的低维正样本，之前还包括：

6.根据权利要求5所述的基于样本状态对比表征的智能体自主行为决策方法，其特征在于，

7.根据权利要求1所述的基于样本状态对比表征的智能体自主行为决策方法，其特征在于，获取当前迭代过程的训练样本，具体包括：

8.根据权利要求1所述的基于样本状态对比表征的智能体自主行为决策方法，其特征在于，根据所述当前迭代过程的训练样本，确定当前迭代过程的高维正样本、当前迭代过程的高维负样本及当前迭代过程的高维锚点样本，具体包括：

9.根据权利要求1所述的基于样本状态对比表征的智能体自主行为决策方法，其特征在于，根据所述第一低维锚点样本，确定智能体的自主行为决策，具体包括：

10.根据权利要求8所述的基于样本状态对比表征的智能体自主行为决策方法，其特征在于，所述状态价值函数值的表达式为：

...

【技术特征摘要】

1.一种基于样本状态对比表征的智能体自主行为决策方法，其特征在于，包括：

4.根据权利要求3所述的基于样本状态对比表征的智能体自主行为决策方法，其特征在于，所述互信息的损失函数的公式为：

5.根据权利要求1所述的基于样本状态对比表征的智能体自主行为决策方法，其特征在于，将所述当前迭代过程的高维正样本输入至当前迭代过程优化后的键值编码器，确定当前迭代过程的低维正样...

【专利技术属性】
技术研发人员：谢少荣，王欣芝，骆祥峰，李洋，李玉峰，李韶杰，
申请(专利权)人：上海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人