System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及强化学习,尤其涉及一种基于分层视觉transformer模型的状态特征优化方法。
技术介绍
1、机器学习领域的特征选择已经被研究了很长时间,具体的特征选择方法包括最小冗余、最大相关以及启发式算法进行提取。特征选择的目的是通过过滤掉一些关联性不强的特征来减少模型训练过程中产生的方差,目前研究结果最多的是基于深度学习的相关特征选择方法,其核心思想是利用无监督或有监督学习方法自动从数据中学习表示或特征。近年来涌现不少基于深度强化学习进行特征选择的方法研究,其主要原因是强化学习是做出最佳决策的技术之一,使用强化学习方法可以在任何数据集上灵活使用并针对每一个特征进行调整,但目前基于强化学习(reinforcement learning,rl)的方法需要大量的计算时间和计算能力来搜索更多的状态空间。
2、深度强化学习从被提出到至今,在视频游戏领域获得了显著成就,但将深度强化学习应用到现实世界中的决策控制任务中,例如:导航、机器人操纵以及机械臂抓取等任务,并没有取得类似于在视频游戏领域中的惊人表现。在强化学习中,智能体通过与环境交互“试错”的方式进行学习,并在未知环境中选择最优策略来实现最大化累积奖励的目标。在智能体探索学习的过程中,若外部环境的奖励较为稀疏,就会导致智能体探索环境的程度不充分。将这种奖励稀疏、正负奖励不均的情况定义为稀疏奖励(sparse reward)问题,该问题是深度强化学习在解决实际任务过程中面临的核心问题。因此,解决稀疏奖励问题在深度强化学习中智能体的探索学习过程中是十分必要的。
4、transformer模型在自然语言处理、计算机视觉、语音处理、大规模模型等人工智能领域取得了巨大的成功,在学术界和工业界引发了广泛的关注。注意力机制在transformer模型中获得了广泛应用,例如:自注意机制、多头自注意机制、稀疏注意力机制、局部注意力机制、全局注意力机制等等。其中,自注意机制是transformer模型的核心,而多头自注意机制的提出进一步提升了transformer模型的性能,但由于多头自注意机制存在复杂度较高、训练速度较慢的缺点,所以通常采用局部注意力去降低自注意力的二次复杂度,例如:独立自我注意力(stand-alone self-attention,sasa)、滑动窗口注意力(swin window self attention,swas)等等。hassani等人首先提出了邻近注意力(neighorhood attention,na)的概念,它是一种可扩展的高效的视觉滑动窗口注意力机制,将注意力定位在相邻最近的周围像素。由于邻近注意力主要面向局部的像素范围,故邻近注意力存在减少了对全局数据信息的长期依赖以及忽略了全局感受野两个问题。因此,hassani等人为了解决上述问题继续提出了可扩张的邻近注意力(dilated neighorhoodattention,dina),它是一种自然且可以灵活高效地进行扩张的邻近注意力的扩展,还可以在不需要额外的成本的情况下对感受野进行指数级别的扩张,从而成功获得更多的全局特征信息。最后,将邻近注意力na与可扩张的邻近注意力dina进行结合,提出一种可扩张的邻近注意力transformer(dilated neighorhood attention transformer,dinat)模型,该模型不仅可以获得局部信息还能获得稀疏的全局信息。
5、现有技术中提出了一种统一的基于好奇心驱动的方法用于解决强化学习中奖励稀疏情况下存在的探索困难的问题。该方法主要通过使用注意力机制去获得可靠的特征表达,使用状态新颖性估计智能体的当前状态和下一个状态的特征表达并计算出内在奖励信息,并对状态空间中三种不同样本的探索程度估计值进行加权计算以获得内部奖励再进行平滑处理和融合。该方法在前向动力学模型与新的环境进行交互时训练数据样本增加的情况下,利用状态新颖性进行三个不同样本之间的内在奖励估计会导致对目标特征的丢失,并且对深度网络计算的损失会更高,同时也降低了奖励计算的效率。
6、除此之外,现有技术中还提出了一种基于注意力机制和强化学习的自动特征构造方法,该方法首先指定固定分类问题的数据集并使用自注意机制进行不同种类的特征组合的评分,即特征分类结果。其次,引入强化学习中的基于策略梯度的方法进行特征状态的评估,使用强化学习中的元特征为该方法的数据标签。但该方法主要使用自注意机制面向不同种类的特征分组进行分类评估,没有考虑面向同一类型数据时进行不同特征权重的自动构建情况。该方法引入强化学习中的蒙特卡洛策略梯度(reinforce:monte-carlo policygradient)算法进行特征的自动选择,将数据结合真实的标签特征作为强化学习控制器的输入,然后将输出的奖励值定义为内在奖励并作为特征被选择的概率,会出现梯度计算和训练不稳定、计算的奖励方差较大的问题。
技术实现思路
1、针对上述现有技术的不足,本专利技术提出了一种基于分层视觉transformer模型的状态特征优化方法,旨在缓解智能体在探索过程中陷入局部最优困境,提高有限数据样本的利用效率,优化状态特征提取准确性。
2、本专利技术提出的一种基于分层视觉transformer模型的状态特征优化方法,该方法包括如下步骤:
3、步骤1:创建交互环境envs,获取图片数据集;
4、步骤本文档来自技高网...
【技术保护点】
1.一种基于分层视觉transformer模型的状态特征优化方法,其特征在于,该方法包括如下步骤:
2.根据权利要求1所述基于分层视觉transformer模型的状态特征优化方法,其特征在于,所述步骤1进一步包括:
3.根据权利要求1所述基于分层视觉transformer模型的状态特征优化方法,其特征在于,步骤2中所述基于分层视觉transformer的内在好奇心模型DiNAT-ICM,包括:内在好奇心网络ICM_Network、可扩张的邻近注意力Transformer模型DiNAT_Network和A2C算法网络A2C_Network;
4.根据权利要求3所述基于分层视觉transformer模型的状态特征优化方法,其特征在于,步骤2中所述初始化基于分层视觉transformer的内在好奇心模型DiNAT-ICM包括:设置数据帧数n_stack、并行环境数量num_envs、动作数量num_actions、环境名称envs_name、输入数据大小input_size和状态特征大小feature_size。
5.根据权利要求4所述基
6.根据权利要求5所述基于分层视觉transformer模型的状态特征优化方法,其特征在于,所述步骤3.3进一步包括:
7.根据权利要求6所述基于分层视觉transformer模型的状态特征优化方法,其特征在于,所述步骤3.5进一步包括:
8.根据权利要求7所述基于分层视觉transformer模型的状态特征优化方法,其特征在于,所述前向动力学模型和逆向动力学模型的为:
...【技术特征摘要】
1.一种基于分层视觉transformer模型的状态特征优化方法,其特征在于,该方法包括如下步骤:
2.根据权利要求1所述基于分层视觉transformer模型的状态特征优化方法,其特征在于,所述步骤1进一步包括:
3.根据权利要求1所述基于分层视觉transformer模型的状态特征优化方法,其特征在于,步骤2中所述基于分层视觉transformer的内在好奇心模型dinat-icm,包括:内在好奇心网络icm_network、可扩张的邻近注意力transformer模型dinat_network和a2c算法网络a2c_network;
4.根据权利要求3所述基于分层视觉transformer模型的状态特征优化方法,其特征在于,步骤2中所述初始化基于分层视觉transformer的内在好奇心模型din...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。