System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于内外部选择状态空间的离线强化学习序列建模方法技术_技高网
当前位置: 首页 > 专利查询>中北大学专利>正文

基于内外部选择状态空间的离线强化学习序列建模方法技术

技术编号:44643706 阅读:2 留言:0更新日期:2025-03-17 18:34
本发明专利技术属于强化学习技术领域,具体涉及基于内外部选择状态空间的离线强化学习序列建模方法。为解决模型学习存在不准确性的问题,以及在序列建模过程中存在Transforemer计算复杂和成本高的问题,本发明专利技术依据轨迹序列元素间的Markov属性构建元素依赖表示,使用内部Mamba模块对元素依赖表示建模,捕获轨迹中的短期因果关系,并且结合状态空间模型和离线强化学习,在外部Mamba模块中利用线性复杂度的Mamba对离线强化学习轨迹序列进行建模,捕获元素间的长期时间关系。

【技术实现步骤摘要】

本专利技术属于强化学习,具体涉及基于内外部选择状态空间的离线强化学习序列建模方法


技术介绍

1、现有的国产操作系统,如openeuler,技术日趋成熟,但仍然面临应用程序匮乏,用户基础小,性能较差等问题。而解决问题的关键在于建立openeuler软件适配优化平台,通过利用强化学习算法对运行在操作系统的业务执行性能调优,使软件能够在国产操作系统中更流畅地运行。

2、强化学习作为性能调优的一种解决方式,本质上是一个markov决策过程。现有的强化学习算法可以分为在线强化学习和离线强化学习两种类型。在线强化学习通过与环境实时交互来收集数据以训练智能体,而由于在线强化学习需要频繁地与环境进行交互,而交互过程中需要大量探索,导致在线强化学习在实际应用中成本非常昂贵。对此,离线强化学习提供了解决方案。离线强化学习利用预先收集的数据集执行策略学习以训练智能体,不需要与环境进行任何交互,因此成本更低且更安全,更适合在现实世界的场景中应用。

3、目前主流的离线强化学习算法可以分为q-learning、模仿学习和序列建模三种类型。q-learning算法通过学习在特定状态下执行某个动作所能获得的动作价值函数,指导智能体的决策过程,在决策过程中,通过时间差(td)持续的调整动作价值函数,使得智能体逐步找到最优策略。例如,aviral kumar等人提出的conservative q-learning(cql)通过寻找真实动作价值函数的下界,学习保守的价值函数,解决了离线数据集中的行为策略和学习策略之间的分布偏移导致的价值高估问题。然而,在离线设置下估计价值函数可能会导致不稳定的学习行为和对超参数的敏感性。模仿学习通过监督的方式从高质量或接近最优的数据集中模拟专家演示来学习有效的策略。例如,michael bain等人提出的行为克隆(bc)将数据集中的状态映射到其对应的动作,通过优化专家行为策略和学习策略之间的动作概率分布差异进行训练。但模仿学习高度依赖于专家数据集,而在实际应用中高质量专家数据集数量有限,且模仿者达不到比专家数据集表现更高的性能。近年来,受transformer在长距离序列中捕捉元素间依赖的影响,研究人员尝试将离线强化学习抽象为序列建模任务,利用transformer出色的长序列建模能力来解决离线强化学习中的决策问题。例如,lili chen等人提出的decision transformer模型将未来奖励总和(rtg)设为目标回报,对轨迹序列中的历史信息进行建模,通过训练自回归transformer模型来预测下一个动作以实现rtg目标。decisiontransformer利用目标条件策略将离线强化学习转换为对动作的监督学习任务,避免了使用近似价值函数,提高了离线强化学习方法的性能和稳定性。然而,decision transformer在离线强化学习任务中存在成本问题,其计算复杂度随着轨迹序列长度的增加呈二次型增长,在轨迹序列建模过程中需要显著的计算和内存成本。

4、综上,目前的离线强化学习模型在序列建模过程中只能并行处理轨迹元素的历史信息,没有考虑到作为决策基础的底层轨迹元素之间的markov属性中蕴含的因果关系,导致了模型学习存在不准确性的问题,并且在序列建模过程中存在transforemer计算复杂和成本高的问题。


技术实现思路

1、本专利技术针对上述问题提供了一种基于内外部选择状态空间的离线强化学习序列建模方法。本专利技术通过嵌套使用内部mamba模块和外部mamba模块,解决了目前离线强化学习序列建模方法中遇到的transformer计算成本高和模型预测不准确的问题。其中内部mamba模块在时间步维度上对依据markov属性构建的元素依赖表示进行建模,捕获离线强化学习轨迹元素之间的短期因果关系;外部mamba模块用于处理由动作、状态、rtg值和短期因果关系四种模态的元素组成的轨迹序列,通过对跨时间步的轨迹序列建模来捕获轨迹元素间的长期时间关系。因此,mamba in mamba作为一种离线强化学习轨迹序列建模模型可以捕获到轨迹元素间广泛的依赖关系和元素信息,具有强大的轨迹序列建模能力和更好的模型泛化能力。

2、为达到上述目的本专利技术采用了以下技术方案:

3、本专利技术提供了一种基于内外部选择状态空间的离线强化学习序列建模方法,包括以下步骤:

4、步骤1,将轨迹文件进行数据预处理和采样,获取子轨迹样本数据集;

5、步骤2,将子轨迹样本数据集通过数据加载器输入预先训练好的mamba in mamba模型中,输出对未来动作的预测,所述mamba in mamba模型在离线强化学习任务中将选择状态空间模型和轨迹序列建模相结合,包括元素依赖表示、内部mamba模块和外部mamba模块,所述元素依赖表示依据输入轨迹序列中的markov属性来构建,以更好地表达输入轨迹序列相邻时间步元素之间的因果关系;所述内部mamba模块从元素依赖表示中捕获轨迹序列中的短期因果关系;所述外部mamba模块在给定短期因果关系的情况下,对轨迹序列中不同时间步长的交互过程进行建模,捕获轨迹序列元素间的长期时间关系。

6、进一步,所述元素依赖表示中的节点代表轨迹中的状态、动作和rtg三种元素,边代表不同元素之间存在的markov属性,具体为:

7、给定t个时间步的rtg、状态和动作序列,对于t时间步的状态st∈(b,k1),动作at∈(b,k2),rtg rt∈(b,k3)和t+1时间步的状态st+1∈(b,k1),其中b代表批量大小,k1、k2、k3分别代表st、at、rt的特征维度大小;

8、依据轨迹序列元素间的markov属性,将具有因果关系的元素对,在特征维度上进行合并,构建具有因果关系的元素依赖表示,元素依赖表示中包含三种依赖关系:(st,at)元素对之间的依赖关系(st,rt)元素对之间的依赖关系(st,at,st+1)元素对之间的依赖关系

9、进一步,所述内部mamba模块的基本结构为mambablock,分为输入处理和关系建模两个阶段,在输入处理阶段,将构建的元素依赖表示序列化,作为内部mamba模块的输入,在关系建模阶段,使用mambablock对不同时间步的元素依赖表示进行建模,捕获轨迹序列中元素间的短期因果关系。

10、进一步,所述内部mamba模块的具体过程为:

11、将具有markov属性的元素依赖表示和进行序列化,得到和

12、通过线性层将序列化后的元素依赖表示投影到输入维度d,之后对线性投影后的元素依赖表示和执行相加操作,得到t时间步的元素依赖嵌入特征embt∈(b,l,d),过程如公式(1)所示:

13、

14、将embt输入到内部mamba模块中,使用mamba block层进行关系建模,得到时间步t元素间短期因果关系lt∈(b,l,d)。

15、进一步,所述内部mamba模块由i个mambablock层组成,其中第i层ma本文档来自技高网...

【技术保护点】

1.基于内外部选择状态空间的离线强化学习序列建模方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于内外部选择状态空间的离线强化学习序列建模方法,其特征在于,所述元素依赖表示中的节点代表轨迹中的状态、动作和RTG三种元素,边代表不同元素之间存在的Markov属性,具体为:

3.根据权利要求2所述的基于内外部选择状态空间的离线强化学习序列建模方法,其特征在于,所述内部Mamba模块的基本结构为Mambablock,分为输入处理和关系建模两个阶段,在输入处理阶段,将构建的元素依赖表示序列化,作为内部Mamba模块的输入,在关系建模阶段,使用Mambablock对不同时间步的元素依赖表示进行建模,捕获轨迹序列中元素间的短期因果关系。

4.根据权利要求3所述的基于内外部选择状态空间的离线强化学习序列建模方法,其特征在于,所述内部Mamba模块的具体过程为:

5.根据权利要求3或4所述的基于内外部选择状态空间的离线强化学习序列建模方法,其特征在于,所述内部Mamba模块由i个Mambablock层组成,其中第i层Mambablock中执行的操作如公式(2)所示:

6.根据权利要求5所述的基于内外部选择状态空间的离线强化学习序列建模方法,其特征在于,所述外部Mamba模块的基本结构为Mambablock,分为输入处理和关系建模两个阶段,在输入处理阶段,将内部Mamba模块的输出按时间步顺序加入到原始轨迹序列中,实现对轨迹序列的信息补充,在关系建模阶段,使用Mamba block对所有时间步的轨迹序列进行建模,捕获轨迹序列中的长期时间关系。

7.根据权利要求6所述的基于内外部选择状态空间的离线强化学习序列建模方法,其特征在于,所述外部Mamba模块的具体过程为:

8.根据权利要求6或7所述的的基于内外部选择状态空间的离线强化学习序列建模方法,其特征在于,所述外部Mamba模块由j个MambaBlock层组成,其中第j层Mambablock中的执行的操作如公式(4)所示:

9.根据权利要求3-8任一项所述的基于内外部选择状态空间的离线强化学习序列建模方法,其特征在于,所述Mambablock包含两个分支,第一个分支对输入序列进行线性投影、卷积、激活函数处理和SSM层处理;第二个分支对输入序列进行线性投影和激活函数处理;最终将两个分支的处理结果进行合并、线性投影后输出,具体过程如下:

10.根据权利要求1-9任一项所述的基于内外部选择状态空间的离线强化学习序列建模方法,其特征在于,还包括Mamba in Mamba模型的训练,具体过程为:

...

【技术特征摘要】

1.基于内外部选择状态空间的离线强化学习序列建模方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于内外部选择状态空间的离线强化学习序列建模方法,其特征在于,所述元素依赖表示中的节点代表轨迹中的状态、动作和rtg三种元素,边代表不同元素之间存在的markov属性,具体为:

3.根据权利要求2所述的基于内外部选择状态空间的离线强化学习序列建模方法,其特征在于,所述内部mamba模块的基本结构为mambablock,分为输入处理和关系建模两个阶段,在输入处理阶段,将构建的元素依赖表示序列化,作为内部mamba模块的输入,在关系建模阶段,使用mambablock对不同时间步的元素依赖表示进行建模,捕获轨迹序列中元素间的短期因果关系。

4.根据权利要求3所述的基于内外部选择状态空间的离线强化学习序列建模方法,其特征在于,所述内部mamba模块的具体过程为:

5.根据权利要求3或4所述的基于内外部选择状态空间的离线强化学习序列建模方法,其特征在于,所述内部mamba模块由i个mambablock层组成,其中第i层mambablock中执行的操作如公式(2)所示:

6.根据权利要求5所述的基于内外部选择状态空间的离线强化学习序列建模方法,其特征在于,所述外部mam...

【专利技术属性】
技术研发人员:王晋光韩强王丽芳郭威靳凯欣
申请(专利权)人:中北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1