System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于元强化学习的高光谱开放集领域泛化方法技术_技高网

一种基于元强化学习的高光谱开放集领域泛化方法技术

技术编号:44255322 阅读:1 留言:0更新日期:2025-02-14 22:02
本发明专利技术属于模式识别技术领域,公开了一种基于元强化学习的高光谱开放集领域泛化方法。首先,为实现稳健的开放集识别策略学习,本发明专利技术使用背景像素模拟虚拟未知类,并使用元学习的情景模拟机制对源域中的开放集识别场景进行模拟。在情景模拟过程中,将开放集识别任务建模为内部马尔可夫决策过程,利用强化学习的反馈学习和策略优化机制,迭代优化开集识别策略。其次,为实现源域向未见目标域稳健的跨域知识迁移,本发明专利技术将跨任务知识归纳建模为外部马尔可夫决策过程,设计了不变风险奖励机制来鼓励智能体在不同的开放集识别任务中捕获跨任务共享知识。引入了Mamba作为记忆策略网络,利用其强大的上下文压缩能力实现了跨任务共享知识归纳。

【技术实现步骤摘要】

本专利技术属于模式识别,尤其涉及一种基于元强化学习的高光谱开放集领域泛化方法


技术介绍

1、领域适应:现有的深度学习方法通过训练数据对模型进行优化,以期在测试数据上实现良好的泛化性能。然而,这些方法的有效性通常依赖于训练数据和测试数据同分布的假设。在实际应用中,训练数据通常来自不同分布的源域,这种跨域分布差异显著影响了跨域知识迁移的效果,从而导致源域表现良好的模型在目标域上的泛化性能不理想。为应对这一挑战,领域适应方法应运而生,其核心思想是通过对齐源域和目标域的数据分布来促进知识迁移。尽管此类方法在性能上取得了显著进展,但其仍存在局限性。首先,领域适应通常依赖于目标域数据,这导致模型往往针对特定目标域进行优化,限制了其在现实场景中的广泛应用。此外,此类方法通常要求同时存储源域和目标域数据,增加了对计算设备的内存需求,从而在资源有限的场景中难以适用。

2、领域泛化:领域泛化方法旨在利用来自一个或多个源域的数据训练模型,使其能够泛化到任意未知的目标域。这种方法相较于领域适应,更加契合实际应用场景,因为在模型部署时,目标域数据通常难以获得甚至未知。然而,现有的高光谱领域泛化方法大多仅限于闭集条件下的应用,即假设源域和目标域具有相同的类别分布。这一假设忽略了现实场景中的开放集情况,即源域和目标域的类别可能不一致。在实际应用中,由于高光谱图像采集区域的差异,各领域的类别分布往往不完全相同,导致现有领域泛化方法在开放环境下的适用性受到限制。更为严重的是,在闭集条件下,所有地物都被归为已知类别,可能引发潜在的安全隐患。

<p>3、开放集识别:传统的闭集假设下,训练和测试数据共享相同的类别和特征空间,因此现有深度学习方法在诸多任务中取得了显著进展。然而,现实中的分类任务通常具有开放性,即测试阶段可能会出现训练中未见过的类别。在这种情况下,模型若不能正确识别未见类,可能会误将其归为已知类,进而引发安全问题。特别是在无人驾驶、故障诊断和医疗诊断等安全关键领域,这一问题尤为突出。为此,开放集识别方法应运而生,其目标不仅在于准确分类训练数据中的已知类,还要有效识别训练中未见的未知类。然而,现有的开放集识别方法大多假设目标域是已知的,这限制了其在动态开放环境中的应用。当模型部署后需要处理来自未见域的数据时,现有的开放集识别方面可能面临挑战。

4、最近,一些研究者们开始探索基于领域泛化的解决方案。然而,这些方法都仅考虑了闭集条件下的领域泛化,即假设源域和目标域类别一致。而忽略了源域和目标域类别不一致的开放集领域泛化。事实上,在现实的开放环境中,不同的高光谱图像由于采集区域的差异,其类别往往是不完全相同的,这导致现有的领域泛化方法在现实开放环境中应用受限。更糟糕的是,闭集条件下所有地物都被分为已知类可能导致安全问题。

5、因此,开发一种面向开放环境的高光谱开放集领域泛化框架,使得模型能够识别未见目标域中的未知类别,是提升高光谱图像分类模型在开放环境中安全性和适用性的关键。


技术实现思路

1、专利技术目的:领域泛化旨在目标域不可见的条件下,利用源域的数据训练出具有强泛化能力的高光谱图像分类模型。

2、技术方案:为实现上述目的,本专利技术采用的技术方案为:一种基于元强化学习的高光谱开放集领域泛化方法,包括如下步骤:

3、步骤1:基于源域高光谱图像的背景像素生成虚拟未知类,从虚拟未知类的集合中采样一组高光谱图像块作为虚拟未知类样本;从源域高光谱图像中的已知类集合中采样得到已知类样本;进而基于虚拟未知类样本和已知类样本构建g个开放集识别任务;g个开放集识别任务共同组成跨任务共享知识归纳任务;

4、步骤2:将开放集识别任务建模为内部马尔可夫决策过程,并为该任务定制强化学习环境,通过智能体和定制环境的反馈交互过程学习最优的开放集识别策略;

5、步骤3:将跨任务共享知识归纳任务建模为外部马尔可夫决策过程,并为该任务定制强化学习环境,利用不变风险奖励驱动智能体从不同的开放集识别任务中学习最优的跨任务共享知识归纳策略,实现归纳跨任务共享知识归纳;

6、利用在源域高光谱图像学习到的开放集识别策略和跨任务共享知识归纳策略,完成目标域高光谱图像的开放集识别任务,实现开放域泛化。

7、进一步的,步骤2中将开放集识别任务建模为内部马尔可夫决策过程,并为开放集识别任务定制强化学习环境,所述强化学习环境包括内部马尔可夫决策过程的状态转移函数、动作和奖励;具体包括:

8、步骤2.1,将hsi处理成若干个图像块,由于图像块具有较高的维度,也称为高维的图像块;

9、步骤2.2,通过状态感知网络,将高维的图像块映射到低维的空-谱特征空间,得到空谱特征z,表示为:

10、

11、其中,φ(·)和分别表示空间编码器和光谱编码器。

12、步骤2.3,在第一个时间步,初始化一组类别预测向量p0,将类别预测向量p0和空谱特征z进行拼接作为初始状态,内部马尔可夫决策过程的初始状态表示为:

13、

14、其中,concat(·)为拼接操作。

15、最后,定义了内部马尔可夫决策过程的状态转移函数表示为:

16、

17、其中,为内部马尔可夫决策过程中智能体在第t-1个时间步的类别预测动作,表示内部马尔可夫决策过程中智能体观测到的第t个时间步时状态;

18、定义内部马尔可夫决策过程中智能体为内部智能体;

19、步骤2.4,定制内部马尔可夫决策过程的动作设计和奖励的设计;

20、动作设计为:在内部马尔可夫决策过程中,内部智能体根据观测到的当前时间步状态,采取类别预测动作,对样本属于未知类和已知类的概率进行预测,表示为:

21、

22、其中,apn(·)为动作策略网络,由全连接层构成。

23、奖励设计为:

24、

25、其中,c为已知类数量,yc为标签,为内部马尔可夫决策过程中第t个时间步中内部智能体对当前样本属于第c个类别的类别预测,λ为权衡系数,用于调整奖励的数值大小。

26、进一步的,步骤2中通过智能体与定制的强化学习环境的反馈交互过程学习最优的开放集识别策略,具体为:重复内部智能体在内部马尔可夫决策过程的交互反馈的过程,直到达到预定义的交互次数,得到内部智能体和定制强化学习环境的内部马尔可夫决策过程交互轨迹;基于内部马尔可夫决策过程交互轨迹计算策略梯度损失和价值函数损失对内部马尔可夫决策过程的开放集识别策略进行优化;

27、所述内部马尔可夫决策过程的策略梯度损失函数表达为:

28、

29、其中,

30、表示内部状态si在时间步t的分布,γ为折扣系数,为参数化的策略网络,该网络接收si作为输入,并根据学习到的策略输出当前状态下具有最大预期回报的类别预测动ai,为优势函数,用于评估当前策略网络在给定状态si下输出的动作,表示本文档来自技高网...

【技术保护点】

1.一种高光谱开放集领域泛化方法,其特征在于,包括如下步骤:

2.根据权利要求1所述一种高光谱开放集领域泛化方法,其特征在于,步骤2中将开放集识别任务建模为内部马尔可夫决策过程,并为开放集识别任务定制强化学习环境,所述强化学习环境包括内部马尔可夫决策过程的状态转移函数、动作和奖励;具体包括:

3.根据权利要求2所述一种高光谱开放集领域泛化方法,其特征在于,步骤2中通过智能体与定制的强化学习环境的反馈交互过程学习最优的开放集识别策略,具体为:重复内部智能体在内部马尔可夫决策过程的交互反馈的过程,直到达到预定义的交互次数,得到内部智能体和定制强化学习环境的内部马尔可夫决策过程交互轨迹;基于内部马尔可夫决策过程交互轨迹计算策略梯度损失和价值函数损失对内部马尔可夫决策过程的开放集识别策略进行优化;

4.根据权利要求1所述一种高光谱开放集领域泛化方法,其特征在于,步骤3中将跨任务共享知识归纳任务建模为外部马尔可夫决策过程,并为该任务定制强化学习环境,所述强化学习环境包括外部马尔可夫决策过程的状态、状态转移函数、动作和奖励;具体包括;

5.根据权利要求1所述一种高光谱开放集领域泛化方法,其特征在于,所述动作是指:基于Mamba的记忆策略模块,在每个时间步长中将外部马尔可夫决策过程中外部智能体的当前状态作为Mamba的记忆策略模块的输入,输出当前时间步的跨任务知识归纳动作。

6.根据权利要求5所述一种高光谱开放集领域泛化方法,其特征在于,考虑如下的连续时间状态空间模型:

7.根据权利要求6所述一种高光谱开放集领域泛化方法,其特征在于,在获得B、C and△时采用了选择机制,根据输入的变化动态参数化的:

8.根据权利要求4所述一种高光谱开放集领域泛化方法,其特征在于,外部马尔可夫决策过程的奖励为不变风险奖励表示为:

9.根据权利要求8所述一种高光谱开放集领域泛化方法,其特征在于,利用奖励驱动外部智能体从不同的开放集识别任务中学习最优的跨任务共享知识归纳策略,具体为:

10.根据权利要求9所述一种高光谱开放集领域泛化方法,其特征在于,外部马尔可夫决策过程的价值函数损失表示为:

...

【技术特征摘要】

1.一种高光谱开放集领域泛化方法,其特征在于,包括如下步骤:

2.根据权利要求1所述一种高光谱开放集领域泛化方法,其特征在于,步骤2中将开放集识别任务建模为内部马尔可夫决策过程,并为开放集识别任务定制强化学习环境,所述强化学习环境包括内部马尔可夫决策过程的状态转移函数、动作和奖励;具体包括:

3.根据权利要求2所述一种高光谱开放集领域泛化方法,其特征在于,步骤2中通过智能体与定制的强化学习环境的反馈交互过程学习最优的开放集识别策略,具体为:重复内部智能体在内部马尔可夫决策过程的交互反馈的过程,直到达到预定义的交互次数,得到内部智能体和定制强化学习环境的内部马尔可夫决策过程交互轨迹;基于内部马尔可夫决策过程交互轨迹计算策略梯度损失和价值函数损失对内部马尔可夫决策过程的开放集识别策略进行优化;

4.根据权利要求1所述一种高光谱开放集领域泛化方法,其特征在于,步骤3中将跨任务共享知识归纳任务建模为外部马尔可夫决策过程,并为该任务定制强化学习环境,所述强化学习环境包括外部马尔可夫决策过程的状态、状态转移函数...

【专利技术属性】
技术研发人员:程玉虎张威王雪松
申请(专利权)人:中国矿业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1