System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及计算机,尤其涉及一种基于分布式多智能体强化学习的对象分类方法及装置。
技术介绍
1、随着人工智能的发展,通过训练神经网络模型得到对象分类模型,实现对对象进行分类被广泛应用。比如:通过对象分类模型对设备进行故障分类、通过对象分类模型对文本进行分类等。传统的对象分类模型的训练方法中,需要使用不同分类的训练数据对神经网络模型进行训练。然而,在一些场景中,不同分类的训练数据通常是不均衡的,即,某些分类的训练数据较多,另一些分类的训练数据较少,此时,训练得到的对象分类模型的分类性能较低。比如:在对设备进行故障分类的场景中,一般故障类别的训练数据的数量较少,而正常类别的训练数据的数量较多。
2、为了提高在训练数据不均衡的情况下模型分类的性能,提出了一种基于智能体强化学习的对象分类方法。传统的基于智能体强化学习的对象分类方法包括:获取不平衡的训练集;使用该训练集构建数据环境;基于深度q网络(deep q-leaning network,dqn)算法,通过数据环境与智能体之间的交互训练强化学习模型,得到对象分类模型。
3、然而,基于智能体强化学习的对象分类方法虽然能够克服训练集数据不均衡的问题,但是,通过单一的智能体训练得到的对象分类模型的分类能力有限,可能无法达到期望的分类性能。
技术实现思路
1、有鉴于此,本公开提出了一种基于分布式多智能体强化学习的对象分类方法及装置,可以实现不平衡数据下更有效的识别,其中每个智能体负责处理特定的训练子集,每个样本的分类结果由
2、根据本公开的一方面,提供了一种基于分布式多智能体强化学习的对象分类方法,该方法包括:
3、获取训练集,所述训练集包括多组第一训练数据和多组第二训练数据;其中,所述第一训练数据的数量小于所述第二训练数据的数量;每组第一训练数据包括第一对象分类对应的第一样本信号和所述第一对象分类的第一分类标签;每组第二训练数据包括第二对象分类对应的第二样本信号和所述第二对象分类的第二分类标签;
4、对所述训练集进行划分得到至少两个训练子集;其中,每个训练子集包括各个第一训练数据以及部分第二训练数据,不同训练子集中的第二训练数据不同;
5、对于每个训练子集,通过所述训练子集对应的智能体对所述训练子集进行强化学习,得到所述智能体的强化学习模型在本轮训练后得到的局部模型参数;不同强化学习模型在训练前的模型参数均为全局模型参数,不同训练子集对应的智能体不同;
6、基于各个强化学习模型对应的局部模型参数,确定本轮训练得到的全局模型参数,所述本轮训练得到的全局模型参数用于在下一轮训练之前为各个强化学习模型的模型参数赋值;
7、在训练轮次满足预设条件的情况下,基于最后一轮训练得到的全局模型参数确定目标强化学习模型,以基于所述目标强化学习模型对输入的待分类信号进行对象分类,得到分类结果。
8、在一种可能的实现方式中,所述第二训练数据为多模态数据;相应地,所述对所述训练集进行划分得到至少两个训练子集,包括:
9、按照所述第二训练数据的模态对所述第二训练数据进行划分,得到每种模态对应的第二训练数据;
10、将每种模态对应的第二训练数据与各组第一训练数据合并,得到每种模态对应的训练子集。
11、在一种可能的实现方式中,所述多模态数据包括所述第二样本信号的生成对象在不同工况下生成的第二样本信号,不同工况对应不同模态。
12、在一种可能的实现方式中,所述对于每个训练子集,通过所述训练子集对应的智能体对所述训练子集进行强化学习,得到所述智能体的强化学习模型在本轮训练后得到的局部模型参数,包括:
13、创建多个进程,所述进程与所述智能体一一对应;
14、通过所述多个进程并行运行对应的智能体对所述训练子集进行强化学习,得到本轮训练后得到的局部模型参数。
15、在一种可能的实现方式中,所述对于每个训练子集,通过所述训练子集对应的智能体对所述训练子集进行强化学习,得到所述智能体的强化学习模型在本轮训练后得到的局部模型参数,包括:
16、对于每个训练子集,生成所述训练子集在本轮训练中各组训练数据的训练顺序,得到数据环境;其中,不同轮次的训练对应的训练顺序不同;所述训练数据包括所述训练子集中的第一训练数据和第二训练数据;
17、通过所述数据环境按照所述训练顺序向所述训练子集对应的智能体依次返回第i组训练数据中的第i样本数据;所述智能体包括所述强化学习模型,所述强化学习模型包括深度q网络和目标网络,初始化深度q网络的网络参数和目标网络的网络参数相同;所述i为从1至n依次取值的正整数,所述n为所述训练子集中训练数据的总数;
18、通过所述深度q网络确定所述第i样本数据对应的第i分类动作;其中,所述第i分类动作指示所述第一分类标签和所述第二分类标签中的一种;
19、通过所述智能体将所述第i分类动作返回所述数据环境,以供所述数据环境根据所述第i分类动作与所述样本数据对应的分类标签确定所述第i分类动作的第i奖励,并将所述第i奖励和所述训练顺序指示的第i+1样本数据返回至所述智能体;
20、通过所述智能体中的经验池存储第i经验数据,并更新i=i+1,以触发执行所述通过所述数据环境按照所述训练顺序向所述训练子集对应的智能体依次返回第i组训练数据中的第i样本数据的步骤及之后的步骤;所述第i经验数据包括所述第i样本数据、所述第i分类动作、所述第i奖励和所述第i+1样本数据;
21、在所述训练子集中的各组训练数据遍历完成后,从所述经验池中随机抽取k组经验数据;所述k为正整数;
22、将每组经验数据分别输入所述深度q网络和所述目标网络,以基于所述深度q网络的第一网络结果和所述目标网络的第二网络结果之间的差异,更新所述深度q网络;
23、每遍历w组经验数据,将所述深度q网络的网络参数同步至所述目标网络,直至各组经验数据遍历完成,得到本轮训练得到的深度q网络的网络参数;所述本轮训练得到的深度q网络的网络参数为所述本轮训练后得到的局部模型参数,所述w为正整数。
24、在一种可能的实现方式中,所述基于各个强化学习模型对应的局部模型参数,确定本轮训练得到的全局模型参数,包括:
25、获取本轮训练得到的各个强化学习模型对应的局部模型参数;
26、确定各个局部模型参数的平均值,得到所述本轮训练得到的全局模型参数。
27、在一种可能的实现方式中,所述获取本轮训练得到的各个强化学习模型对应的局部模型参数,包括:
28、从预先创建的共享字典中读取各个强化学习模型对应的局部模型参数,其中,所述共享字典用于存储每个强化学习模型对应的局部模型参数;
29、或者,
30、调用预先创建的远程函数获取每个进程本文档来自技高网...
【技术保护点】
1.一种基于分布式多智能体强化学习的对象分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述第二训练数据为多模态数据;相应地,所述对所述训练集进行划分得到至少两个训练子集,包括:
3.根据权利要求2所述的方法,其特征在于,所述多模态数据包括所述第二样本信号的生成对象在不同工况下生成的第二样本信号,不同工况对应不同模态。
4.根据权利要求1所述的方法,其特征在于,所述对于每个训练子集,通过所述训练子集对应的智能体对所述训练子集进行强化学习,得到所述智能体的强化学习模型在本轮训练后得到的局部模型参数,包括:
5.根据权利要求1所述的方法,其特征在于,所述对于每个训练子集,通过所述训练子集对应的智能体对所述训练子集进行强化学习,得到所述智能体的强化学习模型在本轮训练后得到的局部模型参数,包括:
6.根据权利要求1所述的方法,其特征在于,所述基于各个强化学习模型对应的局部模型参数,确定本轮训练得到的全局模型参数,包括:
7.根据权利要求6所述的方法,其特征在于,所述获取本轮训练得到的各
8.根据权利要求1至7任一所述的方法,其特征在于,所述目标强化学习模型用于对设备进行故障诊断;相应地,所述待分类信号包括设备的设备信号;所述第一对象分类包括故障信号分类,所述第一分类标签包括故障信号分类的至少一种故障分类标签;所述第二对象分类包括正常信号分类,所述第二分类标签包括正常分类标签。
9.一种基于分布式多智能体强化学习的对象分类装置,其特征在于,包括:
10.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至8中任意一项所述的方法。
...【技术特征摘要】
1.一种基于分布式多智能体强化学习的对象分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述第二训练数据为多模态数据;相应地,所述对所述训练集进行划分得到至少两个训练子集,包括:
3.根据权利要求2所述的方法,其特征在于,所述多模态数据包括所述第二样本信号的生成对象在不同工况下生成的第二样本信号,不同工况对应不同模态。
4.根据权利要求1所述的方法,其特征在于,所述对于每个训练子集,通过所述训练子集对应的智能体对所述训练子集进行强化学习,得到所述智能体的强化学习模型在本轮训练后得到的局部模型参数,包括:
5.根据权利要求1所述的方法,其特征在于,所述对于每个训练子集,通过所述训练子集对应的智能体对所述训练子集进行强化学习,得到所述智能体的强化学习模型在本轮训练后得到的局部模型参数,包括:
6....
【专利技术属性】
技术研发人员:槐青,李苗苗,董炜,叶昊,张统帅,王艺霖,季一润,袁茜,袁文迁,高岩峰,李雨,黄彬,杨敏祥,黄晓乐,谢丽芳,
申请(专利权)人:国网冀北电力有限公司电力科学研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。