一种脉冲星搜索模型的训练方法、应用方法、装置及设备制造方法及图纸

技术编号:35100532 阅读:13 留言:0更新日期:2022-10-01 17:07
本申请实施例公开了一种脉冲星搜索模型的训练方法、应用方法、装置及设备,相关实施例可应用于地图、智能交通、人工智能等领域,用于提高模型泛化能力和预测精度。本申请实施例方法包括:通过脉冲星搜索模型输出正样本类别预测值以及负样本类别预测值,基于正样本类别预测值、负样本类别预测值以及样本类别标签计算分类边缘损失值,基于分类边缘损失值对脉冲星搜索模型进行参数调整,得到中间脉冲星搜索模型,基于边缘采样策略,采样目标脉冲星训练样本,对每个目标脉冲星训练样本进行标注,并将标注后的每个目标脉冲星训练样本添加至训练样本数据集中,得到脉冲星扩展训练样本数据集,迭代重复优化直至满足收敛条件,得到目标脉冲星搜索模型。脉冲星搜索模型。脉冲星搜索模型。

【技术实现步骤摘要】
一种脉冲星搜索模型的训练方法、应用方法、装置及设备


[0001]本申请实施例涉及脉冲星数据处理
,尤其涉及一种脉冲星搜索模型的训练方法、应用方法、装置及设备。

技术介绍

[0002]“中国天眼”即500米口径球面射电望远镜(Five

hundred

meter Aperture Spherical Radio Telescope,简称FAST),是当今世界最大、最灵敏的单口径射电望远镜。其主要科学问题之一是从浩瀚星海中“捞”脉冲星。FAST以漂移扫描方式进行巡天,接收几亿甚至几十亿光年之外的微弱信号,通过信号预处理每天可产生千万级的脉冲星候选体,并从该海量数据中搜寻脉冲星信号。
[0003]随着脉冲星搜索的进行,会产生海量的不带标注信息的脉冲星候选体信号。此外,PICS的公开脉冲星数据集中包含了多个已经核实的脉冲星数据以及多个噪声数据。
[0004]但是,由于数据划分策略、对脉冲星搜索的设备存在差异等原因,造成公开的脉冲星数据集与FAST巡天数据之间存在一定的数据分布差异,使得目前对脉冲星检测的技术没有考虑到不同数据特征空间之间会存在不对齐的情况,以及在有限或数据量较少的情形下进行建模,导致构建的脉冲星搜索模型的泛化能力降低以及多样性不足,从而导致脉冲星搜索模型的预测精度降低。

技术实现思路

[0005]本申请实施例提供了一种脉冲星搜索模型的训练方法、应用方法、装置及设备,用于通过分类边缘损失值对脉冲星搜索模型进行参数调整,加强脉冲星搜索模型的分类能力的同时,结合迁移学习的域适应技术,基于边缘采样策略筛选出目标脉冲星训练样本,进行标注并添加至训练样本数据集中,能够避免训练样本数据集的正负样本不平衡,实现对训练样本数据集的扩展,从而使得脉冲星搜索模型具有更强的分辨能力,提高脉冲星搜索模型模型的预测精度,以挖掘出更多的脉冲星数据,还能够大大降低手工标注数据的时间成本和人力成本。
[0006]本申请实施例一方面提供了一种脉冲星搜索模型的训练方法,包括:
[0007]将脉冲星训练样本数据集输入至脉冲星搜索模型,通过脉冲星搜索模型输出脉冲星训练样本数据集中的每个脉冲星训练样本对应的正样本类别预测值以及负样本类别预测值,其中,脉冲星训练样本数据集来源于携带有样本类别标签的第一目标域数据以及源域数据;
[0008]基于正样本类别预测值、负样本类别预测值以及样本类别标签进行损失计算,得到分类边缘损失值;
[0009]基于分类边缘损失值对脉冲星搜索模型进行参数调整,得到中间脉冲星搜索模型;
[0010]基于主动域适应的边缘采样策略,从未标注的第二目标域数据中采样目标脉冲星
训练样本,其中,目标脉冲星训练样本对应的正样本类别预测值以及负样本类别预测值之间的差值小于采样阈值;
[0011]对每个目标脉冲星训练样本进行标注,并将标注后的每个目标脉冲星训练样本添加至训练样本数据集中,得到脉冲星扩展训练样本数据集;
[0012]迭代重复执行将脉冲星扩展训练样本数据集输入至中间脉冲星搜索模型中、损失计算、参数调整、采样目标脉冲星训练样本以及获取脉冲星扩展训练样本数据集的步骤,直至满足收敛条件,得到目标脉冲星搜索模型。
[0013]本申请另一方面提供了一种脉冲星搜索模型的应用方法,包括:
[0014]获取待搜索脉冲星数据;
[0015]将待搜索脉冲星数据输入至目标脉冲星搜索模型中,通过目标脉冲星搜索模型输出待搜索脉冲星数据对应的正样本类别目标预测值以及负样本类别目标预测值;
[0016]若正样本类别目标预测值大于负样本类别目标预测值,则将待搜索脉冲星数据作为待审核正样本目标数据;
[0017]将待审核正样本目标数据发送至目标审核部门进行审核,并接收目标审核部门反馈的审核结果;
[0018]若审核结果为正样本类别,则确定待搜索脉冲星数据为新发现目标脉冲星数据。
[0019]本申请另一方面提供了一种脉冲星搜索模型的训练装置,包括:
[0020]获取单元,用于将脉冲星训练样本数据集输入至脉冲星搜索模型,通过脉冲星搜索模型输出脉冲星训练样本数据集中的每个脉冲星训练样本对应的正样本类别预测值以及负样本类别预测值,其中,脉冲星训练样本数据集来源于携带有样本类别标签的第一目标域数据以及源域数据;
[0021]处理单元,用于基于正样本类别预测值、负样本类别预测值以及样本类别标签进行损失计算,得到分类边缘损失值;
[0022]处理单元,还用于基于分类边缘损失值对脉冲星搜索模型进行参数调整,得到中间脉冲星搜索模型;
[0023]处理单元,还用于基于主动域适应的边缘采样策略,从未标注的第二目标域数据中采样目标脉冲星训练样本;
[0024]处理单元,还用于对每个目标脉冲星训练样本进行标注,并将标注后的每个目标脉冲星训练样本添加至训练样本数据集中,得到脉冲星扩展训练样本数据集;
[0025]确定单元,用于迭代重复执行将脉冲星扩展训练样本数据集输入至中间脉冲星搜索模型中、损失计算、参数调整、采样目标脉冲星训练样本以及获取脉冲星扩展训练样本数据集的步骤,直至满足收敛条件,得到目标脉冲星搜索模型。
[0026]在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体可以用于:
[0027]将第二目标域数据输入至中间脉冲星搜索模型中,通过中间脉冲星搜索模型输出第二目标域数据中的每个候选脉冲星样本对应的正样本类别候选预测值以及负样本类别候选预测值;
[0028]基于主动域适应的边缘采样策略、正样本类别候选预测值以及负样本类别候选预测值,从第二目标域数据的候选脉冲星样本中采样目标脉冲星训练样本。
[0029]在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体可以用于:
[0030]对正样本类别候选预测值进行边缘归一化处理,得到边缘正样本评分;
[0031]对负样本类别候选预测值进行边缘归一化处理,得到边缘负样本评分;
[0032]基于边缘正样本评分以及边缘负样本评分,从第二目标域数据的候选脉冲星样本中采样目标脉冲星训练样本。
[0033]在一种可能的设计中,本申请实施例另一方面的一种实现方式中,
[0034]处理单元,还用于基于正样本类别候选预测值以及负样本类别候选预测值计算候选分类边缘损失值;
[0035]处理单元具体可以用于:
[0036]基于边缘正样本评分以及边缘负样本评分,计算边缘采样评分;
[0037]基于边缘采样评分的梯度方向以及候选分类边缘损失值的梯度方向,从第二目标域数据的候选脉冲星样本中采样目标脉冲星训练样本。
[0038]在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体可以用于:
[0039]计算候选分类边缘损失值的梯度方向与边缘采样评分的梯度方向之间的相似度,得到相似得分;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种脉冲星搜索模型的训练方法,其特征在于,包括:将脉冲星训练样本数据集输入至脉冲星搜索模型,通过所述脉冲星搜索模型输出所述脉冲星训练样本数据集中的每个脉冲星训练样本对应的正样本类别预测值以及负样本类别预测值,其中,所述脉冲星训练样本数据集来源于携带有样本类别标签的第一目标域数据以及源域数据;基于所述正样本类别预测值、所述负样本类别预测值以及所述样本类别标签进行损失计算,得到分类边缘损失值;基于所述分类边缘损失值对所述脉冲星搜索模型进行参数调整,得到中间脉冲星搜索模型;基于主动域适应的边缘采样策略,从未标注的第二目标域数据中采样目标脉冲星训练样本,其中,所述目标脉冲星训练样本对应的正样本类别预测值以及负样本类别预测值之间的差值小于采样阈值;对每个所述目标脉冲星训练样本进行标注,并将标注后的每个目标脉冲星训练样本添加至所述训练样本数据集中,得到脉冲星扩展训练样本数据集;迭代重复执行将所述脉冲星扩展训练样本数据集输入至所述中间脉冲星搜索模型中、所述损失计算、所述参数调整、所述采样目标脉冲星训练样本以及获取所述脉冲星扩展训练样本数据集的步骤,直至满足收敛条件,得到目标脉冲星搜索模型。2.根据权利要求1所述的方法,其特征在于,所述基于主动域适应的边缘采样策略,从未标注的第二目标域数据中采样目标脉冲星训练样本,包括:将所述第二目标域数据输入至所述中间脉冲星搜索模型中,通过所述中间脉冲星搜索模型输出所述第二目标域数据中的每个候选脉冲星样本对应的正样本类别候选预测值以及负样本类别候选预测值;基于所述主动域适应的边缘采样策略、所述正样本类别候选预测值以及所述负样本类别候选预测值,从所述第二目标域数据的候选脉冲星样本中采样所述目标脉冲星训练样本。3.根据权利要求2所述的方法,其特征在于,所述基于所述主动域适应的边缘采样策略、所述正样本类别候选预测值以及所述负样本类别候选预测值,从所述第二目标域数据的候选脉冲星样本中采样所述目标脉冲星训练样本,包括:对所述正样本类别候选预测值进行边缘归一化处理,得到边缘正样本评分;对所述负样本类别候选预测值进行边缘归一化处理,得到边缘负样本评分;基于所述边缘正样本评分以及所述边缘负样本评分,从所述第二目标域数据的候选脉冲星样本中采样所述目标脉冲星训练样本。4.根据权利要求3所述的方法,其特征在于,所述基于所述边缘正样本评分以及所述边缘负样本评分,从所述第二目标域数据的候选脉冲星样本中采样所述目标脉冲星训练样本之前,所述方法还包括:基于所述正样本类别候选预测值以及所述负样本类别候选预测值计算候选分类边缘损失值;所述基于所述边缘采样评分,从所述第二目标域数据的候选脉冲星样本中采样所述目标脉冲星训练样本,包括:
基于所述边缘正样本评分以及所述边缘负样本评分,计算边缘采样评分;基于所述边缘采样评分的梯度方向以及所述候选分类边缘损失值的梯度方向,从所述第二目标域数据的候选脉冲星样本中采样所述目标脉冲星训练样本。5.根据权利要求4所述的方法,其特征在于,所述基于所述边缘采样评分的梯度方向以及所述候选分类边缘损失值的梯度方向,从所述第二目标域数据的候选脉冲星样本中采样所述目标脉冲星训练样本,包括:计算所述候选分类边缘损失值的梯度方向与所述边缘采样评分的梯度方向之间的相似度,得到相似得分;基于所述边缘采样评分以及所述相似得分,计算每个所述候选脉冲星样本的边缘方向修正评分;从所述第二目标域数据中采样所述边缘方向修正评分满足采样阈值范围的候选脉冲星样本,作为所述目标脉冲星训练样本。6.根据权利要求1所述的方法,其特征在于,所述对每个所述目标脉冲星训练样本进行标注,并将标注后的每个目标脉冲星训练样本添加至所述训练样本数据集中,得到脉冲星扩展训练样本数据集,包括:基于正负样本比例,对每个所述目标脉冲星训练样本进行标注,得到标注后的目标脉冲星训练正样本集以及目标脉冲星训练负样本集;将标注后的所述目标脉冲星训练正样本集合以及所述目标脉冲星训练负样本集合,添加至所述训练样...

【专利技术属性】
技术研发人员:李昱希谢鸣程小峰丁玫菲王亚彪罗泽坤甘振业孙众毅
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1