System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 分子生成模型的训练方法、装置、设备及存储介质制造方法及图纸_技高网

分子生成模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号:41766583 阅读:2 留言:0更新日期:2024-06-21 21:44
本申请公开了一种分子生成模型的训练方法、装置、设备及存储介质,涉及量子化学领域。所述方法包括:获取分子生成模型的不完整标记数据;对于任意一个样本分子,若样本分子在不完整标记数据中对应的分子属性标记数据是不完整的,则根据样本分子的分子属性预测数据和分子属性标记数据,得到样本分子的分子属性标签数据;基于样本分子的分子属性标签数据,对分子生成模型进行训练,得到完成训练的分子生成模型,完成训练的分子生成模型用于生成具有目标属性的分子数据。通过采用具有更多属性的不完整标记数据对分子生成模型进行训练,能够提升模型生成的分子数据的多样性。

【技术实现步骤摘要】

本申请实施例涉及量子化学领域,特别涉及一种分子生成模型的训练方法、装置、设备及存储介质


技术介绍

1、在量子化学领域,通过分子生成模型来生成新分子,能够较大程度地降低新分子的生成成本。

2、相关技术中,通常采用完整标记数据来训练分子生成模型,使得训练完成的分子生成模型中可以用于生成与完整标记数据中的分子的属性相关的新分子。完整标记数据是对于其中任意一个分子来说,针对其中的任意一项属性均存在标记属性值。

3、然而,完整标记数据中的分子的属性种类相对较少,根据该完整标记数据所训练出来的分子生成模型可以产生的新分子所具备的属性也较少,生成的新分子的多样性较低。


技术实现思路

1、本申请实施例提供了一种分子生成模型的训练方法、装置、设备及存储介质。所述技术方案如下:

2、根据本申请实施例的一个方面,提供了一种分子生成模型的训练方法,所述方法包括:

3、获取所述分子生成模型的不完整标记数据,所述不完整标记数据中包括n条分子属性标记数据,每一条分子属性标记数据包括一个分子针对m项属性的标记属性值,且所述n条分子属性标记数据中存在至少一条不完整的分子属性标记数据,所述不完整的分子属性标记数据所包括的m项属性的标记属性值中存在至少一项属性的标记属性值缺失,n、m均为正整数;

4、对于任意一个样本分子,若所述样本分子在所述不完整标记数据中对应的分子属性标记数据是不完整的,则根据所述样本分子的分子属性预测数据和分子属性标记数据,得到所述样本分子的分子属性标签数据;其中,所述样本分子的分子属性预测数据包括:预测得到的所述样本分子针对至少一项属性的预测属性值;

5、基于所述样本分子的分子属性标签数据,对所述分子生成模型进行训练,得到完成训练的分子生成模型,所述完成训练的分子生成模型用于生成具有目标属性的分子数据。

6、根据本申请实施例的一个方面,提供了一种分子生成模型的训练装置,所述装置包括:

7、数据获取模块,用于获取所述分子生成模型的不完整标记数据,所述不完整标记数据中包括n条分子属性标记数据,每一条分子属性标记数据包括一个分子针对m项属性的标记属性值,且所述n条分子属性标记数据中存在至少一条不完整的分子属性标记数据,所述不完整的分子属性标记数据所包括的m项属性的标记属性值中存在至少一项属性的标记属性值缺失,n、m均为正整数;

8、标签获取模块,用于对于任意一个样本分子,若所述样本分子在所述不完整标记数据中对应的分子属性标记数据是不完整的,则根据所述样本分子的分子属性预测数据和分子属性标记数据,得到所述样本分子的分子属性标签数据;其中,所述样本分子的分子属性预测数据包括:预测得到的所述样本分子针对至少一项属性的预测属性值;

9、模型训练模块,用于基于所述样本分子的分子属性标签数据,对所述分子生成模型进行训练,得到完成训练的分子生成模型,所述完成训练的分子生成模型用于生成具有目标属性的分子数据。

10、根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述方法。

11、根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述方法。

12、根据本申请实施例的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述方法。

13、本申请实施例提供的技术方案可以包括如下有益效果:

14、通过使用不完整标记数据来训练分子生成模型,能够使得样本分子具有的属性更加丰富,并不局限于完整标记数据中的指定的几项分子属性,不完整标记数据中可以包括多个完整标记数据,因此通过不完整标记数据能够丰富样本分子的分子属性种类,进一步提升了分子生成模型的输出结果的多样性。

15、另外,由于不完整标记数据中对于m项属性中的标记属性值存在缺失,通过获取样本分子对应的分子属性预测数据,来填补不完整标记数据中的数据空缺,有利于提升训练样本的完整性,使得后续的训练过程更加流畅,有利于提升分子生成模型的训练精度。

16、当然,与相关技术中仅采用完整标记数据对分子生成模型进行训练的训练方式不同,本申请实施例提供的技术方案,不完整标记数据也可以用于训练分子生成模型,因此也同样丰富了分子生成模型的训练方法。

本文档来自技高网...

【技术保护点】

1.一种分子生成模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述样本分子的分子属性预测数据和分子属性标记数据,得到所述样本分子的分子属性标签数据,包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述获取所述分子生成模型的不完整标记数据,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述样本分子的分子属性标签数据,对所述分子生成模型进行训练,得到完成训练的分子生成模型,包括:

6.根据权利要求5所述的方法,其特征在于,所述损失函数值包括回归损失和变分编码损失,所述变分编码损失包括第一损失、第二损失、第三损失和第四损失;

7.根据权利要求6所述的方法,其特征在于,在所述样本分子的分子属性预测数据随着所述分子生成模型的训练而不断发生改变的情况下,所述分子属性标签数据的协方差矩阵和均值也是不断更新的。

8.根据权利要求5所述的方法,其特征在于,所述分子生成模型包括第一生成网络和第二生成网络;

9.根据权利要求1所述的方法,其特征在于,所述样本分子的分子属性预测数据由分子属性预测模型得到,所述方法还包括:

10.根据权利要求9所述的方法,其特征在于,所述第二神经网络模型包括主干网络和全连接网络;

11.一种分子生成模型的训练装置,其特征在于,所述装置包括:

12.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上述权利要求1至10任一项所述的方法。

13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述权利要求1至10任一项所述的方法。

14.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现如权利要求1至10任一项所述的方法。

...

【技术特征摘要】

1.一种分子生成模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述样本分子的分子属性预测数据和分子属性标记数据,得到所述样本分子的分子属性标签数据,包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述获取所述分子生成模型的不完整标记数据,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述样本分子的分子属性标签数据,对所述分子生成模型进行训练,得到完成训练的分子生成模型,包括:

6.根据权利要求5所述的方法,其特征在于,所述损失函数值包括回归损失和变分编码损失,所述变分编码损失包括第一损失、第二损失、第三损失和第四损失;

7.根据权利要求6所述的方法,其特征在于,在所述样本分子的分子属性预测数据随着所述分子生成模型的训练而不断发生改变的情况下,所述分子属性标签数据的协方差矩阵和均值也是不断更新的。

8.根据权利要求5所述的方法,其特征在于...

【专利技术属性】
技术研发人员:赖炫尧裘捷中张胜誉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1