System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及跨模态检索,特别涉及一种多粒度对齐的文本分子检索模型的训练方法、一种多粒度对齐的文本分子检索方法、一种多粒度对齐的文本分子检索模型的训练装置和一种多粒度对齐的文本分子检索装置。
技术介绍
1、相关技术中,现有的文本分子跨模态检索大多是将分子表示为一维的序列形式、二维的分子图形式或者三维的分子构象形式;其中,在一维分子建模方面,smiles技术广泛用于表示分子序列,并衍生出许多预训练模型,如kv-plm、molt5、molxpt和text+chem t5等;而二维拓扑结构则是将原子和化学键分别视为节点和边,例如,momu和moleculestm等研究通过跨模态对比学习将文本和分子图在共享的语义空间中对齐;此外,aman采用对抗学习有效地对齐这两种模态;在这些方法的基础上,一些方法进一步结合额外的模态辅助文本和分子之间的对齐,如molfm结合了知识图谱,git-mol结合了图像模态;但是上述方法均是仅关注全局分子信息,常常忽视在子结构和原子层面的细粒度信息,而特定原子通过化学键连接组合成子结构(如羟基等),多个子结构之间连接构成分子,分子的性质与其所包括的原子和子结构信息相关,忽略分子内部的原子和子结构信息会影响检索结果的准确性。
技术实现思路
1、本专利技术旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种多粒度对齐的文本分子检索模型的训练方法,通过构建层次化的分子异构图获取原子、子结构和分子的表示,并通过最优传输技术聚合与同一子结
2、本专利技术的第二个目的在于提出一种多粒度对齐的文本分子检索方法。
3、本专利技术的第三个目的在于提出一种多粒度对齐的文本分子检索模型的训练装置。
4、本专利技术的第四个目的在于提出一种多粒度对齐的文本分子检索装置。
5、为达到上述目的,本专利技术第一方面实施例提出了一种多粒度对齐的文本分子检索模型的训练方法,该方法包括以下步骤:获取分子异构图和每个分子异构图对应的文本描述,其中,所述分子异构图包括原子节点、子结构节点和分子节点,分子节点与全部子结构节点相连,每个子结构节点与其包括的原子节点相连;构建文本分子检索模型,其中,所述文本分子检索模型包括文本编码器和分子编码器;将所述每个分子异构图对应的文本描述输入到所述文本编码器进行编码,以得到词元表示和句子表示;将所述分子异构图输入到所述分子编码器进行编码,以得到原子表示、子结构表示和分子表示;将所述词元表示和所述子结构表示之间的对齐关系建模成最优传输问题,并聚合与每个子结构表示对齐的词元表示,以得到多词元表示;采用对比学习损失函数优化词元和原子之间的对齐、多词元和子结构之间的对齐、句子和分子之间的对齐,以得到训练好的文本分子检索模型。
6、根据本专利技术实施例的多粒度对齐的文本分子检索模型的训练方法,首先,获取分子异构图和每个分子异构图对应的文本描述,其中,分子异构图包括原子节点、子结构节点和分子节点,分子节点与全部子结构节点相连,每个子结构节点与其包括的原子节点相连;构建文本分子检索模型,其中,文本分子检索模型包括文本编码器和分子编码器;将每个分子异构图对应的文本描述输入到文本编码器进行编码,以得到词元表示和句子表示;将分子异构图输入到分子编码器进行编码,以得到原子表示、子结构表示和分子表示;将词元表示和子结构表示之间的对齐关系建模成最优传输问题,并聚合与每个子结构表示对齐的词元表示,以得到多词元表示;采用对比学习损失函数优化词元和原子之间的对齐、多词元和子结构之间的对齐、句子和分子之间的对齐,以得到训练好的文本分子检索模型;由此,通过构建层次化的分子异构图获取原子、子结构和分子的表示,并通过最优传输技术聚合与同一子结构对齐的多个词元的表示,以及通过对比学习,在词元-原子、多词元-子结构和句子-分子粒度对齐文本和分子模态,从而提高检索结果的准确性。
7、另外,根据本专利技术上述实施例提出的多粒度对齐的文本分子检索模型的训练方法还可以具有如下附加的技术特征:
8、可选地,将所述每个分子异构图对应的文本描述输入到所述文本编码器进行编码,以得到词元表示和句子表示,包括:在每个分子异构图对应的本文描述开头加上标记以学习句子表示,使用所述文本编码器对所述文本描述进行编码,以得到词元表示和句子表示。
9、可选地,将所述词元表示和所述子结构表示之间的对齐关系建模成最优传输问题,并聚合与每个子结构表示对齐的词元表示,以得到多词元表示,包括:将所述词元表示和所述子结构表示作为两个独立的分布,并将余弦距离作为两个表示之间的传输代价;采用最优传输的非精确邻近点方法获得传输代价最小的最优传输方案;根据所述传输代价最小的最优传输方案得到所述词元表示和所述子结构表示之间的对齐关系,以便聚合与每个子结构表示对齐的词元表示,以得到多词元表示。
10、可选地,构建三个粒度的对比学习损失函数,分别在词元-原子级别、多词元-子结构级别和句子-分子级别通过对比学习拉近两个模态,其中,对比学习损失函数采用分类交叉熵损失函数,以最大化匹配的文本-分子对之间的相似度分数,以及最小化不匹配的文本-分子对之间的分数。
11、为达到上述目的,本专利技术第二方面实施例提出了一种多粒度对齐的文本分子检索方法,包括以下步骤:获取待检索第一数据;将所述待检索第一数据输入到训练好的文本分子检索模型,以加权计算所述待检索第一数据和第二数据两种模态在词元-原子级别、多词元-子结构级别和句子-分子级别之间的相似度,以得到所述待检索第一数据对应相似度最高的第二数据,以得到对应的检索结果,其中,所述训练好的文本分子检索模型采用如第一方面任一项所述的训练方法进行训练。
12、为达到上述目的,本专利技术第三方面实施例提出了一种多粒度对齐的文本分子检索模型的训练装置,包括第一获取模块,用于获取分子异构图和每个分子异构图对应的文本描述,其中,所述分子异构图包括原子节点、子结构节点和分子节点,分子节点与全部子结构节点相连,每个子结构节点与其包括的原子节点相连;模型构建模块,用于构建文本分子检索模型,其中,所述文本分子检索模型包括文本编码器和分子编码器;第一编码模块,用于将所述每个分子异构图对应的文本描述输入到所述文本编码器进行编码,以得到词元表示和句子表示;第二编码模块,用于将所述分子异构图输入到所述分子编码器进行编码,以得到原子表示、子结构表示和分子表示;聚合处理模块,用于所述词元表示和所述子结构表示之间的对齐关系建模成最优传输问题,并聚合与每个子结构表示对齐的词元表示,以得到多词元表示;对齐优化模块,用于采用对比学习损失函数优化词元和原子之间的对齐、多词元和子结构之间的对齐、句子和分子之间的对齐,以得到训练好的文本分子检索模型。
13、另外,根据本申请上述实施例提出的多粒度对齐的文本分子检索模型的训练装置还可以具有如下附加的技本文档来自技高网...
【技术保护点】
1.一种多粒度对齐的文本分子检索模型的训练方法,其特征在于,包括以下步骤:
2.如权利要求1所述的多粒度对齐的文本分子检索模型的训练方法,其特征在于,将所述每个分子异构图对应的文本描述输入到所述文本编码器进行编码,以得到词元表示和句子表示,包括:
3.如权利要求1所述的多粒度对齐的文本分子检索模型的训练方法,其特征在于,将所述词元表示和所述子结构表示之间的对齐关系建模成最优传输问题,并聚合与每个子结构表示对齐的词元表示,以得到多词元表示,包括:
4.如权利要求1所述的多粒度对齐的文本分子检索模型的训练方法,其特征在于,构建三个粒度的对比学习损失函数,分别在词元-原子级别、多词元-子结构级别和句子-分子级别通过对比学习拉近两个模态,其中,对比学习损失函数采用分类交叉熵损失函数,以最大化匹配的文本-分子对之间的相似度分数,以及最小化不匹配的文本-分子对之间的分数。
5.一种多粒度对齐的文本分子检索方法,其特征在于,包括以下步骤:
6.一种多粒度对齐的文本分子检索模型的训练装置,其特征在于,包括:
7.如权利要求6
8.如权利要求6所述的多粒度对齐的文本分子检索模型的训练装置,其特征在于,所述聚合处理模块还用于,
9.如权利要求6所述的多粒度对齐的文本分子检索模型的训练装置,其特征在于,构建三个粒度的对比学习损失函数,分别在词元-原子级别、多词元-子结构级别和句子-分子级别通过对比学习拉近两个模态,其中,对比学习损失函数采用分类交叉熵损失函数,以最大化匹配的文本-分子对之间的相似度分数,以及最小化不匹配的文本-分子对之间的分数。
10.一种多粒度对齐的文本分子检索装置,其特征在于,包括:
...【技术特征摘要】
1.一种多粒度对齐的文本分子检索模型的训练方法,其特征在于,包括以下步骤:
2.如权利要求1所述的多粒度对齐的文本分子检索模型的训练方法,其特征在于,将所述每个分子异构图对应的文本描述输入到所述文本编码器进行编码,以得到词元表示和句子表示,包括:
3.如权利要求1所述的多粒度对齐的文本分子检索模型的训练方法,其特征在于,将所述词元表示和所述子结构表示之间的对齐关系建模成最优传输问题,并聚合与每个子结构表示对齐的词元表示,以得到多词元表示,包括:
4.如权利要求1所述的多粒度对齐的文本分子检索模型的训练方法,其特征在于,构建三个粒度的对比学习损失函数,分别在词元-原子级别、多词元-子结构级别和句子-分子级别通过对比学习拉近两个模态,其中,对比学习损失函数采用分类交叉熵损失函数,以最大化匹配的文本-分子对之间的相似度分数,以及最小化不匹配的文本-分子对之间...
【专利技术属性】
技术研发人员:苏劲松,闵子君,刘冰帅,宋佳,张亮,
申请(专利权)人:厦门大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。