System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于检索参数代理的高分子材料表征转换方法技术_技高网
当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于检索参数代理的高分子材料表征转换方法技术

技术编号:41583406 阅读:3 留言:0更新日期:2024-06-06 23:58
本发明专利技术揭示了一种基于检索参数代理的高分子材料表征转换方法,包括:定义测试数据集、大语言模型、提示工程模版、校准器、摩根指纹相似度、bge相似度;针对测试数据集中的每一个输入,遍历知识库中的每一个示例样本,计算其与输入之间的相似度;将输入送入检索参数代理从而生成检索数量;将相似度进行排序,根据上一步的检索数量,从中选取相似度最高的几个示例样本;输入和示例样本一同被嵌入提示工程模版得到完整输入;将完整输入送入大语言模型进行推理并由校准器对输出进行校准得到最终输出。本发明专利技术实现了检索参数代理的高分子材料表征转换方法在高分子材料的应用,极大地增强了材料上下文表征空间,提高表征转换的性能并减少总检索量。

【技术实现步骤摘要】

本专利技术涉及一种基于检索参数代理的高分子材料表征转换方法,属于材料和计算机领域。


技术介绍

1、高分子材料表征转换指实现smiles分子式和高分子材料描述文本之间的互相转换。这极大的缩短了高分子材料发现的流程,还提高了转换性能和数据利用率。传统的高分子材料表征转换方法是基于预训练加微调的方式,即先预训练一个在高分子材料表征领域的专业模型,然后用表征转换任务进一步微调。

2、然而,这类方法存在材料表征空间有限,耗费计算资源以及泛化性低等问题。进一步地,一种基于检索增强生成的高分子材料表征转换方法被提出,其以大语言模型为基础模型,以检索增强生成为核心技术来实现表征转换。具体的,检索增强生成为原始输入提供了一定数量的示例样本,从而实现表征转换。该方法突破了预训练加微调的范式,增强了材料表征空间,减少计算资源的同时提升了泛化性。然而,检索增强生成为不同的输入提供了相同数量的示例样本,这意味着不同的输入样本拥有类似的上下文材料表征空间。

3、智能代理是大语言模型的衍生技术,该技术驱动大语言模型根据环境自适应生成决策参数,在解决复杂问题时取得较好的性能。检索参数代理是智能代理的具体实现方式之一,其根据环境自适应生成检索参数,即示例样本的数量。因此,基于检索参数生成的高分子材料表征转换方法,能够为原始输入提供更加适应的上下文表征空间,提升了转换的精度。


技术实现思路

1、本专利技术提供了一种基于检索参数代理的高分子材料表征转换方法,其目的在于,将检索参数代理与高分子材料表征转换相结合,进一步增强材料上下文表征空间,提高表征转换的性能并减少总检索量。

2、本专利技术是通过以下技术方案实现的:

3、一种基于检索参数代理的高分子材料表征转换方法,具体包括以下步骤:

4、s100、定义测试数据集知识库大语言模型提示工程模版h(x,smi_caps),校准器q(x;regex),摩根指纹相似度morgan(x,smi),bge相似度bge(x,cap),检索参数代理agent(x;template);

5、s200、针对测试数据集中的每一个输入x,遍历知识库中的每一个样本,计算与输入x之间的相似度;

6、s300、将输入x送入检索参数代理agent(x;template)从而生成检索参数topn;

7、s400、将s200中计算得到的相似度进行排序,并从中选取相似度最高的topn个示例样本smi_caps;

8、s500、输入x和smi_caps一同嵌入提示工程模版h(x,smi_caps)得到x′;

9、s600、将输入x′送入大语言模型中进行推理并由校准器q(x;regex)对输出进行校准,最终得到输出y。

10、优选地,所述步骤s200中,若当前任务是分子生成任务,即由高分子材料描述文本生成smiles分子式,输入x表示的是高分子材料描述文本;若当前任务是分子概括任务,即由smiles分子式生成高分子材料描述文本,输入x表示的是smiels分子式。

11、优选地,所述步骤s200中当输入x表示的是smiles分子式时,步骤s200具体包括以下步骤:

12、s201、定义数组用于存放知识库中每一个示例样本的相似度;

13、s202、使用morgan(x,smi)计算摩根指纹相似度morgan_score;

14、s203、将morgan_score加入数组examples中。

15、优选地,所述步骤s200中当输入x表示的是高分子材料描述文本时,步骤s200中的以下步骤将被替换:

16、所述步骤s202的替换步骤为:s204、使用bge(x,cap)计算bge相似度bge_score;

17、所述步骤s203的替换步骤为:s205、将bge_score加入数组examples中。

18、优选地,所述步骤s202中,摩根指纹会先将smiles分子式转换问指纹向量,并使用dice相似度得到摩根指纹相似度,如下式所示:

19、

20、式中,a和b表示的是两种分子的指纹向量,|a|和|b|分别表示指纹a和b的化学片段数量,|a∩b|则表示两种指纹中共同出现的化学片段的数量,dice系数的范围是0到1,0值表示分子之间相似性很低,1则表示很高。

21、优选地,所述步骤s204中,bge是一个中英文语义向量模型,可将各种数据分子描述文本转化为向量,并使用向量之间的距离来衡量数据之间的相似度。

22、优选地,所述步骤s204中,采用经过线性变换的余弦相似度来衡量bge向量之间的相似度,如下式所示:

23、

24、式中,a和b是由bge向量模型输出的两个向量,.表示向量之间的点积,||a||和||b||分别表示向量a和b的欧式范数。

25、优选地,所述步骤s300中,检索参数代理agent(x;template)是基于大语言模型的提示工程实现的,其包括三个部分:任务描述、示例和输出指导,任务描述驱动大语言模型根据输入的smiles分子式或分子文本描述生成自适应的检索数量topn,提供了不同复杂程度的smiles分子式/分子文本描述与检索数量的示例,输出指导要求大语言模型以json格式输出。

26、优选地,所述步骤s500中,提示工程模版h(x,smi_caps)包括三个部分:任务描述、示例和输出指导。任务描述明确大模型的角色,进而详细说明其需要完成的具体任务;示例部分为大语言模型提供了具体的示例,它们是切实可行的分子描述示例,输出指导确保大语言模型的输出规范。

27、优选地,所述步骤s600中,大语言模型使用的是通义千问-7b,其在处理英文、编码、数学问题以及长序列评估方面展示了卓越的性能,校准器q(x;regex)采用基于匹配的方式对大语言模型的输出进行校准。

28、本专利技术实现了基于检索参数代理的高分子材料表征转换方法在高分子材料表征转换上的应用,进一步增强了材料上下文表征空间,提高表征转换性能的同时减少总检索量,具体包括以下优点:

29、(1)借助检索参数代理自适应生成的检索数量,为材料分子提供了更合适的上下文分子表征空间,提高了转换性能;

30、(2)检索参数代理为不同的输入样本生成不同的推理模式,体现了方法的灵活性;

31、(3)针对不同的输入设计了不同的检索方案,有效的提高了示例样本的相似性。

本文档来自技高网...

【技术保护点】

1.一种基于检索参数代理的高分子材料表征转换方法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的一种基于检索参数代理的高分子材料表征转换方法,其特征在于,所述步骤S200中,若当前任务是分子生成任务,即由高分子材料描述文本生成SMILES分子式,输入x表示的是高分子材料描述文本;若当前任务是分子概括任务,即由SMILES分子式生成高分子材料描述文本,输入x表示的是SMIELS分子式。

3.根据权利要求2所述的一种基于检索参数代理的高分子材料表征转换方法,其特征在于,所述步骤S200中当输入x表示的是SMILES分子式时,步骤S200具体包括以下步骤:

4.根据权利要求3所述的一种基于检索参数代理的高分子材料表征转换方法,其特征在于,所述步骤S200中当输入x表示的是高分子材料描述文本时,步骤S200中的以下步骤将被替换:

5.根据权利要求3所述的一种基于检索参数代理的高分子材料表征转换方法,其特征在于,所述步骤S202中,摩根指纹会先将SMILES分子式转换问指纹向量,并使用Dice相似度得到摩根指纹相似度,如下式所示:</p>

6.根据权利要求3所述的一种基于检索参数代理的高分子材料表征转换方法,其特征在于,所述步骤S204中,BGE是一个中英文语义向量模型,可将各种数据分子描述文本转化为向量,并使用向量之间的距离来衡量数据之间的相似度。

7.根据权利要求3所述的一种基于检索参数代理的高分子材料表征转换方法,其特征在于,所述步骤S204中,采用经过线性变换的余弦相似度来衡量BGE向量之间的相似度,如下式所示:

8.根据权利要求1所述的一种基于检索参数代理的高分子材料表征转换方法,其特征在于,所述步骤S300中,检索参数代理agent(x;template)是基于大语言模型的提示工程实现的,其包括三个部分:任务描述、示例和输出指导,任务描述驱动大语言模型根据输入的SMILES分子式或分子文本描述生成自适应的检索数量topn,提供了不同复杂程度的SMILES分子式/分子文本描述与检索数量的示例,输出指导要求大语言模型以json格式输出。

9.根据权利要求3所述的一种基于检索参数代理的高分子材料表征转换方法,其特征在于,所述步骤S500中,提示工程模版h(x,smi_caps)包括三个部分:任务描述、示例和输出指导。任务描述明确大模型的角色,进而详细说明其需要完成的具体任务;示例部分为大语言模型提供了具体的示例,它们是切实可行的分子描述示例,输出指导确保大语言模型的输出规范。

10.根据权利要求3所述的一种基于检索参数代理的高分子材料表征转换方法,其特征在于,所述步骤S600中,大语言模型使用的是通义千问-7b,其在处理英文、编码、数学问题以及长序列评估方面展示了卓越的性能,校准器q(x;regex)采用基于匹配的方式对大语言模型的输出进行校准。

...

【技术特征摘要】

1.一种基于检索参数代理的高分子材料表征转换方法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的一种基于检索参数代理的高分子材料表征转换方法,其特征在于,所述步骤s200中,若当前任务是分子生成任务,即由高分子材料描述文本生成smiles分子式,输入x表示的是高分子材料描述文本;若当前任务是分子概括任务,即由smiles分子式生成高分子材料描述文本,输入x表示的是smiels分子式。

3.根据权利要求2所述的一种基于检索参数代理的高分子材料表征转换方法,其特征在于,所述步骤s200中当输入x表示的是smiles分子式时,步骤s200具体包括以下步骤:

4.根据权利要求3所述的一种基于检索参数代理的高分子材料表征转换方法,其特征在于,所述步骤s200中当输入x表示的是高分子材料描述文本时,步骤s200中的以下步骤将被替换:

5.根据权利要求3所述的一种基于检索参数代理的高分子材料表征转换方法,其特征在于,所述步骤s202中,摩根指纹会先将smiles分子式转换问指纹向量,并使用dice相似度得到摩根指纹相似度,如下式所示:

6.根据权利要求3所述的一种基于检索参数代理的高分子材料表征转换方法,其特征在于,所述步骤s204中,bge是一个中英文语义向量模型,可将各种数据分子描述文本转化为向量,并使用向量之间的距离来衡量数据之间的相似度。

7.根据权利要...

【专利技术属性】
技术研发人员:武星
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1