System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多阶段序列的化学分子结构识别方法、装置及介质制造方法及图纸_技高网
当前位置: 首页 > 专利查询>云南大学专利>正文

基于多阶段序列的化学分子结构识别方法、装置及介质制造方法及图纸

技术编号:41513396 阅读:6 留言:0更新日期:2024-05-30 14:51
本发明专利技术公开了基于多阶段序列的化学分子结构识别方法、装置及介质,属于化学分子结构识别领域。其中,所述方法包括以下步骤:基于视觉编码器对输入的分子图像进行处理,得到分子图像特征,其中,所述分子图像特征包括原子序列及键序列;基于预设解码器对所述原子序列以及所述键序列进行预测处理,得到所述分子图像对应的原子序列预测信息以及键序列预测信息;根据原子序列预测信息以及所述键序列预测信息,构建分子图像对应的分子图结构,并将所述分子图结构转换为机器可读格式。本发明专利技术通过编码器来认知不同像素大小/不同尺寸文献的分子图像,避免分子矢量图尺度不稳定的情况,提高了认知文献中无标注分子矢量图基团的准确度。

【技术实现步骤摘要】

本专利技术涉及化学分子结构识别领域,尤其涉及基于多阶段序列的化学分子结构识别方法、装置及介质


技术介绍

1、ocsr(optical chemical structure recognition,光学化学结构式识别)是一种利用光学技术如红外光谱、紫外-可见光谱等,对化学物质的结构进行识别和分析的方法。在对文献中的化合物信息进行提取时,文本形式的信息可以通过命名实体(ner)识别,而图片形式(化学结构式)的信息则需要通过ocsr的方法进行提取。

2、ocsr的发展经历了三个阶段,从基于规则的方法到基于机器学习的方法,再到现在的基于深度学习的方法。深度学习方法的主要优点是可以自动从数据中学习和提取特征,而无需人工设计。这使得深度学习方法在处理复杂或模糊的化学结构时具有更好的性能。

3、然而,尽管深度学习方法在ocsr技术中取得了显著的进步,但它们仍然面临一些挑战,对于不同文献中不同质量、像素的分子图像识别不够精细,导致存在噪声与不确定因素,同时缺乏对图像的认知。因此,需要一种能够应对不同像素且能够精细表达出文献中分子结构的化学结构识别方法。


技术实现思路

1、本专利技术的主要目的在于提供一种基于多阶段序列的化学分子结构识别方法、装置及介质,解决现有技术中对于不同文献中不同质量、像素的分子图像识别不够精细,导致存在噪声与不确定因素,同时缺乏对图像的认知的问题。

2、为实现上述目的,本专利技术提供一种基于多阶段序列的化学分子结构识别方法,所述方法包括以下步骤:

3、基于视觉编码器对输入的分子图像进行处理,得到分子图像特征,其中,所述分子图像特征包括原子序列及键序列;

4、基于预设解码器对所述原子序列以及所述键序列进行预测处理,得到所述分子图像对应的原子序列预测信息以及键序列预测信息;

5、根据所述原子序列预测信息以及所述键序列预测信息,构建所述分子图像对应的分子图结构,并将所述分子图结构转换为机器可读格式。

6、可选地,所述基于视觉编码器对输入的分子图像进行处理,得到分子图像特征的步骤包括:

7、将输入的所述分子图像切割成多个不相交的补丁区域,并获取所述补丁区域的有效序列向量;

8、将所述有效序列向量输入到swinv2模型中,并基于嵌入映射的特征向量对所述有效序列向量进行多次编码处理;

9、将最后一次编码处理后的结果作为所述分子图像特征。

10、可选地,所述分子图像特征的输出过程包括:

11、

12、其中,表示第张分子图像,表示将swinv2嵌入映射到个特征向量,表示第张分子图像的第个特征向量。

13、可选地,所述基于预设解码器对所述原子序列以及所述键序列进行预测处理,得到所述分子图像对应的原子序列预测信息以及键序列预测信息的步骤包括:

14、根据所述原子序列的原子类型以及空间位置,将所述原子序列整合成smiles组合序列,并获取后缀随机序列,其中,所述smiles组合序列包括目标序列和输入序列;

15、分别将所述后缀随机序列与所述目标序列以及所述输入序列进行序列拼接,得到原子预测的自回归算法;

16、根据所述自回归算法以及所述预设解码器的gpt2模型,生成所述原子序列预测信息。

17、可选地,所述目标序列的组成包括:

18、;

19、所述输入序列的组成包括:

20、

21、

22、其中,为所述输入图像的边界框左下与右上的坐标位置,为原子类型,以smiles格式为基础,包括元素身份、同位素、形式电荷和隐式氢计数;

23、所述后缀随机序列的组成包括:

24、;

25、基于所述后缀随机序列拼接处理后的序列包括:

26、

27、

28、其中为序列拼接;

29、所述自回归算法的公式包括:

30、

31、其中代表分子图像中需要预测的各类型原子及其空间坐标,代表各类原子个数;

32、原子序列预测信息v的计算公式如下:

33、 。

34、可选地,所述基于预设解码器对所述原子序列以及所述键序列进行预测处理,得到所述分子图像对应的原子序列预测信息以及键序列预测信息的步骤还包括:

35、确定所述键序列对应的键序列集合;

36、根据所述预设解码器的多层感知机mlp获取所述键序列的键类型及键数量;

37、基于所述键类型、所述键数量以及所述键序列集合,生成所述键序列预测信息。

38、可选地,所述键序列集合的计算公式包括:

39、

40、

41、

42、其中,代表原子与原子之间的键集合,表示原子与原子进行连接,表示原子与原子之间存在键;

43、所述键序列预测信息的公式包括:

44、

45、其中,e为键序列预测信息,代表不同键类型,代表键的数量,mlp代表对键序列集合进行多层感知机mlp预测处理。

46、可选地,所述根据所述原子序列预测信息以及所述键序列预测信息,构建所述分子图像对应的分子图结构,并将所述分子图结构转换为机器可读格式的步骤包括:

47、根据所述原子序列预测信息,构建所述分子图结构的分子节点,根据所述键序列预测信息,构建所述分子图结构的边;

48、基于所述分子节点对应的节点集合以及所述边对应的边集合,构建所述分子图结构;

49、将所述分子图结构转换为基于smiles的机器可读格式,以使计算装置基于所述机器可读格式确定所述分子图像对应的化学分子结构。

50、此外,为实现上述目的,本专利技术还提供一种基于多阶段序列的化学分子结构识别装置,所述基于多阶段序列的化学分子结构识别装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的化学分子结构识别程序,所述化学分子结构识别程序被所述处理器执行时实现如上所述的基于多阶段序列的化学分子结构识别方法的步骤。

51、此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有化学分子结构识别程序,所述化学分子结构识别程序被处理器执行时实现如上所述的基于多阶段序列的化学分子结构识别方法的步骤。

52、本专利技术提供了基于多阶段序列的化学分子结构识别方法、装置及介质,先基于视觉编码器对输入的分子图像进行处理,得到分子图像特征,其中,所述分子图像特征包括原子序列及键序列,接着基于预设解码器对所述原子序列以及所述键序列进行预测处理,得到所述分子图像对应的原子序列预测信息以及键序列预测信息最后根据所述原子序列预测信息以及所述键序列预测信息,构建所述分子图像对应的分子图结构,并将所述分子图结构转换为机器可读格式。可以看出,通过编码器来认知不同像素大小/不同尺寸文献的本文档来自技高网...

【技术保护点】

1.一种基于多阶段序列的化学分子结构识别方法,其特征在于,所述基于多阶段序列的化学分子结构识别方法包括:

2.如权利要求1所述的基于多阶段序列的化学分子结构识别方法,其特征在于,所述基于视觉编码器对输入的分子图像进行处理,得到分子图像特征的步骤包括:

3.如权利要求2所述的基于多阶段序列的化学分子结构识别方法,其特征在于,所述分子图像特征的输出过程包括:

4.如权利要求1所述的基于多阶段序列的化学分子结构识别方法,其特征在于,所述基于预设解码器对所述原子序列以及所述键序列进行预测处理,得到所述分子图像对应的原子序列预测信息以及键序列预测信息的步骤包括:

5.如权利要求4所述的基于多阶段序列的化学分子结构识别方法,其特征在于,所述目标序列的组成包括:

6.如权利要求1所述的基于多阶段序列的化学分子结构识别方法,其特征在于,所述基于预设解码器对所述原子序列以及所述键序列进行预测处理,得到所述分子图像对应的原子序列预测信息以及键序列预测信息的步骤还包括:

7.如权利要求6所述的基于多阶段序列的化学分子结构识别方法,其特征在于,所述键序列集合的计算公式包括:

8.如权利要求1-7中任一项所述的基于多阶段序列的化学分子结构识别方法,其特征在于,所述根据所述原子序列预测信息以及所述键序列预测信息,构建所述分子图像对应的分子图结构,并将所述分子图结构转换为机器可读格式的步骤包括:

9.一种基于多阶段序列的化学分子结构识别装置,其特征在于,所述装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的化学分子结构识别程序,所述化学分子结构识别程序被所述处理器执行时实现如权利要求1至8中任一项基于多阶段序列的化学分子结构识别方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有化学分子结构识别程序,所述化学分子结构识别程序被处理器执行时实现如权利要求1至8中任一项所述的基于多阶段序列的化学分子结构识别方法的步骤。

...

【技术特征摘要】

1.一种基于多阶段序列的化学分子结构识别方法,其特征在于,所述基于多阶段序列的化学分子结构识别方法包括:

2.如权利要求1所述的基于多阶段序列的化学分子结构识别方法,其特征在于,所述基于视觉编码器对输入的分子图像进行处理,得到分子图像特征的步骤包括:

3.如权利要求2所述的基于多阶段序列的化学分子结构识别方法,其特征在于,所述分子图像特征的输出过程包括:

4.如权利要求1所述的基于多阶段序列的化学分子结构识别方法,其特征在于,所述基于预设解码器对所述原子序列以及所述键序列进行预测处理,得到所述分子图像对应的原子序列预测信息以及键序列预测信息的步骤包括:

5.如权利要求4所述的基于多阶段序列的化学分子结构识别方法,其特征在于,所述目标序列的组成包括:

6.如权利要求1所述的基于多阶段序列的化学分子结构识别方法,其特征在于,所述基于预设解码器对所述原子序列以及所述键序列进行预测处理,得到所述分子图像对应的原子序列预测信...

【专利技术属性】
技术研发人员:张德海赵迪
申请(专利权)人:云南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1