化学反应流程图中元素的提取方法及装置制造方法及图纸

技术编号:33708760 阅读:29 留言:0更新日期:2022-06-06 08:37
本公开提供了一种化学反应流程图中元素的提取方法及装置,提取方法包括获取目标图像,其中,目标图像中包括化学反应流程图;利用预先训练好的提取模型,从化学反应流程图中提取元素信息,其中,元素信息包括元素的类型和坐标。相较于现有技术中基于预先定义的参照形状确定目标图像中是否包含目标元素,本公开通过提取模型从目标图像中提取元素信息,以确定目标图像中是否包含目标元素,大大提高了元素提取的准确率,泛化性较好。泛化性较好。泛化性较好。

【技术实现步骤摘要】
化学反应流程图中元素的提取方法及装置


[0001]本公开涉及化学信息学
,特别涉及化学反应流程图中元素的提取方法及装置。

技术介绍

[0002]在期刊和专利等电子刊物中,有机化学反应式通常以反应流程图的形式表示,反应流程图中可能包含箭头(如单向箭头、多向箭头等)、指示标识等元素,反应流程图中的元素对后续从期刊和专利等电子刊物中提取化学反应式的精确度产生一定影响。
[0003]目前,存在识别箭头元素的方法:针对一特定元素预先定义一参照形状,之后,检测特定图像中是否包含预先定义的参照形状,进而确定特定图像中是否包含特定元素。但该种方法准确率较低,泛化性较差。

技术实现思路

[0004]有鉴于此,本公开实施例的目的在于提供一种化学反应流程图中元素的提取方法及装置,用于解决现有技术存在的元素提取准确率较低以及泛化性较差等问题。
[0005]第一方面,本公开实施例提供了一种化学反应流程图中元素的提取方法,其中,包括:
[0006]获取目标图像,其中,所述目标图像中包括化学反应流程图;
[0007]利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
[0008]在一种可能的实施方式中,在利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息之前,还包括:
[0009]识别所述目标图像中的每个化学反应流程图。
[0010]在一种可能的实施方式中,所述利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,包括:
[0011]将所有所述化学反应流程图作为所述提取模型的输入,以使所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息。
[0012]在一种可能的实施方式中,所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息,包括:
[0013]所述提取模型对所述化学反应流程图进行计算,得到多个候选元素以及每个候选元素对应的概率值;
[0014]选取所述概率值大于预设阈值的所述候选元素作为所述化学反应流程图中的元素信息。
[0015]在一种可能的实施方式中,在所述目标图像中包括多个元素的情况下,通过预设间隔符将多个所述元素信息之间进行分隔。
[0016]在一种可能的实施方式中,训练所述提取模型的步骤包括:
[0017]获取训练集,所述训练集包括第一化学反应流程图样本和其包括的第一元素的第一理论元素信息;
[0018]将所述第一化学反应流程图样本转化为第一输入向量,并将所述第一输入向量输入至待训练的提取模型中,得到第一实际元素信息;
[0019]计算所述第一实际元素信息与所述第一理论元素信息之间的第一误差是否在允许范围内;
[0020]若所述第一误差不在所述允许范围内,调整所述待训练的提取模型的参数,直至所述第一误差落入所述允许范围内。
[0021]在一种可能的实施方式中,所述提取方法还包括:
[0022]所述待训练的提取模型为多个的情况下,将验证集包括的第二化学反应流程图样本转化为第二输入向量,并将所述第二输入向量分别输入至每个所述调整参数后的提取模型中,得到第二实际元素信息;
[0023]计算每个所述第二实际元素信息与所述验证集包括的第二化学反应流程图样本对应的第二理论元素信息之间的第二误差;
[0024]将最小的第二误差对应的调整参数后的提取模型作为提取模型。
[0025]第二方面,本公开实施例还提供了一种化学反应流程图中元素的提取装置,其包括:
[0026]获取模块,其配置为获取目标图像,其中,所述目标图像中包括化学反应流程图;
[0027]提取模块,其配置为利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
[0028]第三方面,本公开实施例还提供了一种存储介质,其中,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如下步骤:
[0029]获取目标图像,其中,所述目标图像中包括化学反应流程图;
[0030]利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
[0031]第四方面,本公开实施例还提供了一种电子设备,其中,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如下步骤:
[0032]获取目标图像,其中,所述目标图像中包括化学反应流程图;
[0033]利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
[0034]相较于现有技术中基于预先定义的参照形状确定目标图像中是否包含目标元素,本公开通过提取模型从目标图像中提取元素信息,以确定目标图像中是否包含目标元素,大大提高了元素提取的准确率,泛化性较好。
[0035]为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0036]为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术
描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0037]图1示出了本公开所提供的化学反应流程图中元素的提取方法的流程图;
[0038]图2示出了本公开所提供的提取方法中训练提取模型的流程图;
[0039]图3示出了本公开所提供的提取方法中验证提取模型的流程图;
[0040]图4示出了本公开所提供的化学反应流程图中元素的提取装置的结构示意图;
[0041]图5示出了本公开所提供的电子设备的结构示意图。
具体实施方式
[0042]此处参考附图描述本公开的各种方案以及特征。
[0043]应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。
[0044]包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。
[0045]通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本公开的这些和其它特性将会变得显而易见。
[0046]还应当理解,尽管已经参照一些具体实例对本公开进行了描述,但本领域技术人员能够确定地实现本公开的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
[0047]当结合附图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种化学反应流程图中元素的提取方法,其特征在于,包括:获取目标图像,其中,所述目标图像中包括化学反应流程图;利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。2.根据权利要求1所述的提取方法,其特征在于,在利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息之前,还包括:识别所述目标图像中的每个化学反应流程图。3.根据权利要求1或2所述的提取方法,其特征在于,所述利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,包括:将所有所述化学反应流程图作为所述提取模型的输入,以使所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息。4.根据权利要求3所述的提取方法,其特征在于,所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息,包括:所述提取模型对所述化学反应流程图进行计算,得到多个候选元素以及每个候选元素对应的概率值;选取所述概率值大于预设阈值的所述候选元素作为所述化学反应流程图中的元素信息。5.根据权利要求1

4中任一所述的提取方法,其特征在于,在所述目标图像中包括多个元素的情况下,通过预设间隔符将多个所述元素信息之间进行分隔。6.根据权利要求1所述的提取方法,其特征在于,训练所述提取模型的步骤包括:获取训练集,所述训练集包括第一化学反应流程图样本和其包括的第一元素的第一理论元素信息;将所述第一化学反应流程图样本转化为第一输入向量,并将所述第一输入向量输入至待训练的提取模型中,得到第一实际元素信息;计算所述第一实际元素信息与所述第一理论元素信息之间的第一...

【专利技术属性】
技术研发人员:刘小红申圣珂肖红忠李召军钮振江费超远刘刚娣郑明月
申请(专利权)人:上海阿尔脉生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1