本申请涉及化学、化工、材料、食品、生物、环境技术领域,特别涉及一种相似样品比对方法、装置、电子设备及存储介质,其中,方法包括:获取各样品的分子序列信息;识别分子序列信息中的分子序列和分子丰度,获取分子序列排序过程中分子丰度的分布,根据分布确定丰度均值和丰度差异;根据丰度均值和丰度差异计算各样品之间分子序列的相似度,将相似度大于预设值的分子序列对应样品确定为相似样品。由此,解决了相关技术中,对样品之间相似度的判断未将丰度分布差异纳入考虑,导致相似度计算准确性较差,使得判断结果可靠性较低;同时无法提供精度较高较具体的相似度,无法满足实际使用需要的问题。的问题。的问题。
【技术实现步骤摘要】
相似样品比对方法、装置、电子设备及存储介质
[0001]本申请涉及化学、化工、材料、食品、生物、环境
,特别涉及一种相似样品比对方法、装置、电子设备及存储介质。
技术介绍
[0002]样品之间的相似度的判断对于样品的来源识别(溯源)、真伪鉴别(鉴伪)以及变化过程分析具有重要意义,其中,丰度差异是造成样品差异的主要原因之一。
[0003]相关技术中,可以通过统计并比较分子的元素组成和分子种类等信息,由此可以定性判断样品分子的相似程度,结果很直观;还可以使用一种基于欧氏距离、余弦相似度等的相似度算法,可以通过分子强度计算分子序列的相似度。
[0004]然而,比较分子的元素组成和分子种类等信息的方式并不能提供具体的相似度;基于欧氏距离、余弦相似度等的相似度算法并未考虑各分子在不同样品中的丰度分布差异,使得结果不准确,影响实际使用需要。
技术实现思路
[0005]本申请提供一种相似样品比对方法、装置、电子设备及存储介质,以解决相关技术中,对样品之间相似度的判断未将丰度分布差异纳入考虑,导致相似度计算准确性较差,使得判断结果可靠性较低;同时无法提供精度较高较具体的相似度,无法满足实际使用需要等问题。
[0006]本申请第一方面实施例提供一种相似样品比对方法,包括以下步骤:获取各样品的分子序列信息;识别所述分子序列信息中的分子序列和分子丰度,获取所述分子序列排序过程中所述分子丰度的分布,根据所述分布确定丰度均值和丰度差异;根据所述丰度均值和所述丰度差异计算所述各样品之间分子序列的相似度,将所述相似度大于预设值的分子序列对应样品确定为相似样品。
[0007]可选地,所述获取所述分子序列排序过程中所述分子丰度的分布,包括:按照预设丰度递增比例逐次递增所述分子序列中的分子;提取所述分子序列在每次递增之后的子序列,并计算每次递增后各样品对应的子序列之间的共有分子序列以及各共有分子序列在各子序列中的丰度。
[0008]可选地,所述提取所述分子序列在每次递增之后的子序列,包括:获取每次递增后的累计丰度;按照所述各样品的分子序列的丰度顺序,从第一个分子开始,以每次递增后的累计丰度涵盖的分子序列作为所述分子序列在每次递增之后的子序列。
[0009]可选地,所述根据所述分布确定丰度均值和丰度差异,包括:根据所述各共有分子序列在各子序列中的丰度计算丰度均值;根据所述丰度均值和所述各样品丰度的均值计算丰度差异。
[0010]可选地,根据所述丰度均值和所述丰度差异计算所述各样品之间分子序列的相似度,包括:获取所述丰度均值和所述丰度差异各自的递增次数平均值;根据所述丰度均值和
所述丰度差异各自的递增次数平均值计算所述各样品之间分子序列的相似度。
[0011]本申请第二方面实施例提供一种相似样品比对装置,包括:获取模块,用于获取各样品的分子序列信息;识别模块,用于识别所述分子序列信息中的分子序列和分子丰度,获取所述分子序列排序过程中所述分子丰度的分布,根据所述分布确定丰度均值和丰度差异;判定模块,用于根据所述丰度均值和所述丰度差异计算所述各样品之间分子序列的相似度,将所述相似度大于预设值的分子序列对应样品确定为相似样品。
[0012]可选地,所述识别模块进一步用于:按照预设丰度递增比例逐次递增所述分子序列中的分子;提取所述分子序列在每次递增之后的子序列,并计算每次递增后各样品对应的子序列之间的共有分子序列以及各共有分子序列在各子序列中的丰度。
[0013]可选地,所述识别模块进一步用于:获取每次递增后的累计丰度;按照所述各样品的分子序列的丰度顺序,从第一个分子开始,以每次递增后的累计丰度涵盖的分子序列作为所述分子序列在每次递增之后的子序列。
[0014]可选地,所述识别模块进一步用于:根据所述各共有分子序列在各子序列中的丰度计算丰度均值;根据所述丰度均值和所述各样品丰度的均值计算丰度差异。
[0015]可选地,所述判定模块进一步用于:获取所述丰度均值和所述丰度差异各自的递增次数平均值;根据所述丰度均值和所述丰度差异各自的递增次数平均值计算所述各样品之间分子序列的相似度。
[0016]本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的相似样品比对方法。
[0017]本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上述实施例所述的相似样品比对。
[0018]由此,本申请至少具有如下有益效果:
[0019]本申请实施例可以以分子丰度作为分子序列相似度的核心,通过分子序列排序和逐次递增的过程将分子丰度纳入相似度计算过程,由于将丰度分布差异也纳入相似度算法进行考虑,因此可以直观地提供样品分子的相似度,提升计算精确度,提高相似度判断的准确度,满足实际使用需要。
[0020]本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
[0021]本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0022]图1为本申请实施例的相似样品比对方法的流程图;
[0023]图2为本申请实施例的样品共有分子以0.49%丰度递增的累计丰度分布曲线示意图;
[0024]图3为本申请实施例的样品共有分子以0.54%丰度递增的累计丰度分布曲线示意图;
[0025]图4为本申请实施例的另一样品共有分子以0.49%丰度递增的累计丰度分布曲线
示意图;
[0026]图5为本申请实施例的样品共有分子以1.06%丰度递增的累计丰度分布曲线示意图;
[0027]图6为本申请实施例的相似样品比对装置的示例图;
[0028]图7为本申请实施例的电子设备的结构示意图。
具体实施方式
[0029]下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
[0030]针对上述
技术介绍
中提到的相关技术中,对样品之间相似度的判断未将丰度分布差异纳入考虑,导致相似度计算准确性较差,使得判断结果可靠性较低;同时无法提供精度较高较具体的相似度,无法满足实际使用需要的问题,本申请提供了一种相似样品比对方法,下面参考附图描述本申请实施例的相似样品比对方法、装置、电子设备及存储介质。
[0031]具体而言,图1为本申请实施例所提供的一种相似样品比对方法的流程示意图。
[0032]如图1所示,该相似样品比对方法包括以下步骤:
[0033]在步骤S101中,获取各样品的分子序列信息。
[0034]其中,分子序列信息可以包括分子序列和分子丰度本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种相似样品比对方法,其特征在于,包括以下步骤:获取各样品的分子序列信息;识别所述分子序列信息中的分子序列和分子丰度,获取所述分子序列排序过程中所述分子丰度的分布,根据所述分布确定丰度均值和丰度差异;根据所述丰度均值和所述丰度差异计算所述各样品之间分子序列的相似度,将所述相似度大于预设值的分子序列对应样品确定为相似样品。2.根据权利要求1所述的相似样品比对方法,其特征在于,所述获取所述分子序列排序过程中所述分子丰度的分布,包括:按照预设丰度递增比例逐次递增所述分子序列中的分子;提取所述分子序列在每次递增之后的子序列,并计算每次递增后各样品对应的子序列之间的共有分子序列以及各共有分子序列在各子序列中的丰度。3.根据权利要求2所述的相似样品比对方法,其特征在于,所述提取所述分子序列在每次递增之后的子序列,包括:获取每次递增后的累计丰度;按照所述各样品的分子序列的丰度顺序,从第一个分子开始,以每次递增后的累计丰度涵盖的分子序列作为所述分子序列在每次递增之后的子序列。4.根据权利要求2所述的相似样品比对方法,其特征在于,所述根据所述分布确定丰度均值和丰度差异,包括:根据所述各共有分子序列在各子序列中的丰度计算丰度均值;根据所述丰度均值和所述各样品丰度的均值计算丰度差异。5.根据权利要求1所述的相似样品比对方法,其特征在于,根据所述丰度均值和所述丰度差异计算所述各样品之间分子序列的相似度,包括:获取所述丰度均值和所述丰度差异各自的递增次数平均值;根据所述丰度均值和所述丰度差异各自的递增次数平均值计算所述各样品之间分子序列的相似度。6.一种相似样品比对装置,其特征在于,包括:获取模块,用于获取各样品的分子序列信息;识别模块,用于识别所述分子序列信息中的分子序列和分...
【专利技术属性】
技术研发人员:吴静,刘传旸,吴效晋,程澄,冯亮,沈鉴,柴一荻,王士峰,熊秋燃,
申请(专利权)人:苏州国溯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。