一种新型冠状病毒基因组特征相似性度量方法技术

技术编号:33710052 阅读:16 留言:0更新日期:2022-06-06 08:41
本发明专利技术公开了一种新型冠状病毒基因组特征相似性度量方法,包括:获取待分析的新型冠状病毒基因组和对照的其他动物感染过的冠状病毒基因组;提取各冠状病毒基因组的病毒基因组特征;计算病毒基因组特征出现的频率;遍历寻找新型冠状病毒共同病毒基因组特征,进行数值化处理和归一化处理;对归一化处理后的新型冠状病毒共同病毒基因组特征进行模糊聚类,获得新型冠状病毒聚类中心;计算其它动物感染过的冠状病毒归一化后的数值特征与新型冠状病毒聚类中心的欧式距离,用于量化病毒相似性,根据量化结果预测病毒的同源性和亲缘性关系,用于量化病毒相似性,根据量化结果预测病毒的同源性和亲缘性关系。此方法成本低、速度快、容易得出实验结果。易得出实验结果。易得出实验结果。

【技术实现步骤摘要】
一种新型冠状病毒基因组特征相似性度量方法


[0001]本专利技术涉及病毒基因组领域,尤其涉及一种新型冠状病毒基因组特征相似性度量方法。

技术介绍

[0002]当前传统医学大多使用传统的生物信息学工具,例如BLAST序列比对,来实现基因组相似性度量。但传统比对方式,投入大、速度慢、周期长、难度大,无法实现基因相似性快速准确地度量。尤其在病毒快速传播的情况下,无法快速做出判断,及时有效分析病毒同源性,为治疗提供及时、可靠的依据。

技术实现思路

[0003]本专利技术提供一种新型冠状病毒基因组特征相似性度量方法,以克服传统基因相似性比对方法投入大、速度慢、周期长、难度大的技术问题。
[0004]为了实现上述目的,本专利技术的技术方案是:
[0005]一种新型冠状病毒基因组特征相似性度量方法,其特征在于,包括以下步骤:
[0006]步骤1、获取待分析的新型冠状病毒基因组和对照的其他动物感染过的冠状病毒基因组;
[0007]步骤2、提取新型冠状病毒基因组特征和其它动物感染过的冠状病毒基因组特征;
[0008]步骤3、计算新型冠状病毒基因组特征和其它动物感染过的冠状病毒基因组特征出现的频率,并对新型冠状病毒基因组特征和其它动物感染过的冠状病毒基因组特征进行数值化处理;
[0009]步骤4、利用数值化处理后的新型冠状病毒基因组特征和其它动物感染过的冠状病毒基因组特征,遍历寻找与新型冠状病毒共同病毒基因组特征,并对数值化处理后的其它动物感染过的冠状病毒基因组特征进行归一化处理得到其它动物感染过的冠状病毒归一化后的数值特征;
[0010]步骤5、对新型冠状病毒共同病毒基因组特征进行归一化处理,对归一化处理后的新型冠状病毒共同病毒基因组特征进行模糊聚类,获得新型冠状病毒聚类中心;
[0011]步骤6、计算其它动物感染过的冠状病毒归一化后的数值特征与新型冠状病毒聚类中心的欧式距离,用于量化病毒相似性,根据量化结果预测病毒的同源性和亲缘性关系。
[0012]进一步的,所述步骤5中获取病毒聚类中心的具体为:
[0013]步骤5.1、初始化新型冠状病毒特征隶属度矩阵u
ij

[0014]步骤5.2、根据新型冠状病毒共同病毒基因组特征x
j
和新型冠状病毒特征隶属度矩阵u
ij
,得到新型冠状病毒特征聚类中心v
i

[0015]步骤5.3、根据新型冠状病毒特征聚类中心v
i
更新新型冠状病毒特征隶属度矩阵u
ij

[0016]步骤5.4、根据更新后的新型冠状病毒特征隶属度矩阵u
ij
和新型冠状病毒特征聚
类中心v
i
得出目标函数值,判断目标函数值与预设值的大小,若目标函数值小于预设值,则输出新型冠状病毒特征聚类中心v
i
,若目标函数值大于等于预设值,则返回步骤5.2重新获取新型冠状病毒特征聚类中心v
i

[0017]进一步的,所述步骤5.1中初始化新型冠状病毒特征隶属度矩阵u
ij
的具体计算公式为:
[0018][0019]其中,c代表模糊聚类个数,u
ij
代表第i个新型冠状病毒基因组样本属于第j类的隶属度,n代表新型冠状病毒基因组样本数量。
[0020]进一步的,所述步骤5.2中得到新型冠状病毒特征聚类中心v
i
的具体计算公式为:
[0021][0022]其中,m是大于1的实数,代表隶属度矩阵u
ij
中第j个特征属于第i类的隶属度。
[0023]进一步的,所述步骤5.3中更新新型冠状病毒特征隶属度矩阵u
ij
的具体计算公式为:
[0024][0025]其中,v
k
代表第k个聚类中心。
[0026]进一步的,所述步骤5.4中根据更新后的新型冠状病毒特征隶属度矩阵u
ij
和新型冠状病毒特征聚类中心v
i
得出目标函数值的具体计算公式为:
[0027][0028]其中,Q为目标函数值。
[0029]进一步的,步骤6中计算其它冠状病毒归一化后数值特征与新型冠状病毒聚类中心的欧式距离的具体计算公式为:
[0030][0031]其中,Distance为病毒聚类中心与新型冠状病毒聚类中心的欧式距离,
[0032]x
j

为其它动物感染过的冠状病毒归一化后的数值特征。
[0033]有益效果:本专利技术通过基因相似性推测病毒同源性。首先,计算基因字符序列中冠状病毒基因组特征出现的频率,获取基因序列数值特征;通过数据归一化,将公共基因特征的绝对值关系处理为相对值关系,简化计算;经过模糊均值聚类,计算聚类中心,进一步获得基因组特征,并通过计算其它基因组特征归一化后数值与此聚类中心的欧式距离,判断其相似性和同源性。从验证效果来看,与传统比对方式结论一致。由于现有的相似性和同源性对比放大其本质是片段对的比对,其基本过程是:首先找出查询序列和目标序列间所有
匹配程度超过一定阈值的片段对,然后对片段对根据给定的相似性阈值进行延伸,得到一定长度的相似性片段,最后给出高分值片段对,从而延伸判断序列的相似性和同源性,本专利技术仅需要获取现有的病毒序列,通过计算其欧氏距离既可得出相似性和同源性,因此只需要一台电脑即可,此方法成本低、速度快、容易得出实验结果。
附图说明
[0034]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0035]图1为本专利技术新型冠状病毒基因组特征相似性度量方法流程图;
[0036]图2为应用本专利技术后的相似性结果分析图。
具体实施方式
[0037]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0038]本实施例提供了一种新型冠状病毒基因组特征相似性度量方法,如图1,包括以下步骤:
[0039]步骤1、获取待分析的新型冠状病毒基因组和对照的其他动物感染过的冠状病毒基因组;其他动物具体为鸡、鸭、牛、蝙蝠;具体的,均使用公共基因组fasta类型数据获取冠状病毒基因组;
[0040]步骤2、提取新型冠状病毒基因组特征和其它动物感染过的冠状病毒基因组特征;
[0041]步骤3、计算新型冠状病毒基因组特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新型冠状病毒基因组特征相似性度量方法,其特征在于,包括以下步骤:步骤1、获取待分析的新型冠状病毒基因组和对照的其他动物感染过的冠状病毒基因组;步骤2、提取新型冠状病毒基因组特征和其它动物感染过的冠状病毒基因组特征;步骤3、计算新型冠状病毒基因组特征和其它动物感染过的冠状病毒基因组特征出现的频率,并对新型冠状病毒基因组特征和其它动物感染过的冠状病毒基因组特征进行数值化处理;步骤4、利用数值化处理后的新型冠状病毒基因组特征和其它动物感染过的冠状病毒基因组特征,遍历寻找与新型冠状病毒共同病毒基因组特征,并对数值化处理后的其它动物感染过的冠状病毒基因组特征进行归一化处理得到其它动物感染过的冠状病毒归一化后的数值特征;步骤5、对新型冠状病毒共同病毒基因组特征进行归一化处理,对归一化处理后的新型冠状病毒共同病毒基因组特征进行模糊聚类,获得新型冠状病毒聚类中心;步骤6、计算其它动物感染过的冠状病毒归一化后的数值特征与新型冠状病毒聚类中心的欧式距离,用于量化病毒相似性,根据量化结果预测病毒的同源性和亲缘性关系。2.如权利要求1所述的一种新型冠状病毒基因组特征相似性度量方法,其特征在于,所述步骤5中获取病毒聚类中心的具体为:步骤5.1、初始化新型冠状病毒特征隶属度矩阵u
ij
;步骤5.2、根据新型冠状病毒共同病毒基因组特征x
j
和新型冠状病毒特征隶属度矩阵u
ij
,得到新型冠状病毒特征聚类中心v
i
;步骤5.3、根据新型冠状病毒特征聚类中心v
i
更新新型冠状病毒特征隶属度矩阵ui
j
;步骤5.4、根据更新后的新型冠状病毒特征隶属度矩阵u
ij
和新型冠状病毒特征聚类中心v
i
得出目标函数值,判断目标函数值与预设值的大小,若目标函数...

【专利技术属性】
技术研发人员:山丹张永锋丛国涛李鹤楠
申请(专利权)人:大连东软信息学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1