本发明专利技术公开了基于多度量指标权重的古生物形态系统发育树构建方法,包括:对待处理的古生物形态学数据缺失插补形成完整数据集;根据古生物形态学数据的层次特点选择度量指标;对决策点数据的度量指标生成随机权重值,获取度量指标组合;采用进化算法扩充初始种群,形成扩充后的新种群;计算古生物物种间距离,根据该距离划分当前决策点的古生物形态学数据;采用Fitch算法评估当前决策点的划分结果,保留最优分割;判断最优分割后的两个分枝是否均为单一古生物物种,是则保留,否则重新初始化权重分配;本发明专利技术可以将多个不同量纲的度量指标共同用于古生物系统发育树构建,克服了使用单一度量指标计算古生物物种间距离片面性的问题。问题。问题。
【技术实现步骤摘要】
基于多度量指标权重的古生物形态系统发育树构建方法
[0001]本专利技术属于生物信息
,涉及古生物形态学中发育树的构建,具体涉及一种基于多度量指标权重的古生物形态系统发育树构建方法。
技术介绍
[0002]在计算生物领域中,系统发育学是一门研究物种的进化历程和亲缘关系的学科。通过构造古生物系统发育树可以辅助研究人员了解物种形成或者进化过程中哪一时间发生分歧,进而从中挖掘物种起源与生物进化的奥秘。古生物系统发育树的构造可以基于物种的形态特征的相似性和差异性来进行,通过不同古生物物种在系统发育树上的位置,推断出古生物间的亲缘关系。而且通过构造出来的古生物系统发育树,我们可以依据物种间演化情况,判断同时期地质与气候的变化。同时古生物系统发育树也有助于我们对动植物同源基因、同源器官等进行确定,对研究器官的进化过程与探索基因和性状的关系都有着重要意义。
[0003]上述这一切都依赖于古生物系统发育树的构建。构建一棵完善良好的古生物系统发育树,可以大大减少人工分析古生物物种间关系的时间耗费,同时也能为科研人员提供更多潜在信息。但是现有的古生物系统发育树构造方法大都只使用单一度量指标来计算不同古生物物种间距离。由于不同度量指标对于古生物形态学数据的侧重点不同,这会导致获得的古生物系统发育树存在一定的片面性,使结果无法达到预期情况。一些古生物系统发育树构造方法也有结合多种度量指标,但其结合方式未从古生物数据出发,使用固定度量指标权重组合,使方法的泛用性下降。综合而言目前古生物系统发育树缺少一个可以融合多种度量指标,并且可以随着古生物数据的变化改变自适应度量指标权重组合的方法。
技术实现思路
[0004]为解决现有技术中存在的不足,本专利技术提供了一种基于多度量指标权重的古生物形态系统发育树构建方法,克服现有发育树构建方法使用单一度量指标存在片面性、无法自适应古生物数据获得度量指标权重组合的问题。
[0005]为了解决上述技术问题,本专利技术采用如下技术方案予以实现:
[0006]基于多度量指标权重的古生物形态系统发育树构建方法,包括:
[0007]步骤1,对待处理的古生物形态学数据进行缺失插补,形成完整的数据集;根据待处理的古生物形态学数据的层次特点选择度量指标,所述度量指标的数量至少为三个;
[0008]步骤2,将步骤1得到的数据集作为古生物系统发育树的根节点,对根节点数据的每个度量指标或步骤7返回的决策点数据的每个度量指标生成随机权重值,每个度量指标取各一个权重值归一化后构成度量指标组合,获得n组度量指标权重组合,n≥5;将这些度量指标权重组合作为初始种群;
[0009]步骤3,判断当前古生物系统发育树是否存在父决策点,若不存在父决策点,转至步骤4;若存在父决策点,将初始种群中的任一度量指标权重组合替换为父决策点中最优的
度量指标权重组合,得到替换后的初始种群,转至步骤4;
[0010]步骤4,采用进化算法对初始种群或替换后的初始种群进行扩充,形成扩充后的新种群;
[0011]步骤5,根据扩充后的新种群中度量指标权重值计算古生物物种间距离;根据古生物物种间距离,采用聚类方法划分当前决策点的古生物形态学数据;
[0012]步骤6,采用Fitch算法对当前决策点划分结果进行评估,保留排名靠前的n组评估值;
[0013]比较当前的n组评估值与前一次排名靠前的n组评估值的变化,若变化小于阈值,保留当前的n组评估值中最优评估值对应的度量指标权重组合,根据最优评估值对应的度量指标权重组合计算当前决策点优化后的古生物物种间距离,根据优化后的古生物物种间距离,采用聚类方法将当前决策点的古生物形态学数据进行划分,划分结果作为当前决策点的最优分割,转至步骤7;否则,将排名靠前的n组评估值对应的度量指标权重组合作为初始种群,转至步骤4;
[0014]步骤7,判断最优分割后的分枝是否均为单一古生物物种,若是保留该最优分割;否则,将该最优分割作为新的决策点放入决策点集中,转至步骤2,直至决策点集为空,转至步骤8;
[0015]步骤8:输出构建的古生物系统发育树。
[0016]具体的,所述步骤1中,使用众数插补方法对古生物形态学数据进行缺失插补;其中,对于古生物形态学数据中具有层次特征的数据的缺失首先对其上级数据进行插补,若上级数据不存在,不进行下级数据的插补。
[0017]具体的,所述步骤4对初始种群扩充的具体方法包括:随机选择初始种群中或替换后的初始种群中的一个度量指标权重组合,使用变异方法生成新的度量指标权重组合;或随机选择初始种群中或替换后的初始种群中的两个度量指标权重组合,使用交叉方法生成新的度量指标权重组合。
[0018]可选的,所述的变异方法包括:随机选择该度量指标权重组合中的两个度量指标对应的权重值进行交换。
[0019]作为另一可选的,所述的变异方法包括:随机选择该度量指标权重组合中的一个度量指标,将除被选定的度量指标外的其他度量指标对应的权重值消减,将消减的权重值总和添加到被选中的权重上。
[0020]作为另一可选的,所述的变异方法包括:锁定该度量指标权重组合中的最大权重值,将其数值变为原来的一半,将减少的权重值平均分配到该度量指标权重组合中它权重之上。
[0021]具体的,所述交叉方法包括:随机选取初始种群中或替换后的初始种群中两个度量指标权重组合中一定数量的度量指标对应的权重值,其中选取度量指标的数量小于总度量指标数量的一半;将选取的两个度量指标权重组合中对应的权重值进行交换,然后使用softmax方法对交换后的权重值进行处理,使得交换后的每个新的度量指标权重组合中的度量指标权重之和为1。
[0022]具体的,所述步骤5中根据扩充后的新种群中度量指标权重值计算古生物物种间距离具体包括:
[0023]步骤5.1,计算古生物形态学数据在第i个度量指标下的数值距离值dis
i
,记录这些数值距离值dis
i
中最大古生物物种距离值与最小距离值
[0024]步骤5.2,按照公式(1)获得第i个度量指标对应的古生物物种间距离值进行缩放,使其量纲统一化,
[0025][0026]步骤5.3,按照步骤5.1和步骤5.2,获得所有度量指标对应的古生物物种间距离统一量纲后的结果;
[0027]步骤5.4:将步骤5.3获得结果与步骤4扩充后新种群中对应度量指标权重按公式(2)进行计算,获得古生物物种间距离findis;
[0028][0029]ω
i
表示扩充后新种群中第i个度量指标的权重,res
i
表示第i个度量指标统一量纲后的结果,i=1,2,...,m,m为度量指标数量。
[0030]优选的,所述步骤5.1中,计算古生物形态学数据在第i个度量指标下的数值距离值dis
i
时,若两个古生物形态学数据某一层次化特征的上级特征同时存在,在计算物种间距离时将上级特征数据忽略,只将下级特征数据本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于多度量指标权重的古生物形态系统发育树构建方法,其特征在于,包括以下步骤:步骤1,对待处理的古生物形态学数据进行缺失插补,形成完整的数据集;根据待处理的古生物形态学数据的层次特点选择度量指标,所述度量指标的数量至少为三个;步骤2,将步骤1得到的数据集作为古生物系统发育树的根节点,对根节点数据的每个度量指标或步骤7返回的决策点数据的每个度量指标生成随机权重值,每个度量指标取各一个权重值归一化后构成度量指标组合,获得n组度量指标权重组合,n≥5;将这些度量指标权重组合作为初始种群;步骤3,判断当前古生物系统发育树是否存在父决策点,若不存在父决策点,转至步骤4;若存在父决策点,将初始种群中的任一度量指标权重组合替换为父决策点中最优的度量指标权重组合,得到替换后的初始种群,转至步骤4;步骤4,采用进化算法对初始种群或替换后的初始种群进行扩充,形成扩充后的新种群;步骤5,根据扩充后的新种群中度量指标权重值计算古生物物种间距离;根据古生物物种间距离,采用聚类方法划分当前决策点的古生物形态学数据;步骤6,采用Fitch算法对当前决策点的划分结果进行评估,保留排名靠前的n组评估值;比较当前的n组评估值与前一次排名靠前的n组评估值的变化,若变化小于阈值,保留当前的n组评估值中最优评估值对应的度量指标权重组合,根据最优评估值对应的度量指标权重组合计算当前决策点优化后的古生物物种间距离,根据优化后的古生物物种间距离,采用聚类方法将当前决策点的古生物形态学数据进行划分,划分结果作为当前决策点的最优分割,转至步骤7;否则,将排名靠前的n组评估值对应的度量指标权重组合作为初始种群,转至步骤4;步骤7,判断最优分割后的分枝是否均为单一古生物物种,若是保留该最优分割;否则,将该最优分割作为新的决策点放入决策点集中,转至步骤2,直至决策点集为空,转至步骤8;步骤8:输出构建的古生物系统发育树。2.如权利要求1所述的基于多度量指标权重的古生物形态系统发育树构建方法,其特征在于,所述步骤1中,使用众数插补方法对古生物形态学数据进行缺失插补;其中,对于古生物形态学数据中具有层次特征的数据的缺失首先对其上级数据进行插补,若上级数据不存在,不进行下级数据的插补。3.如权利要求1所述的基于多度量指标权重的古生物形态系统发育树构建方法,其特征在于,所述步骤4对初始种群扩充的具体方法包括:随机选择初始种群中或替换后的初始种群中的一个度量指标权重组合,使用变异方法生成新的度量指标权重组合;或随机选择初始种群中或替换后的初始种群中的两个度量指标权重组合,使用交叉方法生成新的度量指标权重组合。4.如权利要求3所述的基于多度量指标权重的古生物形态系统发育树构建方法,其特征在于,所述的变异方法包括:随机选择...
【专利技术属性】
技术研发人员:冯宏伟,张效齐,胡景钊,刘蒙,冯筠,
申请(专利权)人:西北大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。