芸香科多物种密码子使用模式分析方法和系统技术方案

技术编号:22445530 阅读:66 留言:0更新日期:2019-11-02 05:11
本发明专利技术涉及一种芸香科多物种的密码子使用模式分析方法,包括:通过芸香科的多个物种的基因数据,获取每个该物种的密码子序列;提取该密码子序列的第一特征值,以该第一特征值的关系验证该多个物种的进化关系;提取该密码子序列的第二特征值,以该第二特征值绘制特征关系图,以验证该多个物种的进化保守性程度;提取该密码子序列中的高频密码子/密码子对,以该高频密码子/密码子对的关系验证该多个物种的进化保守性相关度;将该密码子序列的密码子RSCU值与植物物种的密码子RSCU值进行聚类,以聚类结果验证该多个物种的所属纲目;获取该密码子序列GC3含量之间的欧式距离,以验证该多个物种的亲缘关系。

Analysis method and system of codon usage patterns in Brassicaceae

【技术实现步骤摘要】
芸香科多物种密码子使用模式分析方法和系统
本专利技术属于生物基因数据分析系统领域,具体涉及一种芸香科物种密码子使用模式分析方法和系统。
技术介绍
随着基因测序技术越来越成熟,越来越多的行业通过分析基因数据来进行诊断,识别,预测等工作。密码子是由mRNA上相邻的三个碱基组成,决定了合成蛋白质的氨基酸种类和排列次序。因此,自从PaulM.Sharp和Wen-HsiungLi开始对单细胞密码使用模式分析之后,越来越多的动植物以及微生物的密码子使用偏好性被揭露,为物种的重要性状研究和分子进化研究等提供基础理论数据。但是,现有的分析模式大多是针对单个物种的分析,关于进化遗传方向的分析也仅仅是停留在较宏观的层次,对于同一属内不同物种的遗传进化分析仍处于空白。我国是柑橘的重要产地之一,经过4000多年的栽培,柑橘已经分化出现了橘、柑、橙、金柑,柚、枳等多个物种。综上,设计一种同属内不同物种的密码子使用模式分析流程是一个十分关键的问题。关于动植物以及微生物的密码子数据分析已经得到了广泛的研究,如梧桐叶绿体密码子使用偏好性分析、昆虫基因组密码子使用及进化分析以及单细胞生物同义密码子的进化分析等。这些研究的分析的基本单位均是单个物种。同时,现有的多物种密码子使用模式的分析还未涉及到同属内物种的层次。由于同属内多物种亲缘关系较近,依据现有的一些分析方法所分析出的数据在数值上的差异并不大,无法通过密码子的分析结果来验证物种之间已有的遗传关系的结论。针对多物种密码子使用模式的遗传相关性分析,已有一些研究提出分析思路,在早期的单物种分析方法中,有人提出了计算出所分析物种以及植物界其他纲中有代表性的几类物种的相对同义密码子使用度(RSCU)的值,然后将其聚类分析,从而判断亲缘关系以及相似性的方法。然而,这些方法仅适用于跨度较大范围的物种之间的比较分析,对于同一属内的物种来说,因为其亲缘关系较近,因此在使用密码子RSCU值聚类时几乎观察不到大的差异,这虽然可以作为遗传进化史上基因变异较少的佐证,但实际上其中不同的部分更加具有研究价值。为了解决问题,另一种通过判断密码子GC3(三连密码子第三位GC含量百分比)和RSCU(相对同义密码子使用度)之间关系的相关性来衡量物种亲缘关系的方法被提出,其在使用聚类方法比较的同时,还考虑到比较密码子各项特征指标的相关性变化,从而来进一步描述多物种密码子的遗传关系。该方法的关键在于将分析的视角着眼于能够直接观察判断的数据,而不是抽象的聚类图像。然而,该方法的制定的分析策略还不够充分,并不能为所分析的多个物种之间的遗传保守性提供充足的数据佐证。中国国家专利技术“利用植物病毒密码子偏爱性设计用于在植物中的多肽表达的核酸分子的方法和组合物”(申请号:CN200680019920.1),涉及设计核酸的方法以提高植物中所编码的多肽的表达。在所述方法中,密码子使用频率偏好于植物病毒、植物病毒组或源自其的一组核酸分子的密码子使用频率。在优选实施方式中,所编码的多肽影响所述植物的表型。本专利技术还涉及对杀虫性多肽进行编码的核酸分子,其中所述核酸分子经设计是植物病毒密码子偏好的。本专利技术还涉及具有提高的杀虫性多肽表达的转基因植物及其后代以具有对昆虫或其他害虫的提高的抵抗力,所述昆虫或其他害虫对具有农业价值的植物有害。该专利技术主要通过分析密码子的使用频率的高低来筛选出需要修改的核酸中特定的密码子,从而达到设计核酸的目的。中国国家专利技术“大黄鱼清道夫受体家族基因的密码子偏好性分析方法”(申请号:CN201811123784.1),公开了大黄鱼清道夫受体家族基因的密码子偏好性分析方法,包括,获得大黄鱼清道夫受体家族基因;利用密码子偏好性分析软件CodonW统计所有基因的第三位密码子频率和密码子第三位为G或C的频率,同时计算所述受体家族基因的偏好性指数,得出清道夫受体家族在进化中的密码子偏好性使用情况。本专利技术分析方法简单可行,可准确地判断大黄鱼清道夫受体家族基因的密码子偏好性,更好地帮助认识清道夫受体家族基因特征,在后续改造基因以及实现其高效表达中发挥重要作用。该专利技术主要针对单个物种的密码子偏好性分析,只分析了密码子的特征值所表达的含义,却无法得出大黄鱼与其他鱼类物种的家族关系。
技术实现思路
解决现有技术的密码子数据分析的分析方法单一的问题,本专利技术提出了一种芸香科多物种的密码子使用模式分析方法,包括:通过芸香科的多个物种的基因数据,获取每个该物种的密码子序列;提取该密码子序列的第一特征值,以该第一特征值的关系验证该多个物种的进化关系;该第一特征值包括该密码子序列的GC含量;提取该密码子序列的第二特征值,以该第二特征值绘制特征关系图,以验证该多个物种的进化保守性程度;该第二特征值包括该密码子序列的GC12平均值、GC3平均值、GC3s平均值和ENC平均值;提取该密码子序列中的高频密码子/密码子对,以该高频密码子/密码子对的关系验证该多个物种的进化保守性相关度;将该密码子序列的密码子RSCU值与植物物种的密码子RSCU值进行聚类,以聚类结果验证该多个物种的所属纲目;获取该密码子序列GC3含量之间的欧式距离,以验证该多个物种的亲缘关系。本专利技术所述的密码子使用模式分析方法,其中通过对该基因数据预处理获取该密码子序列,包括:从该基因数据中提取长度大于或等于300个碱基对的基因数据,作为第一预处理基因数据;从该第一预处理基因数据中提取以起始密码子开头的基因数据,作为第二预处理基因数据;从该第二预处理基因数据中提取基因序列中间不包含终止密码子的基因数据,作为第三预处理基因数据;从该第三预处理基因数据中提取基因序列长度为3的整数倍的基因数据,作为该密码子序列。本专利技术所述的密码子使用模式分析方法,其中该第一特征值具体包括:每个该物种的密码子序列的总平均GC含量、第1位GC1含量、第2位GC2含量、第3位GC3含量,以及每个该物种的同义密码子的GC3s含量。本专利技术所述的密码子使用模式分析方法,其中获得每个该物种密码子序列的GC12平均值、GC3平均值、GC3s平均值和ENC平均值,以绘制该特征关系图。本专利技术所述的密码子使用模式分析方法,其中当该密码子序列的密码子的RSCU值大于1.5,或该密码子序列的密码子的出现频率占到了其同义密码子的60%以上,则判定该密码子序列的密码子为高频密码子/密码子对。本专利技术所述的密码子使用模式分析方法,其中该植物物种的密码子为通过JGI数据库获取的23类植物物种的密码子数据。本专利技术所述的密码子使用模式分析方法,其中将密码子序列按照5’端到3’端的顺序等分为n份,计算出每一份的GC3平均值,绘出散点图并求出两两物种间GC3的欧式距离d(p,q),其中:p、q分别为该多个物种中的任意两个物种,pi为p物种的平均GC3值,qi为q物种的平均GC3值,n为正整数。本专利技术还提出一种芸香科多物种的密码子使用模式分析系统,包括:预处理模块,用于通过芸香科的多个物种的基因数据,获取每个该物种的密码子序列;进化关系验证模块,用于提取该密码子序列的第一特征值,以该第一特征值的关系验证该多个物种的进化关系;其中该第一特征值包括该密码子序列的GC含量;进化保守性程度验证模块,用于提取该密码子序列的第二特征值,以该第二特征值绘制特征关系图,以验证该本文档来自技高网
...

【技术保护点】
1.一种芸香科多物种的密码子使用模式分析方法,其特征在于,包括:通过芸香科的多个物种的基因数据,获取每个该物种的密码子序列;提取该密码子序列的第一特征值,以该第一特征值的关系验证该多个物种的进化关系;该第一特征值包括该密码子序列的GC含量;提取该密码子序列的第二特征值,以该第二特征值绘制特征关系图,以验证该多个物种的进化保守性程度;该第二特征值包括该密码子序列的GC12平均值、GC3平均值、GC3s平均值和ENC平均值;提取该密码子序列中的高频密码子/密码子对,以该高频密码子/密码子对的关系验证该多个物种的进化保守性相关度;将该密码子序列的密码子RSCU值与植物物种的密码子RSCU值进行聚类,以聚类结果验证该多个物种的所属纲目;获取该密码子序列GC3含量之间的欧式距离,以验证该多个物种的亲缘关系。

【技术特征摘要】
1.一种芸香科多物种的密码子使用模式分析方法,其特征在于,包括:通过芸香科的多个物种的基因数据,获取每个该物种的密码子序列;提取该密码子序列的第一特征值,以该第一特征值的关系验证该多个物种的进化关系;该第一特征值包括该密码子序列的GC含量;提取该密码子序列的第二特征值,以该第二特征值绘制特征关系图,以验证该多个物种的进化保守性程度;该第二特征值包括该密码子序列的GC12平均值、GC3平均值、GC3s平均值和ENC平均值;提取该密码子序列中的高频密码子/密码子对,以该高频密码子/密码子对的关系验证该多个物种的进化保守性相关度;将该密码子序列的密码子RSCU值与植物物种的密码子RSCU值进行聚类,以聚类结果验证该多个物种的所属纲目;获取该密码子序列GC3含量之间的欧式距离,以验证该多个物种的亲缘关系。2.如权利要求1所述的密码子使用模式分析方法,其特征在于,通过对该基因数据预处理获取该密码子序列,包括:从该基因数据中提取长度大于或等于300个碱基对的基因数据,作为第一预处理基因数据;从该第一预处理基因数据中提取以起始密码子开头的基因数据,作为第二预处理基因数据;从该第二预处理基因数据中提取基因序列中间不包含终止密码子的基因数据,作为第三预处理基因数据;从该第三预处理基因数据中提取基因序列长度为3的整数倍的基因数据,作为该密码子序列。3.如权利要求1所述的密码子使用模式分析方法,其特征在于,该第一特征值具体包括:每个该物种的密码子序列的总平均GC含量、第1位GC1含量、第2位GC2含量、第3位GC3含量,以及每个该物种的同义密码子的GC3s含量。4.如权利要求1所述的密码子使用模式分析方法,其特征在于,获得每个该物种密码子序列的GC12平均值、GC3平均值、GC3s平均值和ENC平均值,以绘制该特征关系图。5.如权利要求1所述的密码子使用模式分析方法,其特征在于,当该密码子序列的密码子的RSCU值大于1.5,或该密码子序列的密码子的出现频率占...

【专利技术属性】
技术研发人员:万晓华申泽南张法张金智甘志猛
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1