当前位置: 首页 > 专利查询>栾图专利>正文

基于生物信息的选育良种系统及其算法技术方案

技术编号:15502639 阅读:121 留言:0更新日期:2017-06-03 23:26
本发明专利技术涉及生物技术领域,具体公开了一种基于生物信息的选育良种系统及其算法,整合了全基因组选择中个体间的连锁不平衡和连锁分析关系信息,更加全面有效地利用了个体的基因组数据信息和系谱信息,可更好地发挥基因组选择在农业育种领域的优势,预测候选群体个体的全基因组育种值并计算其与仿真数据中该个体的真实育种值之间的相关系数作为全基因组育种值预测的准确性指标,能准确预测以实现高效率特异性育种此外本发明专利技术提供的方法也有助于检测和确定与某些特异性状相关联的功能基因,有助于实现特异性育种。

Breeding and breeding system and its algorithm based on biological information

The present invention relates to the field of biotechnology, in particular discloses a biological information for breeding system and its algorithm based on the integration of genomic selection in individual linkage disequilibrium and linkage analysis of the relationship between information, more comprehensive and effective use of genomic data of individual information and channel pedigree information, can better play the genomic selection in agriculture breeding field advantage, prediction of whole genome breeding groups of individual value and accurate candidate indicators predictive value as a whole genome breeding and calculated the correlation coefficient between the individual and the true breeding value of simulation data, can accurately predict the specificity in addition to achieve efficient breeding method provided by the invention also helps to detect and determine with some specific traits related genes function, help to achieve specific breeding.

【技术实现步骤摘要】
基于生物信息的选育良种系统及其算法
本专利技术涉及生物
,具体涉及了一种基于生物信息的选育良种系统及其算法。
技术介绍
在农业生物(作物、畜禽和水产生物)的产业链中,良种选育占有至关重要的地位。传统的育种方法大多基于遗传统计原理并结合生产实际,利用候选个体本身和(或)亲属的性状记录估计得到其育种值,并利用育种值为指标通过进行多世代的人工选育以实现品种培育和性状改良。然而这种方法往往存在着育种周期长,人力物力消耗大等缺点。如法国的“大约克”种猪就花了三十多年时间才选育成功。在乳牛育种领域通过传统后裔测定方式验证一头候选种公牛需要5-6年时间,大约投入5万美元。基于候选个体的遗传性状由其所携带的基因来决定的原理,通过利用候选个体的基因信息在基因层面来直接评估而非仅仅利用系谱信息和记录性状的表型数据来考量候选个体的遗传性状的优劣,将能够大大缩短育种时间及成本投入。利用候选个体的基因信息的育种方法主要包括两种。第一种方法称为标记辅助选择(MarkerAssistedSelection,MAS)方法,其试图通过部分基因组信息,即确定控制表型性状的基因信息来实现对目标性状的选择。该方法被有效利用的前提条件是与控制表型性状的基因相关的数量性状位点(QTL)能够确定并被精确定位。然而在实际育种应用中,决定某一经济性状的往往有很多基因,而每个基因的效应都不明显,从而造成QTL检测和定位的困难。即便存在有对经济性状贡献较大的主效基因,在构成表型性状的所有遗传变异中应用于MAS的遗传标记只能捕获主效基因所带来的那部分变异,而小效应累加起来所带来的变异却被忽视了。所以MAS方法只能有限地应用在经济性状的控制基因明确且控制基因的效应显著的性状选择中。为了捕获构成表型的所有遗传变异,需要在候选个体整个基因组水平上检测影响目标性状的所有QTL来进行选择利用,即在候选个体全基因组范围内进行标记辅助选择,这就是第二种方法:本专利技术所涉及的全基因组选择方法。该方法利用个体整个基因组高密度遗传标记图谱以保证影响目标性状的每一个QTL都与高密度全基因组标记图谱中的至少一个遗传标记处于连锁不平衡(LinkageDisequilibrium,LD)状态。通过这种连锁不平衡信息来实现对所有影响目标性状的QTL的捕捉,再通过LDMIP方法来实现良种选育。该方法比目前全基因组选择的另一常用方法GBLUP有更高的准确率。全基因组遗传标记还可以提供系谱中个体间更加精确的亲缘遗传关系,即连锁分析(LinkageAnalysis,LA)信息。利用个体及其父母的全基因组信息可以计算个体等位基因从父母处遗传的遗传几率,可以用来示踪等位基因在系谱中一代一代的传递。这种连锁分析信息对于例如检测和确定与疾病相关的功能基因位置方面非常重要:利用遗传标记可以示踪附近对疾病有效应的基因。这样如果标记附近有功能基因,并且样本足够大,携带不同标记等位基因的个体的表现就会显著不同。在品种选育中,人们除了追求高产优质等特性之外,能够有效抵御疾病的抗病能力也往往是重要的选育特性。通过连锁分析信息便可以检测在一个家系中等位基因与疾病的传递是否相关,有助于选育抗病能力强的个体。
技术实现思路
为解决上述技术问题,我们提出了一种基于生物信息的选育良种系统及其算法,其目的:准确预测以实现高效率特异性育种。为达到上述目的,本专利技术的技术方案如下:一种基于生物信息的选育良种系统,具体实施步骤如下:一、采用全基因组选择方法,首先获取参考群体和候选群体个体的基因组数据,其中,采用SNP遗传标记来获取基因型数据;二、获取系谱文件并进行预处理,向上追溯父母系谱信息至少5代及以上,系谱文件需要包含个体编号、父亲编号和母亲编号至少三段信息,在系谱文件中筛选具有基因型数据的基因分型个体,向上追溯父母系谱信息至少5代及以上以获得GA系谱;通过基因分型个体的基因型数据信息对系谱文件中父母及后代亲缘关系进行亲子鉴定以核查GA系谱文件,当根据基因型数据获得的亲子鉴定结果与原始GA系谱文件所显示的亲子关系不一致时,应以基因型数据获得的亲子鉴定结果为基准重新编排原始GA系谱文件;三、在完成基因型数据的预处理并得到了GA系谱文件后,通过LDMIP方法来完成,具体的LDMIP方法,如下:A、GA系谱中未基因分型的祖先个体,推知其基因型数据;B、根据基因型数据和GA系谱信息,计算个体等位基因从父母处遗传的遗传几率;C、通过LDMIP程序的计算结果可以建立起GA系谱中参考群体和候选群体之间的LDLA关系矩阵,这一关系矩阵既包括参考群体和候选群体之间基于基因型信息的个体亲缘关系,又包括参考群体和候选群体之间基于系谱信息的血缘关系,得到LDLA关系矩阵之后,对其求逆,然后通过混合模型方程组求解候选群体个体的全基因组育种值;D、同时利用个体等位基因从父母处遗传的遗传几率计算可以示踪等位基因在系谱中世代传递信息,如可以用于检测和确定与疾病相关的功能基因,有助于选育抗病能力强的个体。优选的,采用SNP遗传标记来获取基因型数据具体方式如下:通过SNP芯片获取参考群体和候选群体的基因型数据并进行预处理,首先基因分型个体的基因型数据如有缺失,对所缺失的基因型予以填充;然后通过SNP标记检出率、最小等位基因频率、Hardy-Weinberg平衡检验、个体检出率等参数优化数据质量。一种基于生物信息的选育良种系统的算法,对于基因型数据的每个SNP位点的两个等位基因用0、1进行编码从而得到每个个体的每个SNP位点基因型编码,其中,如第i个个体的第j个SNP位点的编码gij,则对于纯合子“00”的基因型编码为“0”;对于纯合子“11”编码为“2”;对于杂合子“10”或“01”编码为“1”;然后通过LDMIP程序根据GA系谱首先预测祖先个体基因型编码信息,然后计算每个基因座位的等位基因从父母处遗传的遗传几率,利用等位基因遗传几率可以得到连锁分析信息,通过LDMIP程序还可以同时得到连锁不平衡信息,与连锁分析信息共同组建GLDLA关系矩阵,其中,GLDLA关系矩阵的行数和列数相同,均为GA系谱中个体的数目。优选的,构建GLDLA关系矩阵要涉及到构建基于系谱信息的血缘关系矩阵-A矩阵,和基于SNP信息的亲缘关系矩阵-G矩阵,构建A矩阵的元素依据以下规则来递推确定,即对于系谱中一个体i和它的父亲s和母亲d,其与系谱中另一个体j的关系为:一、如果它的父亲和母亲都已知,则aij=aji=0.5(ajs+ajd)aii=1+0.5(asd);二、如果它的父亲s已知,母亲d未知,则aij=aji=0.5(ajs)aii=1;三、如果它的母亲d已知,父亲s未知,则aij=aji=0.5(ajd)aii=1;四、如果它的父亲和母亲都未知,则aij=aji=0aii=1;G矩阵的构建依据如下方法:其中Nm为SNP位点数目,对于个体i和个体j,X中的元素Xij由以下方法确定:其中gij为前述第i个个体的第j个SNP位点的基因型编码,pj为第j个SNP位点的第一个等位基因的基因频率,通过基因型数据样本计算得出;在A矩阵和G矩阵都构建好之后,利用如下方法构建GLDLA关系矩阵:GLDLA=D*A*D+Δ*G*Δ;而D和Δ分别是两个对角矩阵,其中D矩阵的对角元;Δ矩阵的对角元本文档来自技高网
...
基于生物信息的选育良种系统及其算法

【技术保护点】
一种基于生物信息的选育良种系统,其特征在于,具体实施步骤如下:一、采用全基因组选择方法,首先获取参考群体和候选群体个体的基因组数据,其中,采用SNP遗传标记来获取基因型数据;二、获取系谱文件并进行预处理,向上追溯父母系谱信息至少5代及以上,系谱文件需要包含个体编号、父亲编号和母亲编号至少三段信息,在系谱文件中筛选具有基因型数据的基因分型个体,向上追溯父母系谱信息至少5代及以上以获得GA系谱;通过基因分型个体的基因型数据信息对系谱文件中父母及后代亲缘关系进行亲子鉴定以核查GA系谱文件,当根据基因型数据获得的亲子鉴定结果与原始GA系谱文件所显示的亲子关系不一致时,应以基因型数据获得的亲子鉴定结果为基准重新编排原始GA系谱文件;三、在完成基因型数据的预处理并得到了GA系谱文件后,通过LDMIP方法来完成,具体的LDMIP方法,如下:A、GA系谱中未基因分型的祖先个体,推知其基因型数据;B、根据基因型数据和GA系谱信息,计算个体等位基因从父母处遗传的遗传几率;C、通过LDMIP程序的计算结果可以建立起GA系谱中参考群体和候选群体之间的LDLA关系矩阵,这一关系矩阵既包括参考群体和候选群体之间基于基因型信息的个体亲缘关系,又包括参考群体和候选群体之间基于系谱信息的血缘关系,得到LDLA关系矩阵之后,对其求逆,然后通过混合模型方程组求解候选群体个体的全基因组育种值;D、同时利用个体等位基因从父母处遗传的遗传几率计算可以示踪等位基因在系谱中世代传递信息,如可以用于检测和确定与疾病相关的功能基因,有助于选育抗病能力强的个体。...

【技术特征摘要】
1.一种基于生物信息的选育良种系统,其特征在于,具体实施步骤如下:一、采用全基因组选择方法,首先获取参考群体和候选群体个体的基因组数据,其中,采用SNP遗传标记来获取基因型数据;二、获取系谱文件并进行预处理,向上追溯父母系谱信息至少5代及以上,系谱文件需要包含个体编号、父亲编号和母亲编号至少三段信息,在系谱文件中筛选具有基因型数据的基因分型个体,向上追溯父母系谱信息至少5代及以上以获得GA系谱;通过基因分型个体的基因型数据信息对系谱文件中父母及后代亲缘关系进行亲子鉴定以核查GA系谱文件,当根据基因型数据获得的亲子鉴定结果与原始GA系谱文件所显示的亲子关系不一致时,应以基因型数据获得的亲子鉴定结果为基准重新编排原始GA系谱文件;三、在完成基因型数据的预处理并得到了GA系谱文件后,通过LDMIP方法来完成,具体的LDMIP方法,如下:A、GA系谱中未基因分型的祖先个体,推知其基因型数据;B、根据基因型数据和GA系谱信息,计算个体等位基因从父母处遗传的遗传几率;C、通过LDMIP程序的计算结果可以建立起GA系谱中参考群体和候选群体之间的LDLA关系矩阵,这一关系矩阵既包括参考群体和候选群体之间基于基因型信息的个体亲缘关系,又包括参考群体和候选群体之间基于系谱信息的血缘关系,得到LDLA关系矩阵之后,对其求逆,然后通过混合模型方程组求解候选群体个体的全基因组育种值;D、同时利用个体等位基因从父母处遗传的遗传几率计算可以示踪等位基因在系谱中世代传递信息,如可以用于检测和确定与疾病相关的功能基因,有助于选育抗病能力强的个体。2.根据权利要求1所述的一种基于生物信息的选育良种系统,其特征在于,采用SNP遗传标记来获取基因型数据具体方式如下:通过SNP芯片获取参考群体和候选群体的基因型数据并进行预处理,首先基因分型个体的基因型数据如有缺失,对所缺失的基因型予以填充;然后通过SNP标记检出率、最小等位基因频率、Hardy-Weinberg平衡检验、个体检出率等参数优化数据质量。3.权利要求1所述的一种基于生物信息的选育良种系统的算法,其特征在于,对于基因型数据的每个S...

【专利技术属性】
技术研发人员:栾图
申请(专利权)人:栾图尹聪梅森
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1