System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种与鸡腹脂重性状相关的SNP位点组合及其机器学习筛选方法和应用技术_技高网

一种与鸡腹脂重性状相关的SNP位点组合及其机器学习筛选方法和应用技术

技术编号:41255185 阅读:26 留言:0更新日期:2024-05-11 09:15
一种与鸡腹脂重性状相关的SNP位点组合及其机器学习筛选方法和应用,属于家禽基因组遗传育种领域。本发明专利技术为解决现有技术中缺乏精准筛选受多基因位点效应叠加影响的相关性状SNP位点的方法,以及缺少与鸡腹脂重性状相关SNP位点的技术问题,本发明专利技术提供一种与鸡腹脂重性状相关的SNP位点组合,所述SNP位点组合包括177个SNP位点,可用于分子辅助育种或全基因组育种,提高了鸡腹脂性状选育的效率和准确性,加速选育进程,节约育种成本;提供的筛选方法基于机器学习方法提高了对于腹脂性状的评价效果,将机器学习LASSO模型与递归消除法相结合筛选位点,将预测效果从0.9216提升至0.9956,提高了基因组预测准确性和精度。

【技术实现步骤摘要】

本专利技术属于家禽基因组遗传育种领域,涉及一种基于机器学习筛选方法,具体涉及一种与鸡腹脂重性状相关的snp位点组合及其应用。


技术介绍

1、腹部脂肪是决定肉鸡食用品质和产肉性能的关键性状指标之一,一方面,腹脂过多会会直接导致鸡肉品质下降,以及降低鸡肉的营养价值,另一方面,高腹脂鸡在同等体重下饲料转化率较低,增加了养殖成本。因此,选择和培育低腹脂鸡种群对于优化肉鸡具有重要的经济意义。

2、机器学习是一类可以对数据进行自动化建模并进行预测或者决策的算法,常用的机器学习方法包括:支持向量机模型、决策树模型和神经网络等。与传统的统计学方法相比,机器学习算法可以很好的处理高维特征,自动学习特征之间的复杂非线性关系。因此,利用机器学习算法可以实现snp高维特征自动学习,兼顾线性加性效应和非线性的基因型-环境效应,有效捕捉复杂性状的潜在遗传模式。

3、全基因组选择技术(genomic selection,gs)是基于高通量snp(单核苷酸多态性)标记的遗传评估方法。全基因组选择的实施方法是利用全基因组关联分析(genome wideassociation studies,gwas)等先验信息结合高通量重测序数据,根据基因型进行育种值估计,从而实现早期选择。相较传统的分子标记辅助选择(marker-assisted-selection,mas),可以更全面利用全部标记信息,预测准确性显著提高。

4、传统gwas方法通过单位点分析,初步识别与表型相关的snp位点,但单个snp的效应往往较小,多重snp之间可能存在复杂的非线性交互作用,因此,传统gwas分析技术对于多重共效应评价不足。而腹脂性状往往受多个基因位点的微小效应叠加影响,因此,传统gwas分析技术无法对腹脂性状的多重共效应进行充足的评价,因此需要引入其他多元分析方法,对snp之间的联合效应进行评估,从而更好地挖掘该性状的潜在遗传机制。

5、本领域技术人员一直渴望研发一种基于机器学习筛选与鸡腹脂重性状相关的snp位点的方法,精准筛选到与鸡腹脂重性状相关的snp位点组合,并将snp组合应用于分子辅助育种或鸡腹脂重全基因组育种中,充分发挥机器学习的优势,深度挖掘鸡腹脂性状遗传机制,为鸡肉品质的遗传改良和培育优质禽种提供理论基础和技术支撑。


技术实现思路

1、本专利技术为解决现有技术中缺乏精准筛选受多基因位点效应叠加影响的相关性状snp位点的方法,以及缺少与鸡腹脂重性状相关snp位点的技术问题,本专利技术提供一种与鸡腹脂重性状相关的snp位点组合及其机器学习筛选方法和应用。

2、本专利技术的目的之一在于提供一种与鸡腹脂重性状相关的snp位点组合,其特征在于,所述的组合包括177个snp位点,每个snp位点包含两种不同的碱基变异位点,用于检测该位点的等位基因变化,所述177个snp位点的变异信息如下:

3、

4、

5、本专利技术的目的之二在于提供一种与鸡腹脂重性状相关的snp位点的机器学习筛选方法,所述的筛选方法包括以下步骤:

6、s1、获取样本腹脂重表型数据和基因组数据;

7、s2、将s1中得到的基因组数据进行数据质量控制和基因型填充,获得数据集;

8、s3、基于全基因组关联分析,通过设定p值阈值,结合s1中获得样本腹脂重表型数据对s2中获得的数据集进行snp位点的筛选;

9、s4、基于连锁不平衡分析,通过设定ld系数r2阈值,对s3中筛选后的数据集进行snp位点的筛选;

10、s5、利用lasso线性模型,通过惩罚项l1,对s4中筛选后的snp位点进行特征选择;

11、s6、结合递归消除算法对s5特征选择后的snp位点进行稳定优化选择,获得snp位点组合。

12、在本专利技术的一种优选实施例中,步骤s1中所述的获取样本腹脂重表型数据和基因组数据的步骤为:

13、所述样本腹脂重为样本鸡的腹脂重,所述样本鸡为160只7周龄的高脂系公鸡和170只7周龄的低脂系公鸡;所述公鸡为东北农业大学阿城动物实验基地饲喂的东北农业大学第十九世代高低脂系双向选择品系白羽肉鸡;

14、对上述样本鸡样本腹脂重进行测量,获得腹脂重表型信息;

15、收集上述330只样本鸡的翅静脉血为样本,进行edta抗凝处理,提取dna,通过全基因组重测序技术进行基因检测,与参考基因组相比对,得到基因组数据。

16、在本专利技术的一种优选实施例中,所述的全基因组重测序技术使用的测序平台为illumina pe150,测序深度为5x,测序质量为q30≥87%,参考基因组为gallus gallusgrcg7b;

17、所述的数据比对方法为:

18、通过生物信息分析软件bwa将clean reads比对到鸡参考基因组gallus gallusgrcg7b上;

19、利用gatk软件进行snp基因型数据的检出;

20、在samtools包中执行群体规模的snp calling。

21、在本专利技术的一种优选实施例中,s2中所述的将s1中得到的基因组数据进行数据质量控制及基因型填充步骤为:

22、通过vcftools软件工具筛选最小等位基因频率>5%的基因型;

23、利用plink软件工具筛选含有2个alt变异的位点;

24、使用beagle软件工具推断缺失位点的基因型,填充vcf文件中缺失的基因型数据,获得完整数据集。

25、在本专利技术的一种优选实施例中,s3中所述的p值阈值为1*e-4。

26、在本专利技术的一种优选实施例中,s4中所述的ld系数r2阈值为0.1。

27、本专利技术的目的之三在于提供一套核苷酸探针组合,所述核苷酸探针组合用于检测上述的snp位点组合。

28、本专利技术的目的之四在于提供一种液相基因芯片,所述液相基因芯片用于检测上述的snp位点组合,所述液相基因芯片含有上述的核苷酸探针组合。

29、本专利技术的目的之五在于提供一种上述snp位点组合、核苷酸探针组合或液相基因芯片在鸡腹脂重分子辅助育种或鸡腹脂重全基因组育种中的应用。

30、本专利技术的有益效果:

31、本专利技术提供的筛选方法基于机器学习算法结合gwas和ld筛选相关snp位点,相比于传统gwas分析技术,提高了对于多基因控制的腹脂性状的评价效果,具有更高的准确性和精度;提供了lasso与rfe相结合的特征选择框架,将lasso模型的l1正则化过程与包裹法中的递归特征消除法rfe相结合,在提高预测准确性的同时,控制特征选择的计算成本,尤其针对由微效多基因控制的复杂性状进行基因组预测时,将预测效果从0.9216提升至0.9956,表明专利技术的的两级筛选组合策略显著优于单独使用lasso模型或rfe算法。

32、本专利技术提供的snp位点组合、探针组合和基因芯片,可用来选择育种和基因检测,不过本文档来自技高网...

【技术保护点】

1.一种与鸡腹脂重性状相关的SNP位点组合,其特征在于,所述的组合包括177个SNP位点,每个SNP位点包含两种不同的碱基变异位点,用于检测该位点的等位基因变化,所述177个SNP位点的变异信息如下:

2.一种与鸡腹脂重性状相关的SNP位点组合的机器学习筛选方法,其特征在于,所述筛选方法包括以下步骤:

3.根据权利要求2所述的筛选方法,其特征在于,步骤S1中所述的获取样本腹脂重表型数据和基因组数据的步骤为:

4.根据权利要求3所述的筛选方法,其特征在于,所述的全基因组重测序技术使用的测序平台为Illumina PE150,测序深度为5x,测序质量为Q30≥87%,参考基因组为Gallusgallus GRCg7b;

5.根据权利要求2所述的筛选方法,其特征在于,S2中所述的将S1中得到的基因组数据进行数据质量控制及基因型填充步骤为:

6.根据权利要求2所述的筛选方法,其特征在于,S3中所述的p值阈值为1*e-4。

7.根据权利要求2所述的筛选方法,其特征在于,S4中所述的LD系数r2阈值为0.1。

>8.一套核苷酸探针组合,其特征在于,所述核苷酸探针组合用于检测如权利要求1所述的SNP位点组合。

9.一种液相基因芯片,其特征在于,所述液相基因芯片用于检测如权利要求1所述的SNP位点组合,所述液相基因芯片含有权利要求8所述的核苷酸探针组合。

10.一种如权利要求1所述的SNP位点组合、权利要求8所述的核苷酸探针组合或权利要求9所述的液相基因芯片在鸡腹脂重分子辅助育种或鸡腹脂重全基因组育种中的应用。

...

【技术特征摘要】

1.一种与鸡腹脂重性状相关的snp位点组合,其特征在于,所述的组合包括177个snp位点,每个snp位点包含两种不同的碱基变异位点,用于检测该位点的等位基因变化,所述177个snp位点的变异信息如下:

2.一种与鸡腹脂重性状相关的snp位点组合的机器学习筛选方法,其特征在于,所述筛选方法包括以下步骤:

3.根据权利要求2所述的筛选方法,其特征在于,步骤s1中所述的获取样本腹脂重表型数据和基因组数据的步骤为:

4.根据权利要求3所述的筛选方法,其特征在于,所述的全基因组重测序技术使用的测序平台为illumina pe150,测序深度为5x,测序质量为q30≥87%,参考基因组为gallusgallus grcg7b;

5.根据权利要求2所述的筛选方法,其特征...

【专利技术属性】
技术研发人员:张慧刘欣彤李辉曹志平栾鹏李玉茂陈恒聪路敏
申请(专利权)人:东北农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1