System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种机器学习辅助育种方法和育种芯片技术_技高网

一种机器学习辅助育种方法和育种芯片技术

技术编号:41820655 阅读:3 留言:0更新日期:2024-06-24 20:35
本发明专利技术公开了一种机器学习辅助育种方法和育种芯片,所述育种方法主要通过生物特定生长条件下特定发育时期特定组织基因表达数据对生物特定表型进行预测,能显著缩短育种成本,提升育种效率和成功率;所述育种芯片主要基于上述基因表达数据定制,可通过机器学习最适计算模型对生物特定表型进行预测。本发明专利技术旨在解决传统基于基因组数据进行机器学习辅助育种的固有弊端,如高杂合、高重复的复杂基因组和没有高质量参考基因组物种的相关特征数据提取困难且准确度低的问题。本发明专利技术提出了复杂基因组物种机器学习辅助育种新方法,且该方法也适用于基因组信息清晰明确且基因组复杂度低的物种。

【技术实现步骤摘要】

本专利技术属于生物育种领域,具体涉及一种机器学习辅助育种方法和育种芯片


技术介绍

1、近年来,为解决生物育种周期长、效率低且育种成本高的问题,机器学习技术被引入到育种领域。通过大量的基因组数据、环境数据以及表型数据的输入,机器学习可以构建复杂的模型进行预测,以辅助育种人员更准确地选择具有目标性状的个体,提高育种效率。现有机器学习辅助育种技术多依赖于基因组数据或表型数据对将来的生物育种性状进行预测。但很多生物基因组复杂,高度杂合、高度重复、基因组大且倍性高,甚至有的物种基因组不完善,导致基因组变异信息挖掘困难,限制了现有机器学习技术在这些物种中应用,亟需一种新的方法来解决复杂基因组物种机器学习辅助育种应用难的问题。


技术实现思路

1、专利技术目的:本专利技术的目的在于针对复杂基因组物种机器学习辅助育种应用难的问题,提出一种通过基因表达数据进行机器学习的辅助育种方法;本专利技术还旨在提供一种育种芯片。

2、技术方案:本专利技术所述的机器学习辅助育种方法,所述方法基于基因表达数据进行机器学习分析,预测生物特定发育时期表型。

3、进一步地,所述基因表达数据为通过采集该物种特定生长条件下特定发育时期的特定组织获得基因表达数据。

4、进一步地,基于基因表达数据通过机器学习算法提取特征数据用于分析。

5、进一步地,通过采集正常生长作物幼苗叶片组织获得基因表达数据。

6、进一步地,所述基因表达数据的获取包括但不限于如下手段:转录组测序、表达序列标签测序、基因表达芯片、荧光实时定量聚合酶链式反应等。

7、进一步地,所述方法通过该物种特定发育时期特定组织部位基因表达数据提取特征数据进行作物特定发育时期表型预测。

8、进一步地,所述特定生长条件下特定发育时期的特定组织包括但不限于动物、植物或其他生物不同生长条件、不同发育时期、不同组织部位的组织样品。

9、进一步地,所述特征数据通过机器学习算法进行特征选择后获得,包括但不限于lasso回归、随机森林、逻辑回归等算法。

10、进一步地,所述特定发育时期表型包括但不限于采后保鲜期和成熟期生长表型。

11、进一步地,将特定群体划分为训练集和测试集,对训练集进行特征选择并进行机器学习模型训练,在测试集进行模型评估,最终通过新的群体进行模型验证,以确定模型的可靠性,进而获得最优基因集和最适计算模型。

12、一种育种芯片,该芯片包含上述特征数据的基因序列,用于特征数据基因表达检测,进而可通过最适计算模型进行表型预测。

13、有益效果:与现有技术相比,本专利技术具有如下显著优点:所用基因表达数据易获得,且数据分析简单;对于高度杂合、高度重复、基因组大且倍性高的复杂基因组,或者基因组数据不完善的物种,该方法具有明显优势,可简单容易的通过基因表达数据进行机器学习分析和预测,而与之相比,在这些物种中,传统的基于基因组数据进行机器学习分析和预测的难度大或无法完成;该方法亦适用于基因组数据完善且基因组简单的物种;该方法提出通过特定时期(如幼年期)该物种基因表达数据对特定时期(如成年期)生物表型进行预测,可达到“七岁看老”的效果,具有很强的创新性;通过本专利技术,可以获得特定基因集用于最适计算模型进行表型预测,该基因集可用于定制育种芯片,进而实现基因表达芯片辅助育种。

本文档来自技高网...

【技术保护点】

1.一种机器学习辅助育种方法,其特征在于,所述方法基于基因表达数据进行机器学习分析,预测生物特定发育时期表型。

2.如权利要求1所述的机器学习辅助育种方法,其特征在于,所述基因表达数据为通过采集该物种特定生长条件下特定发育时期的特定组织获得基因表达数据。

3.如权利要求1所述的机器学习辅助育种方法,其特征在于,基于基因表达数据通过机器学习算法提取特征数据用于分析。

4.如权利要求1所述的机器学习辅助育种方法,其特征在于,基因表达数据的获取包括如下手段:转录组测序、表达序列标签测序、基因表达芯片和荧光实时定量聚合酶链式反应。

5.如权利要求1所述的机器学习辅助育种方法,其特征在于,通过该物种特定发育时期特定组织部位基因表达数据提取特征数据进行作物特定发育时期表型预测。

6.如权利要求2所述的机器学习辅助育种方法,其特征在于,所述特定生长条件下特定发育时期的特定组织包括动物、植物或其他生物不同生长条件、不同发育时期、不同组织部位的组织样品。

7.如权利要求3所述的机器学习辅助育种方法,其特征在于,所述特征数据通过机器学习算法进行特征选择后获得,包括但不限于LASSO回归、随机森林、逻辑回归等算法。

8.如权利要求1所述的机器学习辅助育种方法,其特征在于,所述特定发育时期表型包括采后保鲜期和成熟期生长表型。

9.如权利要求1所述的机器学习辅助育种方法,其特征在于,将特定群体划分为训练集和测试集,对训练集进行特征选择并进行机器学习模型训练,在测试集进行模型评估,最终通过新的群体进行模型验证,以确定模型的可靠性,进而获得最优基因集和最适计算模型。

10.一种育种芯片,其特征在于,该芯片包含权利要求3所述特征数据的基因序列,用于特征数据基因表达检测,进而可通过最适计算模型进行表型预测。

...

【技术特征摘要】

1.一种机器学习辅助育种方法,其特征在于,所述方法基于基因表达数据进行机器学习分析,预测生物特定发育时期表型。

2.如权利要求1所述的机器学习辅助育种方法,其特征在于,所述基因表达数据为通过采集该物种特定生长条件下特定发育时期的特定组织获得基因表达数据。

3.如权利要求1所述的机器学习辅助育种方法,其特征在于,基于基因表达数据通过机器学习算法提取特征数据用于分析。

4.如权利要求1所述的机器学习辅助育种方法,其特征在于,基因表达数据的获取包括如下手段:转录组测序、表达序列标签测序、基因表达芯片和荧光实时定量聚合酶链式反应。

5.如权利要求1所述的机器学习辅助育种方法,其特征在于,通过该物种特定发育时期特定组织部位基因表达数据提取特征数据进行作物特定发育时期表型预测。

6.如权利要求2所述的机器学习辅助育种方法,其特征在于,所述特定生长...

【专利技术属性】
技术研发人员:陈发棣王利凯毛辰元郭梓婷管志勇房伟民张飞陈素梅
申请(专利权)人:南京农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1