一种高粱优良基因的挖掘方法技术

技术编号:37608804 阅读:17 留言:0更新日期:2023-05-18 12:00
本发明专利技术涉及生物信息技术领域,公开了一种高粱优良基因的挖掘方法。本发明专利技术高粱优良基因的挖掘方法包括:根据文献或经验确定选育高粱品种所需要的品质性状,选取具备和不具备所需品质性状的高粱品种;通过测序获得所述高粱品种转录组的基因表达;对所述转录组的基因表达数据进行预处理,对于每个品质性状利用遗传算法对预处理之后的数据进行特征选择,选出的所有性状的优良基因集合作为高粱优良基因集,为高粱育种提供候选优异基因集。高粱育种提供候选优异基因集。高粱育种提供候选优异基因集。

【技术实现步骤摘要】
一种高粱优良基因的挖掘方法


[0001]本专利技术属于生物信息
,具体地涉及一种高粱优良基因的挖掘方法。

技术介绍

[0002]培育优异的作物过程称为作物育种又称品种改良。高产、稳产、优质、高效是育种的目标。优良的作物农艺性状主要受控于优异的关键功能基因,鉴定并将这些基因应用于作物遗传改良是种质资源研究的中心任务之一。
[0003]目前现有的高粱优良基因的获得/挖掘方法为传统育种技术方法,通常通过自然变异选择育种法和杂交育种法来发现和获得优异基因。然而这些方法要么受制于自然界出现优良变异,要么受制于方法本身,没有办法获得具体哪个或哪些基因还会出现性状分离,无法稳定地遗传给下一代。随着现代生物技术的发展,出现了分子辅助育种,具有快速、准确、不受环境条件干扰的优点。得益于生物组学和人工智能的蓬勃发展,AI育种成为近年来的一个热词。AI育种,就是利用人工智能技术帮助育种家加速育种材料筛选的进程,这里面既包括了基因型大数据的分析、预测,也包括表型大数据的分析、预测,实质上是希望借助人工智能的各种算法,加速“万里挑一”、“大海里捞针”的过程。但目前AI育种技术主要还是用在考种,利用AI结合生物组学技术挖掘高粱优异基因还未见报道。

技术实现思路

[0004]本专利技术的目的是提供一种高粱优良基因的挖掘方法,通过人工智能算法中的遗传算法挖掘高粱优异基因,为高粱育种提供候选优异基因集。
[0005]为了实现上述目的,本专利技术采取以下技术方案:
[0006]本专利技术的一个目的在于提供一种高粱优良基因的挖掘方法,包括以下步骤:
[0007]1)根据文献或经验确定选育高粱品种所需要的品质性状,选取具备和不具备所需品质性状的高粱品种;
[0008]2)通过测序获得所述高粱品种转录组的基因表达;
[0009]3)对所述转录组的基因表达数据进行预处理:包括:删除重复数据;使用正态分布判断大于3δ的基因表达值判定为异常值,将异常值替换为除了异常值以外的最大值;对数据取对数处理;对基因表达矩阵进行分位数标准化使得样本具有可比性;
[0010]4)对于每个品质性状利用遗传算法对预处理之后的数据进行特征选择:包括:原始特征集为所有测序所获得的基因集合;经过遗传算法初始化,随机选择N个基因作为初始特征基因集;使用随机森林算法评估特征基因集,将特征基因按照随机森林所给的重要性进行排序,重要性作为适应度值,以设定的迭代次数为算法终止条件,最终确定的特征基因集为高粱某性状的优良基因集;
[0011]5)将4)中选出的所有性状的优良基因集合作为高粱优良基因集。
[0012]作为一种可实施的方式,所述品质性状包括以下一种或几种:籽粒饱满、产量高、单宁酸含量低、蛋白质、淀粉及微量元素含量高。
[0013]作为一种可实施的方式,以高粱和所需品质性状作为组合字段搜索数据库,确定具备和不具备所需品质性状的高粱品种。
[0014]优选的,所述高粱品种除了具备和不具备所需品质性状外,其它性状尽可能一致。
[0015]作为一种可实施的方式,选取具备所需品质性状的高粱品种作为特征基因选择的正样本,选取不具备所需品质性状的高粱品种作为特征基因选择的负样本,将正负样本进行转录组测序。
[0016]作为一种可实施的方式,所述遗传算法的编码方式为0/1编码,即选择基因i则为1,不选择该基因则为0,由此染色体编码为0/1序列,种群为多个0/1序列;选择方式采用适应度比例方式计算选择概率;设定交叉概率为0.5,采用单点交叉,突变率0.0002。
[0017]进一步的,所述适应度比例方式计算选择概率为:其中,i为某个基因,f
i
为适应度,p
si
为被选中的概率。
[0018]作为一种可实施的方式,所述随机森林算法采用10折交叉验证,以平均分类准确率评估衡量特征集。
[0019]作为一种可实施的方式,将选出的各个优良品质性状的基因集合取并集,作为最终的高粱优良品质基因集。
[0020]本专利技术与现有技术相比,具有以下优点和效果:
[0021]本专利技术高粱优良基因的挖掘方法,通过人工智能算法中的遗传算法能够高效、准确的挖掘高粱优异基因,为高粱育种提供候选优异基因集。通过本专利技术的方法,在获得了重要农艺性状的优异基因后,可以供相关科学家进行功能分析,这不仅可以是理论研究和国际基因资源竞争的需要,更是为通过分子育种的方法获得高产、优质、抗逆性好的优异高粱新品种的基因候选来源依据。
附图说明
[0022]图1为本专利技术高粱优良基因挖掘方法的具体流程图;
[0023]图2为建模遗传算法挖掘优异基因的具体流程图。
具体实施方式
[0024]下面结合具体实施例对本专利技术作进一步说明,但本专利技术并不限于以下实施例。实施例中所使用的实验方法如无特殊说明,均为常规方法,所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
[0025]实施例1
[0026]一种高粱优良基因的挖掘方法,依次进行以下步骤:
[0027]1)通过文献及育种专家的经验,确定选育需要的品质性状,如:籽粒饱满、产量高、单宁酸含量低、蛋白质、淀粉及微量元素含量高等。选取具备和不具备所需品质性状的高粱品种。选取的品种除了具备或不具备优异性状外的其它性状尽可能一致。简单的举例说,高粱A具有籽粒饱满的特性,而高粱B除了籽粒不饱满外其它性状和高粱A基本相同。
[0028]具体如下:
[0029]通过pubmed数据库,以高粱的英文表示(Broomcorn,RedSorghum,Red Shum)加上
品质性状英语单词组合搜索数据库,阅读文献,并从中确定选取具备和不具备相关品质性状的高粱品种。在此,通过相关资料的检索,选择具备籽粒饱满的品种A作为正样本和不具备籽粒饱满的品种B(其它性状和高粱A基本相同)作为负样本。
[0030]2)选取具有和不具有1)中所述品质性状品质的高粱,通过生物学实验和高通量转录组测序技术(RNA

Seq)获得转录组的基因表达。
[0031]具体如下:
[0032]选取具备所需品质性状的高粱品种A的种子作为特征基因选择的正样本,选取不具备所需品质的性状的高粱品种B的种子作为特征基因选择的负样本,尽量选取数量均等的正负样本一同进行转录组测序。转录组测序方法参考HuffordMB,SeetharamAS,WoodhouseMR,etal.Denovoassembly,annotation,andcomparativeanalysisof26diversemaizegenomes.Science.2021;373(6555):655

662.doi:10.1126/science.abg5289。
[0033]3)对转录组表达数据进行数据预处理;
[0034]具体如下:
[0035]针对步骤2)所得的转录组测序数据即行为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高粱优良基因的挖掘方法,其特征在于,包括以下步骤:1)根据文献或经验确定选育高粱品种所需要的品质性状,选取具备和不具备所需品质性状的高粱品种;2)通过测序获得所述高粱品种转录组的基因表达;3)对所述转录组的基因表达数据进行预处理,对基因表达矩阵进行分位数标准化使得样本具有可比性:包括:删除重复数据;使用正态分布判断大于3δ的基因表达值判定为异常值,将异常值替换为除了异常值以外的最大值;对数据取对数处理;4)对于每个品质性状利用遗传算法对预处理之后的数据进行特征选择:包括:原始特征集为所有测序所获得的基因集合;经过遗传算法初始化,随机选择N个基因作为初始特征基因集;使用随机森林算法评估特征基因集,将特征基因按照随机森林所给的重要性进行排序,重要性作为适应度值,以设定的迭代次数为算法终止条件,最终确定的特征基因集为高粱某性状的优良基因集;5)将4)中选出的所有性状的优良基因集合作为高粱优良基因集。2.根据权利要求1高粱优良基因的挖掘方法,其特征在于,所述品质性状包括以下一种或几种:籽粒饱满、产量高、单宁酸含量低、蛋白质、淀粉及微量元素含量高。3.根据权利要求1高粱优良基因的挖掘方法,其特征在于,所述1)中,以高粱和所需品质性状作为组合字段搜索数据库,确定具备和不具备所需品...

【专利技术属性】
技术研发人员:邹桂花朱天生陈合云刘合芹郑学强刘秀慧
申请(专利权)人:浙江农林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1