System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于生物信息学,具体涉及一种基于隐马尔可夫模型的嗅觉受体基因注释方法和系统。
技术介绍
1、嗅觉在脊索动物的生存、繁衍和社交等方面起着至关重要的作用。嗅觉的实现依赖于嗅觉受体基因的表达。对于脊索动物来说,大部分的嗅觉受体基因在嗅觉组织或者器官内表达,用于识别环境中气味分子;也有部分在肌肉、大脑和皮肤等多种非嗅觉组织或器官中表达即异位表达,并被证明与多种疾病密切相关。近几年,越来越多的证据表明有些嗅觉受体基因在多种肿瘤组织中异常表达。这意味着嗅觉受体不仅可以作为嗅觉功能的执行者,还可以作为潜在的药物靶点,具有重要的研究价值和应用前景。
2、嗅觉受体基因在物种间的数量分布不均匀,通常来说从数十条到数千条不等,并且假基因比例很高。这些原因导致高质量地注释嗅觉受体基因这一工作相对比较困难。因此,目前公共数据库中收录的嗅觉受体数据存在着较为严重的数据质量问题。主要体现在数据缺失和数据不平衡两个方面。而这两方面的问题很大程度上是嗅觉受体基因注释方法的缺陷所造成的。
3、基因注释即在基因组序列上标定基因位置与组成结构等信息,基因注释对于识别基因、研究基因的表达调控机制、研究基因在生物体代谢途径中的地位、分析基因、基因产物之间的相互作用关系、预测和发现蛋白质功能以及揭示生命的起源和进化等具有重要的意义。基因注释是基因组学研究的一个必需步骤和基本前提,这通常包括从头注释、同源注释和基于转录组和蛋白质组的注释,注释结果的好坏直接影响到后续研究的有效性和准确性。
4、对于嗅觉受体基因注释的策略主要包括采用
技术实现思路
1、鉴于上述,本专利技术的目的是提供一种基于隐马尔可夫模型的嗅觉受体基因注释方法和系统,使用dna序列构建隐马尔可夫模型定位嗅觉受体基因的坐标,进一步提取序列片段并利用嗅觉受体序列特征和模式匹配来鉴定功能性嗅觉受体基因和嗅觉受体假基因,最终实现嗅觉受体基因注释。本专利技术能够提高注释速度、敏感度、鲁棒性和普适性,适用于大规模的准确的注释脊索动物嗅觉受体基因的应用场景。
2、为实现上述专利技术目的,本专利技术提供的技术方案如下:
3、本专利技术实施例提供的一种基于隐马尔可夫模型的嗅觉受体基因注释方法,包括以下步骤:
4、构建嗅觉受体基因的隐马尔可夫模型,基于隐马尔可夫模型从给定的待注释基因组中预测嗅觉受体基因的同源区域并生成包含嗅觉受体基因坐标位置信息的命中列表;
5、从命中列表中解析出嗅觉受体基因的同源区域中的同源片段在待注释基因组中的坐标并切取该同源片段,对每一条同源片段构建潜在编码区域序列列表,排除潜在编码区域序列列表中的非嗅觉受体编码基因片段,最终获得潜在功能性嗅觉受体基因列表组;
6、对于潜在功能性嗅觉受体基因列表组中的每一个潜在功能性嗅觉受体基因列表,将其与模板序列合并成新的序列集合,并进行序列比对,鉴定得到功能性嗅觉受体基因和嗅觉受体假基因,最终实现嗅觉受体基因注释。
7、优选地,所述构建嗅觉受体基因的隐马尔可夫模型,包括:
8、从ncbi核酸数据库中获取所有嗅觉受体基因的编码dna序列;
9、根据dna序列所属的物种谱系关系对dna序列进行分类;
10、对dna序列去冗余后使用mafft- linsi算法对dna序列进行多序列比对数据;
11、根据多序列比对数据构建脊索动物各个演化分支的嗅觉受体基因的隐马尔可夫模型。
12、优选地,所述对每一条同源片段构建潜在编码区域序列列表,排除潜在编码区域序列列表中的非嗅觉受体编码基因片段,最终获得潜在功能性嗅觉受体基因列表组,包括:
13、向同源片段的5’和3’端分别延伸一段碱基片段;
14、识别延伸碱基片段后同源片段的起始密码子和终止密码子;
15、获取所有从起始密码子开始到终止密码子结束中间的序列片段构建潜在编码区域序列列表;
16、通过设置第一过滤条件从潜在编码区域序列列表排除非嗅觉受体编码基因片段,从而获得潜在功能性嗅觉受体基因列表组。
17、优选地,所述第一过滤条件,包括:
18、所有潜在的编码区域序列长度都小于750个核苷酸;所有潜在编码区域序列长度都不能被3整除;所有潜在编码区域序列中间都存在终止密码子;
19、未满足第一过滤条件中全部条件的序列片段将作为潜在功能性嗅觉受体基因编码区域,所有潜在功能性嗅觉受体基因编码区域最终生成潜在功能性嗅觉受体基因列表组;满足第一过滤条件中至少一个条件的序列片段将被分类为截短基因或嗅觉受体假基因。
20、优选地,所述对于潜在功能性嗅觉受体基因列表组中的每一个潜在功能性嗅觉受体基因列表,将其与模板序列合并成新的序列集合,并进行序列比对,鉴定得到功能性嗅觉受体基因和嗅觉受体假基因,包括:
21、构建多条典型的嗅觉受体序列作为模板序列,模版序列被准确的界定了包含n端、胞内环、胞外环、跨膜螺旋结构域和c端区域的边界;
22、将潜在功能性嗅觉受体基因列表组中的每一个潜在功能性嗅觉受体基因列表中的基因序列与模板序列合并成新的序列集合,并进行序列比对,基于每个区域进行模式匹配打分,最终根据嗅觉受体的序列特征通过第二过滤条件鉴定出功能性嗅觉受体基因和嗅觉受体假基因。
23、优选地,所述第二过滤条件,包括:
24、潜在功能性嗅觉受体基因列表组中所有基因序列模式匹配分数都小于10;跨膜螺旋结构域的未比对位置总数都大于5;含未比对位置的跨膜螺旋结构域个数都大于2;
25、未满足第二过滤条件中全部条件的基因序列将被进一步鉴定为功能性嗅觉受体基因;满足第二过滤条件中至少一个条件的潜在功能性嗅觉受体基因列表中模式匹配分数最高的基因序列被鉴定为嗅觉受体假基因。
26、优选地,所述物种谱系为纲、亚纲和总目级别的谱系分类数据。
27、优选地,所述方法还包括:
28、对鉴定得到的功能性嗅觉受体基因进行迭代注释,每一轮迭代过程中都会将新增加的序列特征更新到隐马尔可夫模型谱文件中,直到达到最大迭代次数或者注释结果本文档来自技高网...
【技术保护点】
1.一种基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述构建嗅觉受体基因的隐马尔可夫模型,包括:
3.根据权利要求1所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述对每一条同源片段构建潜在编码区域序列列表,排除潜在编码区域序列列表中的非嗅觉受体编码基因片段,最终获得潜在功能性嗅觉受体基因列表组,包括:
4.根据权利要求3所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述第一过滤条件,包括:
5.根据权利要求1所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述对于潜在功能性嗅觉受体基因列表组中的每一个潜在功能性嗅觉受体基因列表,将其与模板序列合并成新的序列集合,并进行序列比对,鉴定得到功能性嗅觉受体基因和嗅觉受体假基因,包括:
6.根据权利要求5所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述第二过滤条件,包括:
7.根据权利要求2所述的基于隐马尔可
8.根据权利要求1-7任一项所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述方法还包括:
9.一种基于隐马尔可夫模型的嗅觉受体基因注释系统,其特征在于,包括定位模块、搜索模块和鉴定模块;
10.根据权利要求9所述的基于隐马尔可夫模型的嗅觉受体基因注释系统,其特征在于,所述系统还包括迭代注释模块和批量注释模块;
...【技术特征摘要】
1.一种基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述构建嗅觉受体基因的隐马尔可夫模型,包括:
3.根据权利要求1所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述对每一条同源片段构建潜在编码区域序列列表,排除潜在编码区域序列列表中的非嗅觉受体编码基因片段,最终获得潜在功能性嗅觉受体基因列表组,包括:
4.根据权利要求3所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述第一过滤条件,包括:
5.根据权利要求1所述的基于隐马尔可夫模型的嗅觉受体基因注释方法,其特征在于,所述对于潜在功能性嗅觉受体基因列表组中的每一个潜在功能性嗅觉受体基因列...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。