当前位置: 首页 > 专利查询>云南大学专利>正文

一种基于半监督深度学习的绝缘子元件预测系统技术方案

技术编号:23625891 阅读:29 留言:0更新日期:2020-03-31 23:16
本发明专利技术公开了一种基于半监督深度学习的绝缘子元件预测系统,包括提取模块、编码模块、训练模块和分析模块;提取模块、编码模块、训练模块和分析模块依次连接;所述提取模块用于取出DNA中的染色体号序列;编码模块用于截取序列并对截取序列编码;训练模块用于训练并生成绝缘子元件预测模型;分析模块用于通过训练后的绝缘子元件预测模型识别分析DNA染色体序列中的绝缘子序列;本发明专利技术通过半监督阶梯网络和卷积神经网络结合,建立了绝缘子元件预测模型,可以有效且精准的识别出DNA序列中的绝缘子序列;同时也有效减小了绝缘子元件识别的成本和工序。

An insulator unit prediction system based on semi supervised deep learning

【技术实现步骤摘要】
一种基于半监督深度学习的绝缘子元件预测系统
本专利技术涉及生物绝缘子预测领域,尤其是一种基于半监督深度学习的绝缘子元件预测系统。
技术介绍
染色质绝缘子是DNA-蛋白质复合物,在核生物学中具有广泛的功能,概括的来说,绝缘子位于增强子或启动子和基因之间,用于减少或者阻断基因表达,或者作为异染色质屏障,绝缘子元件在基因治疗中有十分重要的意义,目前在基因治疗领域有一个很大的障碍就是由于插入操作引起的基因毒性和基因突变,有效的寻找到短片段的绝缘子元件,能够阻碍或者调控致病基因的表达,提高基因治疗的安全性。传统的方式是通过细胞实验来验证绝缘子片段,这种方式不仅低效而且价格昂贵。已知的生物信息学方法也不能有效提取绝缘子元件内部的特征(序列模序motif)。
技术实现思路
本专利技术的专利技术目的在于:针对上述存在的问题,提供一种基于半监督深度学习的绝缘子元件预测系统和方法;本专利技术解决了绝缘子片段验证效率低,成本高的问题;解决了不能有效提取绝缘子元件内部的特征的问题。本专利技术采用的技术方案如下:一种基于半监督深度学习的绝缘子元件预测系统,包括提取模块、编码模块、训练模块和分析模块;提取模块、编码模块、训练模块和分析模块依次连接;所述提取模块用于取出DNA中的染色体号序列;编码模块用于截取序列并对截取序列编码;训练模块用于训练并生成绝缘子元件预测模型;分析模块用于通过训练后的绝缘子元件预测模型识别分析DNA染色体序列中的绝缘子序列。进一步的,所述取出DNA中的染色体号序列是由染色体号的开始位置和结束位置之间取出序列。进一步的,所述编码模块通过热一编码对序列进行编码,将序列转换为矩阵。进一步的,所述绝缘子元件预测模型是由阶梯网络进行卷积神经网络训练建立而成。进一步的,所述阶梯网络为半监督阶梯网络,包括。进一步的,所述卷积神经网络算法为:进一步的,所述训练包括:在将截取出的染色体序列进行编码得到矩阵后;将矩阵输入神经网络算法中进行训练。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:1、本专利技术通过半监督阶梯网络和卷积神经网络结合,建立了绝缘子元件预测模型,可以有效且精准的识别出DNA序列中的绝缘子序列。2、本专利技术也有效减小了绝缘子元件识别的成本和工序。附图说明本专利技术将通过例子并参照附图的方式说明,其中:图1是绝缘子元件预测系统结构图。图2是热一编码图。其中,1-提取模块;2-编码模块;3-训练模块;4-分析模块。具体实施方式本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。实施例1一种基于半监督深度学习的绝缘子元件预测系统,如图1所示,包括提取模块1、编码模块2、训练模块3和分析模块4;提取模块1、编码模块2、训练模块3和分析模块4依次连接。所述提取模块1用于取出DNA中的染色体号序列,所述取出DNA中的染色体号序列是由染色体号的开始位置和结束位置之间取出序列。编码模块2用于截取序列并对截取序列编码;所述截取序列是截取染色体序列长度,本实施例中,优选的截取序列长度为800bp;所述序列编码是通过热一编码对序列进行编码,热一编码可以对空间进行扩展,将原来一维空间中的离散特征扩展成欧氏空间中的一个点,这种方法能够从空间的角度提取数据的特征,计算样本间的相似度;序列数据的热一编码如图2所示;通过热一编码可以将长度为n的序列编码得到4*n的矩阵。训练模块3用于训练并生成绝缘子元件预测模型;所述绝缘子元件预测模型由阶梯网络进行卷积神经网络训练建立而成;阶梯网络为半监督阶梯网络,所述半监督阶梯网络是由监督学习和非监督学习结合而成。在监督学习中,通过网络对特征进行抽象,抽象出的特征记作x=(x1,x2,......xn),最后通过一个全连接层对这些特征进行映射:f(x)→y,y代表各个类别的得分,最后通过构建y和真实类别label的损失,进行训练,由于整个训练过程在label的指导下进行,所以监督学习特征提取层次越高,留下的特征就越趋于只和label相关,换言之,就是监督学习是一个数据压缩和降噪的过程,会删除大量的特征。非监督学习则相反,非监督学习通过压缩,解压缩的过程,将原始数据x使用另一种表征表示出来,同时要保证非监督学习提取的新的特征,尽可能的能够保留原始数据信息,从损失函数可以看出,非监督学习是要尽最大的可能保留特征,使得重构的和x最大程度的相似。半监督阶梯网络由若干个编码器和若干个解码器构成,其中,2个编码器和1个解码器呈纵向连接为一组,同时半监督阶梯网络横向连接若干组;编码器和解码器可表示为:半监督阶梯网络的损失函数由两部分构成,真实的网络结果构成的监督学习损失函数,用交叉熵损失表示;使用原始x输入和重构输入构成的非监督学习的损失函数。最后将两部分损失函数相加构成半监督学习的损失函数:本实施例中,半监督阶梯网络有两个输出,带噪声的标签和真实标签,其中带噪声的用于损失函数,无噪声的输出y用于分类任务。半监督阶梯网络包含若干层分类器,每一层通过skip-connection连接到解码阶段,来分担顶层的信息压力。在数据分类的过程中,很多特征或者信息决定了数据边界,但是在监督学习中,越靠近顶层分类器,留下的特征越少,只和顶层的分类任务相关,但是这样映射出来的特征无法通过解码阶段还原出重构,此时横向连接就开始发挥作用,决定解码阶段的特征信号通过横向连接传到解码层,使模型能够正常训练,同时梯度反向传播的时候,能够沿着横向连接回传,解决了梯度消失的问题。除此之外,半监督阶梯网络的编码阶段的每一层都加入了噪声,为了防止过拟合问题而对输入的数据(网络的输入层)加入噪音,使学习得到的编码器具有较强的鲁棒性,从而增强模型的泛化能力。而将编码器的值和解码器的值有效结合是以vanilla组合器为基础,组合器公式为:编码器第l层的输出的表达公式为:解码器第l层的输入u(l+1)公式为:将横向连接的数据和本来的数据组合到一起,得到第l层解码器输出其公式为:将监督学习与非监督学习组合到一起,解决了监督学习保留特征少的问题,也解决了非监督学习无差别保留特征的问题,使得分类效果有较大的提升。除此之外,还解决了现实中大量无标签数据的问题,特别对于生物序列数据,通常验证成本较大,同时细胞实验的周期较长,这就意味这大量的序列数据没有标签,这就与深度学习需要大量数据不符合,半监督阶梯网络使得深度学习可以在生物信息领域得以运用,但该半监督阶梯网络还不宜应用于DNA序列分类中。为了使半监督阶梯网络可以有效的应用于DNA序列本文档来自技高网...

【技术保护点】
1.一种基于半监督深度学习的绝缘子元件预测系统,其特征在于,包括提取模块(1)、编码模块(2)、训练模块(3)和分析模块(4);提取模块(1)、编码模块(2)、训练模块(3)和分析模块(4)依次连接;所述提取模块(1)用于取出DNA中的染色体号序列;编码模块(2)用于截取序列并对截取序列编码;训练模块(3)用于训练并生成绝缘子元件预测模型;分析模块(4)用于通过训练后的绝缘子元件预测模型识别分析DNA染色体序列中的绝缘子序列。/n

【技术特征摘要】
1.一种基于半监督深度学习的绝缘子元件预测系统,其特征在于,包括提取模块(1)、编码模块(2)、训练模块(3)和分析模块(4);提取模块(1)、编码模块(2)、训练模块(3)和分析模块(4)依次连接;所述提取模块(1)用于取出DNA中的染色体号序列;编码模块(2)用于截取序列并对截取序列编码;训练模块(3)用于训练并生成绝缘子元件预测模型;分析模块(4)用于通过训练后的绝缘子元件预测模型识别分析DNA染色体序列中的绝缘子序列。


2.如权利要求1所述的基于半监督深度学习的绝缘子元件预测系统,其特征在于,所述取出DNA中的染色体号序列是由染色体号的开始位置和结束位置之间取出序列。


3.如权利要求1所述的基于半监督深度学习的绝缘子元件预...

【专利技术属性】
技术研发人员:周维阿丽玛刘朝锐
申请(专利权)人:云南大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1