基于局部靶的siRNA抑制率及脱靶性预测方法技术

技术编号:39183611 阅读:9 留言:0更新日期:2023-10-27 08:31
一种基于局部靶的siRNA抑制率及脱靶性预测方法,在离线阶段通过构建混合神经网络并采用针对siRNA和局部靶mRNA提取构建多维度特征进行训练,在在线阶段采用训练后的混合神经网络对实时输入的待检测siRNA和局部靶mRNA进行预测后经后处理进一步筛选得到最终siRNA序列并经后处理实现脱靶性预测。本发明专利技术利用局部靶mRNA的独热序列特征、反义链的热力学特征、其他先验知识特征作为输入,以混合神经网络的方式构建siRNA抑制率预测模型,并将其与脱靶性预测方法融合,同时充分考虑高有效性和高特异性。性。性。

【技术实现步骤摘要】
基于局部靶的siRNA抑制率及脱靶性预测方法


[0001]本专利技术涉及的是一种小干扰RNA(siRNA)领域的技术,具体是一种基于局部靶的siRNA抑制率及脱靶性预测方法。

技术介绍

[0002]现有生物实验测定或者在已验证的数据集上统计规则的方法有很大的局限性,前者对于高通量的数据来说耗时耗力,后者泛化性很差,规则在不同的研究对象上并不通用。随着深度学习的兴起,基于深度学习的siRNA设计有很大的发展。但现有基于神经网络的siRNA序列的沉默效率预测技术仅仅利用碱基二维矩阵进行特征的表示,忽视mRNA可能的折叠结构,靶向对象(局部靶mRNA)的序列信息,尤其是结合位点上下游邻域内的序列特征,以及碱基热力学特性、不同位置碱基组合范式、和其他生物特性对沉默效率所产生的潜在影响,仅仅考虑当前这一条siRNA序列,未能关注到由于生物体内多种mRNA存在复杂的相似性情况而引起的极大概率的脱靶性,导致其沉默效率预测的准确度有限。

技术实现思路

[0003]本专利技术针对现有技术存在的上述不足,提出一种基于局部靶的siRNA抑制率及脱靶性预测方法,利用局部靶mRNA的独热序列特征、反义链的热力学特征、其他先验知识特征作为输入,以混合神经网络的方式构建siRNA抑制率预测模型,并将其与脱靶性预测方法融合,同时充分考虑高有效性和高特异性。
[0004]本专利技术是通过以下技术方案实现的:
[0005]本专利技术涉及一种基于局部靶的siRNA抑制率及脱靶性预测方法,在离线阶段通过构建混合神经网络并采用针对siRNA和局部靶mRNA提取构建多维度特征进行训练,在在线阶段采用训练后的混合神经网络对实时输入的待检测siRNA和局部靶mRNA进行预测后得到最终siRNA序列并经后处理实现脱靶性预测。
[0006]所述的多维度特征,通过以下方式得到:采集若干异源数据集中的核苷酸信息后,分别针对反义链AS序列生成位置特异性打分矩阵(PSSM)并计算候选二级结构和最小自由能;针对AS序列的核心片段统计得到单核苷酸频率、双核苷酸频率、三核苷酸频率、GC碱基含量、GC连续碱基片段长度比率、Gibbs自由能和以及5

和3

两端的Gibbs自由能之差;针对靶mRNA进行One

hot编码并计算候选二级结构中碱基配对比例和最小自由能。
[0007]所述的核苷酸信息是指:收集Huesken、Reynolds、Vickers、Haborth、Takayuki、UI

Tei多个异源数据集,将反义链的序列长度统一为21个核苷酸,并将其抑制率指标统为0~100%范围;优选按照9:1的比例划分为训练集和测试集,进行十倍交叉验证。
[0008]所述的位置特异性打分矩阵,通过统计整个训练集上各不同位置上不同碱基出现的频率,得到位置特异性打分矩阵(PSSM),在训练时,对于每个新的siRNA输入都计算其PSSM得分,作为和训练集序列相似度的衡量。
[0009]所述的Gibbs自由能和以及5

和3

两端的Gibbs自由能之差,通过查表得到每相邻
两个核苷酸之间的Gibbs自由能,进而计算得到整条AS核心片段的Gibbs自由能之和及5

和3

两端的Gibbs自由能之差。
[0010]所述的One

hot编码,针对靶mRNA对应的结合区域及其上下游20个核苷酸的局部序列,对不同的碱基(A/G/C/U)进行One

hot编码。
[0011]所述的候选二级结构,其采用但不限于RNAFold计算得到可能的最小自由能和折叠结构。
[0012]所述的碱基配对比例,针对靶mRNA的结合区域邻近的序列,用RNAFold计算候选二级结构中碱基配对比例,针对靶mRNA的全长序列,用RNAFold计算候选二级结构和最小自由能,然后截取其与siRNA相结合的邻近区域并统计碱基配对比例。
[0013]所述的混合神经网络包括:输入层、卷积层、池化层、全连接层和输出层,其中:输入层对于给定的AS反义链序列和局部靶mRNA序列提取上述的各种多维度特征;卷积层对输入特征中的One

hot编码表示的序列进行卷积变换;池化层针对卷积结果运用平均值池化和最大值池化处理,融合并简化复杂节点信息。然后将不同卷积操作的池化结果级联为一维特征矢量;全连接层将池化后的序列特征矢量与其他所有特征(Gbibs自由能特征、核苷酸频率特征)级联,依次通过若干全连接映射Linear、非线性激活ReLU、随机失活Dropout操作,将信息传递到输出层中;最后采用Sigmoid非线性激活函数将最终的输出约束到0~1范围内。
[0014]所述的卷积层由n个结构相似但卷积核大小和膨胀系数有所不同的一维卷积组成,每个卷积操作后设置非线性激活函数,即Output=Relu(Conv(input)),其中:input为One

hot编码矩阵,Conv为一维卷积,Relu为激活函数。
[0015]所述的将信息传递到输出层中,即Output=Dropout(Relu(Linear(input)))。
[0016]所述的训练,以绝对平均值误差为损失函数,以皮尔逊相关系数(PCC)、斯皮尔曼相关系数(SPCC)、受试者接受曲线下面积(AUC)和马修斯相关系数(MCC)作为评估指标,将多维度特征在混合神经网络中通过不同的组分处理,最后在输出层融合为单一节点的抑制率得分,再在整个测试集的规模下与真实标签比较,计算二者的相关系数和AUC。
[0017]所述的后处理是指:使用Smith

Waterman方法、子串搜索方法针对预测得分较高siRNA进行脱靶性预测的筛选,具体包括:同源的脱靶性,即与其他mRNA有连续不少于16个核苷酸能进行较稳定的碱基配对以及miRNA

like的脱靶性,即种子区(AS序列的pos=2~8片段)与其他mRNA的非转录区(3

UTR)进行碱基配对。当符合上述两种情况之一,则该siRNA的特异性会有所降低,不适合列入最终选择结果中。技术效果
[0018]本专利技术以局部靶mRNA序列的one

hot编码为基础,增加更多的输入特征,比如局部和全长靶mRNA的二级结构最小自由能和可能配对情况。通过深度神经网络自动学习潜在的范式,挑选出最有效的特征组合。并且在预测抑制率后,针对得分高的siRNA,进一步预测脱靶性,来提高特异性。在Huesken、Reynold、Takasaki异源数据集上进行十倍交叉验证,结果表明本方法比现有方式获得更优的性能指标。
[0019]将本方法与s

Biopredsi、DSIR、i

score三种方式和基于图神经网络GNN的方法在相同数据集划分上进行siRNA沉默效率本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多维度特征的siRNA抑制率预测方法,其特征在于,在离线阶段通过构建混合神经网络并采用针对siRNA和局部靶mRNA提取构建多维度特征进行训练,在在线阶段采用训练后的混合神经网络对实时输入的待检测siRNA和局部靶mRNA进行预测后得到最终siRNA序列并经后处理实现脱靶性预测。2.根据权利要求1所述的基于多维度特征的siRNA抑制率预测方法,其特征是,所述的多维度特征,通过以下方式得到:采集若干异源数据集中的核苷酸信息后,分别针对反义链AS序列生成位置特异性打分矩阵并计算候选二级结构和最小自由能;针对AS序列的核心片段统计得到单核苷酸频率、双核苷酸频率、三核苷酸频率、GC碱基含量、GC连续碱基片段长度比率、Gibbs自由能和以及5

和3

两端的Gibbs自由能之差;针对靶mRNA进行One

hot编码并计算候选二级结构中碱基配对比例和最小自由能。3.根据权利要求2所述的基于多维度特征的siRNA抑制率预测方法,其特征是,所述的核苷酸信息是指:收集Huesken、Reynolds、Vickers、Haborth、Takayuki、UI

Tei异源数据集,将反义链的序列长度统一为21个核苷酸,并将其抑制率指标统为0~100%范围;再按照9:1的比例划分为训练集和测试集,进行十倍交叉验证。4.根据权利要求2所述的基于多维度特征的siRNA抑制率预测方法,其特征是,所述的位置特异性打分矩阵,通过统计整个训练集上各不同位置上不同碱基出现的频率,得到位置特异性打分矩阵,在训练时,对于每个新的siRNA输入都计算其PSSM得分,作为和训练集序列相似度的衡量。5.根据权利要求2所述的基于多维度特征的siRNA抑制率预测方法,其特征是,所述的Gibbs自由能和以及5

和3

两端的Gibbs自由能之差,通过查表得到每相邻两个核苷酸之间的Gibbs自由能,进而计算得到整条AS核心片段的Gibbs自由能之和及5

和3

两端的Gibbs自由能之差。6.根据权利要求2所述的基于多维度特征的siRNA抑制率预测方法,其特征是,所述的One

hot编码,针对靶mRNA对应的结合区域及其上下游20个核苷酸的局部序列,对不同的碱基(A/G/C/U)进行One

hot编码。7.根据权利要求2所述的基于多维度特征的siRNA抑制率预测方法,其特征是,所述的碱基配对比例,针对...

【专利技术属性】
技术研发人员:袁野刘斌
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1