基于机器学习和专家系统的小核酸药物筛选方法技术方案

技术编号:37265855 阅读:18 留言:0更新日期:2023-04-20 23:37
本说明书实施例提供一种基于机器学习和专家系统的小核酸药物筛选方法,用以药物辅助设计。首先按照预设的长度剪切mRNA,从而覆盖mRNA的全部可能性,然后对剪切得到的每个siRNA分别使用卷积神经网络模型和专家评分系统进行评估打分,得到两种得分,综合评定得分的结果,输出综合得分大于阈值的siRNA。该方法能够利用计算机学习加快筛选速度,结合专家经验,减小计算机学习过程的误差,提高筛选结果的有效性和准确性,缩短药物研发周期,节省经费。费。费。

【技术实现步骤摘要】
基于机器学习和专家系统的小核酸药物筛选方法


[0001]本说明书涉及计算机辅助药物分子设计领域,具体涉及一种基于机器学习和专家系统的小核酸药物筛选方法。

技术介绍

[0002]RNA干扰(RNA interference,RNAi)是小干扰RNA(small interfering RNA,siRNA)诱导序列特异性转录后基因沉默的机制,可用于功能基因组学与治疗应用。19

25个核苷酸长度的siRNA抑制预期基因的表达,该基因的转录本与siRNA引导链完全互补。因此,它的沉默效果被认为是非常具体的,能够用于制成小核酸药物。
[0003]小核酸药物的siRNA序列的设计,传统的方法有两种,第一种,依据各种siRNA数据库提供的数据资料,如MIT、DSIR、siDirect、GE siDESIGN Center、BLOCK

iT RNAi Designer等数据库,进行人工设计,然而存在的问题是数据量庞大,难以快速筛查出具有成药可能性的mRNA;第二种,使用数百到数千条siRNA平铺预期基因的mRNA,再以细胞体外实验进行筛选,然而存在的问题是需要投入巨大的费用、人工,费时费力,延缓了小核酸药物的研发速度。

技术实现思路

[0004]鉴于现有技术存在的问题,本专利技术的目的在于提供一种基于机器学习和专家系统的小核酸药物筛选方法,利用计算机学习加快筛选速度,并且结合专家经验,减小计算机学习过程的误差,提高筛选结果的有效性和准确性。
[0005]本说明书实施例提供以下技术方案:
[0006]一种基于机器学习和专家系统的小核酸药物筛选方法,包括以下步骤:
[0007]获取mRNA;
[0008]按照预设的长度剪切mRNA,得到若干个siRNA;
[0009]使用随机向量初始化每个siRNA中的四种碱基;
[0010]将初始化后的全部siRNA输入预设的卷积神经网络模型,训练神经网络模型后为每个siRNA打分,得到每个siRNA的第一得分;
[0011]以及,将剪切得到的全部siRNA输入专家评分系统,为每个siRNA打分,得到每个siRNA的第二得分;
[0012]综合评定每个siRNA第一得分和第二得分,输出得分大于第一阈值的siRNA。
[0013]在上述的小核酸药物筛选方法中,首先按照预设长度对所获取的mRNA进行剪切得到多个siRNA,然后通过在卷积神经网络模型和专家评分系统分别对各个siRNA打分,上述处理方法,不仅保证对mRNA的覆盖率,还能综合利用卷积神经网络模型大数据分析能力以及专家评分系统的经验,避免单一评分可能造成的评估误差,扩大小核酸药物的筛选范围,提高小核酸药物筛选的速度和准确性。
[0014]本专利技术还提供一种方案,所述按照预设的长度剪切所述mRNA,得到若干个siRNA包
括:
[0015]使用移动滑窗法对长度为L的所述mRNA每N个核苷酸长度进行剪切,得到L

N个siRNA,其中,N为19~25之间的自然数。
[0016]本专利技术还提供一种方案,所述卷积神经网络模型包括卷积层和BN层。
[0017]本专利技术还提供一种方案,所述使用随机向量初始化每个siRNA中的四种碱基包括:
[0018]使用在[0,1]区间均匀分布或正态分布随机向量初始化每个siRNA中的四种碱基。
[0019]本专利技术还提供一种方案,所述专家评分系统的打分规则包括以下至少一种或任意多种的组合:
[0020]所述siRNA两端的不对称程度越大得分越高;
[0021]所述siRNA的复杂程度越大得分越高;
[0022]所述siRNA的引导链和伴随链的结合能力满足第一取值范围时,获得第三得分;
[0023]所述siRNA的第一核苷酸位置不包含第一碱基时,获得第四得分;
[0024]其中,所述第二得分、所述第三得分用于与所述第二得分求和,以调整所述第二得分。
[0025]本专利技术还提供一种方案,所述综合评定每个siRNA第一得分和第二得分包括:将每个siRNA第一得分和第二得分取平均值。
[0026]本专利技术还提供一种方案,在输出得分大于阈值的siRNA之后,所述基于机器学习和专家系统的小核酸药物筛选方法还包括:
[0027]比较输出的各siRNA与人类DNA和/或人类RNA的结构相似性,得到相似性得分;
[0028]筛除所述相似性得分不大于第二阈值的siRNA。
[0029]本专利技术还提供一种方案,所述人类DNA和/或人类RNA的结构数据包括来自blast数据库的数据。
[0030]本专利技术还提供一种方案,在blast数据库中的human genome库和/或homo sapien数据库中依次检索输出的各siRNA,若返回肯定的检索结果,则删除肯定结果对应的siRNA。
[0031]本专利技术还提供一种方案,在输出得分大于第一阈值的siRNA之后,所述基于机器学习和专家系统的小核酸药物筛选方法还包括:
[0032]对输出的各siRNA依次进行序列修饰、基因合成、连接传送靶头,以生成对应数量的模拟小核酸药物。
[0033]与现有技术相比,本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括:采用上述的基于机器学习和专家系统的小核酸药物筛选方法,不仅利用卷积神经网络模型构建计算机学习模块,大幅度的增加了mRNA初步筛查的筛查范围和筛查速度,并且将计算机学习与专家经验相互结合,利用专家经验对计算机筛查结果进行修正,减少机器学习模块初筛结果的误差,增加筛选结果的有效性和准确性,从而加快小核酸药物的研发进程,缩短药物研发周期,节省经费。
附图说明
[0034]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0035]图1是一种基于机器学习和专家系统的小核酸药物筛选方法的流程示意图;
[0036]图2是一种采用移动滑窗法剪切RNA序列的流程示意图;
[0037]图3是一种结合卷积神经网络和专家经验分别评估siRNA得分的流程示意图。
具体实施方式
[0038]下面结合附图对本申请实施例进行详细描述。
[0039]以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习和专家系统的小核酸药物筛选方法,其特征在于,包括以下步骤:获取mRNA;按照预设的长度剪切所述mRNA,得到若干个siRNA;使用随机向量初始化每个siRNA中的四种碱基;将初始化后的全部siRNA输入预设的卷积神经网络模型,训练所述神经网络模型后为每个siRNA打分,得到每个siRNA的第一得分;以及,将剪切得到的全部siRNA输入专家评分系统,为每个siRNA打分,得到每个siRNA的第二得分;综合评定每个siRNA第一得分和第二得分,输出得分大于第一阈值的siRNA。2.根据权利要求1所述的基于机器学习和专家系统的小核酸药物筛选方法,其特征在于,所述按照预设的长度剪切所述mRNA,得到若干个siRNA包括:使用移动滑窗法对长度为L的所述mRNA每N个核苷酸长度进行剪切,得到L

N个siRNA,其中,N为19~25之间的自然数。3.根据权利要求1所述的基于机器学习和专家系统的小核酸药物筛选方法,其特征在于,所述卷积神经网络模型包括卷积层和BN层。4.根据权利要求1所述的基于机器学习和专家系统的小核酸药物筛选方法,其特征在于,所述使用随机向量初始化每个siRNA中的四种碱基包括:使用在[0,1]区间均匀分布或正态分布随机向量初始化每个siRNA中的四种碱基。5.根据权利要求1所述的基于机器学习和专家系统的小核酸药物筛选方法,其特征在于,所述专家评分系统的打分规则包括以下至少一种或任意多种的组合:所述siRNA两端的不对称程度越大得分越高;所述siRNA的复杂程度越大得分越高;所述siRNA的...

【专利技术属性】
技术研发人员:焦阳李旭东李四维吴俊峰潘麓蓉
申请(专利权)人:杭州一粟生物医药有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1