当前位置: 首页 > 专利查询>山东大学专利>正文

基于异质生物分子网络的SNP交互作用检测系统技术方案

技术编号:35352353 阅读:26 留言:0更新日期:2022-10-26 12:22
本公开提供了一种基于异质生物分子网络的SNP交互作用检测系统,所述方案包括:获取患病个体与不患病个体的SNP序列,并对数据进行预处理;根据样本的SNP序列和样本的患病情况,构建统计学SNP相关网络;基于已知的SNP与生物分子的相关关系,以及生物分子与疾病的相关关系,构建三阶SNP相关网络;基于已知的SNP与基因的相关关系,以及基因之间的功能上的相关关系,构建二阶SNP相关网络;基于所述统计学SNP相关网络、三阶SNP相关网络及二阶SNP相关网络,构建用于描述SNP相关关系的复合网络;基于所述复合网络对SNP序列进行聚类;从每个聚簇中检测与疾病相关的高维SNP组合。中检测与疾病相关的高维SNP组合。中检测与疾病相关的高维SNP组合。

【技术实现步骤摘要】
基于异质生物分子网络的SNP交互作用检测系统


[0001]本公开属于人工智能数据挖掘分类及生物信息学
,尤其涉及一种基于异质生物分子网络的SNP交互作用检测系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。
[0003]人工智能背景下,机器学习技术可以通过融合异质生物分子网络,来辅助SNP组合与疾病关联关系的研究,如何从海量数据中快速、准确地检测SNP交互作用,是当前机器学习技术在关联性检测中仍待提升的难点。
[0004]目前SNP交互作用检测方法有:穷举搜索方法:逐个评估每个SNP组合与疾病的相关程度;使用聚类算法先将完整的SNP集合划分为多个聚簇,之后在每个聚簇内部搜索与疾病相关的SNP组合;考虑到与SNP相关的基因,miRNA,lncRNA等可以辅助相似SNP对的识别,将这些异质生物分子信息融合SNP交互作用检测中可以帮助我们获得更准确的识别结果。
[0005]专利技术人发现,由于全基因组海量的SNP数据构成的高维SNP组合,随着维度的增加,可能的SNP组合的个数呈指数增长,部分算法面临着沉重的计算负担,此外,假阳性过高等问题,也使得SNP交互作用检测在机器学习技术中还存在较多的改进空间。

技术实现思路

[0006]本公开为了解决上述问题,提供了一种基于异质生物分子网络的SNP交互作用检测系统,所述方案通过构建SNP统计学上的网络及根据异质生物分子建立SNP相关网络,由多个网络共同构建成一个复合网络,用来描述SNP之间的相似程度,可以将已知的SNP与生物分子的关联信息作为指导,增加SNP相似度定义的准确性;同时,根据建立的复合网络将全基因组SNP构建为多个聚类,在每个聚簇内部搜索与疾病相关的SNP组合,相对于原始庞大的搜索空间,减小了算法的计算负担,提高了效率。
[0007]根据本公开实施例的第一个方面,提供了一种基于异质生物分子网络的SNP交互作用检测系统,包括:
[0008]数据预获取模块,其被配置为:获取患病个体与不患病个体的SNP序列,并对数据进行预处理;
[0009]统计学网络构建模块,其被配置为:根据样本的SNP序列和样本的患病情况,构建统计学SNP相关网络;
[0010]三阶SNP相关网络构建模块,其被配置为:基于已知的SNP与生物分子的相关关系,以及生物分子与疾病的相关关系,构建三阶SNP相关网络;
[0011]二阶SNP相关网络构建模块,其被配置为:基于已知的SNP与基因的相关关系,以及基因之间的功能上的相关关系,构建二阶SNP相关网络;
[0012]复合网络生成模块,其被配置为:基于所述统计学SNP相关网络、三阶SNP相关网络
及二阶SNP相关网络,构建用于描述SNP相关关系的复合网络;
[0013]聚类模块,其被配置为:基于所述复合网络对SNP序列进行聚类;
[0014]交互作用检测模块,其被配置为:从每个聚簇中检测与疾病相关的高维SNP组合。
[0015]进一步的,所述根据样本的SNP序列和样本的患病情况,构建统计学SNP相关网络,具体包括:
[0016]对于样本集中的数据,统计每个SNP组合中每种基因型下患病个体的数目和不患病个体的数目;
[0017]基于统计数据,基于预设评价指标评估每两个SNP之间的关联程度;
[0018]对于每个SNP仅保留关联程度最强的t个SNP作为与其具有关联关系的邻居,其中,所述t为大于0的整数。
[0019]进一步的,基于已知的SNP与生物分子的相关关系,以及生物分子与疾病的相关关系,构建三阶SNP相关网络,具体步骤包括:
[0020]根据已验证的SNP和基因,miRNA,lncRNA的关联关系,构建描述该关联关系的矩阵;
[0021]根据已验证的疾病和基因,miRNA,lncRNA的关联关系,构建描述该关联关系的矩阵;
[0022]基于矩阵中隐含的SNP到SNP之间的路径,实现SNP相关网络的构建。
[0023]进一步的,所述基于已知的SNP与基因的相关关系,以及基因之间的功能上的相关关系,构建二阶SNP相关网络,具体为:
[0024]确定SNP、基因及基因本体之间的映射关系;
[0025]计算基因本体之间的相似度;
[0026]将其转化为SNP之间的相似度,实现SNP相关网络的构建。
[0027]进一步的,基于所述复合网络对SNP序列进行聚类,具体为:
[0028]初始时将每个SNP作为一个社区;
[0029]对于每个SNP节点,计算如果将其移到邻居节点所在的聚簇中时,网络的模块增益;取增益最大且为正的模块作为该SNP将移入的模块;重复该过程,直到没有SNP所属社区再发生变化;
[0030]将每个社区视为一个节点,重复上述过程,直到整个网络满足预设约束条件;
[0031]最终每个社区表示一个聚簇,同一个社区中的SNP属于一个聚簇中。
[0032]进一步的,所述预设约束条件为:整个网络不再发生变化或者达到最大迭代次数。
[0033]进一步的,从每个聚簇中检测与疾病相关的高维SNP组合,具体为:使用卡方检验计算每个SNP组合对应的p值,从而选出与疾病具有显著相关关系的SNP组合。
[0034]根据本公开实施例的第二个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时执行如下步骤:
[0035]获取患病个体与不患病个体的SNP序列,并对数据进行预处理;
[0036]根据样本的SNP序列和样本的患病情况,构建统计学SNP相关网络;
[0037]基于已知的SNP与生物分子的相关关系,以及生物分子与疾病的相关关系,构建三阶SNP相关网络;
[0038]基于已知的SNP与基因的相关关系,以及基因之间的功能上的相关关系,构建二阶
SNP相关网络;
[0039]基于所述统计学SNP相关网络、三阶SNP相关网络及二阶SNP相关网络,构建用于描述SNP相关关系的复合网络;
[0040]基于所述复合网络对SNP序列进行聚类,并从每个聚簇中检测与疾病相关的高维SNP组合。
[0041]根据本公开实施例的第三个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行如下步骤:
[0042]获取患病个体与不患病个体的SNP序列,并对数据进行预处理;
[0043]根据样本的SNP序列和样本的患病情况,构建统计学SNP相关网络;
[0044]基于已知的SNP与生物分子的相关关系,以及生物分子与疾病的相关关系,构建三阶SNP相关网络;
[0045]基于已知的SNP与基因的相关关系,以及基因之间的功能上的相关关系,构建二阶SNP相关网络;
[0046]基于所述统计学SNP相关网络、三阶SNP相关网络及二阶SNP相关网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于异质生物分子网络的SNP交互作用检测系统,其特征在在于,包括:数据预获取模块,其被配置为:获取患病个体与不患病个体的SNP序列,并对数据进行预处理;统计学网络构建模块,其被配置为:根据样本的SNP序列和样本的患病情况,构建统计学SNP相关网络;三阶SNP相关网络构建模块,其被配置为:基于已知的SNP与生物分子的相关关系,以及生物分子与疾病的相关关系,构建三阶SNP相关网络;二阶SNP相关网络构建模块,其被配置为:基于已知的SNP与基因的相关关系,以及基因之间的功能上的相关关系,构建二阶SNP相关网络;复合网络生成模块,其被配置为:基于所述统计学SNP相关网络、三阶SNP相关网络及二阶SNP相关网络,构建用于描述SNP相关关系的复合网络;聚类模块,其被配置为:基于所述复合网络对SNP序列进行聚类;交互作用检测模块,其被配置为:从每个聚簇中检测与疾病相关的高维SNP组合。2.如权利要求1中所述的一种基于异质生物分子网络的SNP交互作用检测系统,其特征在在于,所述根据样本的SNP序列和样本的患病情况,构建统计学SNP相关网络,具体包括:对于样本集中的数据,统计每个SNP组合中每种基因型下患病个体的数目和不患病个体的数目;基于统计数据,基于预设评价指标评估每两个SNP之间的关联程度;对于每个SNP仅保留关联程度最强的t个SNP作为与其具有关联关系的邻居,其中,所述t为大于0的整数。3.如权利要求1中所述的一种基于异质生物分子网络的SNP交互作用检测系统,其特征在在于,基于已知的SNP与生物分子的相关关系,以及生物分子与疾病的相关关系,构建三阶SNP相关网络,具体步骤包括:根据已验证的SNP和基因,miRNA,lncRNA的关联关系,构建描述该关联关系的矩阵;根据已验证的疾病和基因,miRNA,lncRNA的关联关系,构建描述该关联关系的矩阵;基于矩阵中隐含的SNP到SNP之间的路径,实现SNP相关网络的构建。4.如权利要求1中所述的一种基于异质生物分子网络的SNP交互作用检测系统,其特征在在于,所述基于已知的SNP与基因的相关关系,以及基因之间的功能上的相关关系,构建二阶SNP相关网络,具体为:确定SNP、基因及基因本体之间的映射关系;计算基因本体之间的相似度;将其转化为SNP之间的相似度,实现SNP相关网络的构建。5.如权利要求1中所述的一种基于异质生物分子网络的SNP交互作用检测系统,其特征在在于,基于所述复合网络对SNP序列进行聚类,具体为:初始时将每个SNP作为一个社区;对于每个SNP节点,计算如果将其移到邻居节点所在的聚簇中时,网络的模块增益;取增益最大且为正的模块作为该SNP将移入的模块;重复该过程,直到没有SNP所属社区再发生变化;将每个社区视为一个节点,重复上述过程,...

【专利技术属性】
技术研发人员:王峻王昕余国先郭茂祖何伟
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1