一种基于异构图生成对抗网络的lncRNA-疾病关联预测模型的构建方法技术

技术编号:35364668 阅读:35 留言:0更新日期:2022-10-29 18:04
本发明专利技术设计了一种基于异构图生成对抗网络(GAN)的lncRNA

【技术实现步骤摘要】
一种基于异构图生成对抗网络的lncRNA

疾病关联预测模型的构建方法


[0001]本专利技术涉及利用异构图生成对抗网络(GAN,Generative Adversarial Network,)生成 新的lncRNA

疾病(长链非编码RNA

疾病,long non

coding RNA

疾病)关联对的方法。生 成对抗网络利用对抗思想将生成器与鉴别器训练达到平衡,使输出生成分布尽可能接近真实 分布。

技术介绍

[0002]在生物学家的研究中,可以了解到人类基因中大约有75%能被转录为RNAs,其中又有 约74%为非编码RNA。通过生物实验,进一步了解到,lncRNA与人类疾病有着密不可分的 关系。例如LncRNA可以影响人类的发育或是导致肿瘤病变;miRNA是一类长度为18~24nt 的小分子非编码RNA,其参与了人类炎症的病变。由此可以看出长链非编码在生物研究中是 非常重要的研究,尤其是在临床诊断治疗等方面十分关键。
[0003]但是长链非编码RNAs种类繁多,与其相关联的疾病也不少,若是通过生物实验的方法 证明其相关性不仅需要耗费大量的时间还要承担高成本费用,为了解决这个问题,日渐崭露 头角的计算机技术走入大众视野,基于生物实验得到的准确数据,计算机技术成为核仁小分 子RNAs与疾病关联预测的新曙光。目前已经产生了很多模型来进行LncRNAs与疾病关联预 测,主要分为两大类,第一类是基于生物网络的预测,另一类是基于机器学习的预测。
[0004]一、基于生物网络预测
[0005]通常具有相似性的事物比较容易导致同样或相似的结果。基于这个想法,推测在 LncRNAs与疾病关联也具有相似性质,也就是说具有相似性功能的LncRNAs可能会导致相 同疾病或是具有相似性质的疾病,所以可以利用生物网络来预测未知的LncRNAs

疾病关联 对。
[0006]二、基于机器学习的预测
[0007]利用机器学习来解决LncRNAs

疾病关联预测问题是通过一系列适用的排名算法对候选 LncRNAs进行排序,同时再使用已知LncRNAs

疾病关联对数据和未知关联数据的训练分类 模型,然而目前已知的RNAs

疾病关联数据不多并且缺少负样本,无法证明LncRNAs与哪些 疾病无关,大部分采用半监督的机器学习算法来实现LncRNAs

疾病关联预测。

技术实现思路

[0008]针对生物实验研究成本高耗时长的问题,目前各种各样的生物信息方法普遍都能够减低 成本且缩短时间,但关联数据中仍旧存在样本数量不足以及负样本缺乏的问题,针对该问题, 本专利技术对基于异构图生成对抗网络模型使用多种关联数据,结合多关联数据以及lncRNA序 列特征来进行lncRNAs

疾病关联预测。在本文的模型中,生成对抗网络是半监督学习模型, 不仅能在一定程度上缓解样本数量不足以及负样本缺乏的情况,还能通过结
合多关联数据寻 找到更多可能的关联对,提高预测结果精度。该模型可以在数据量有限的情况实现lncRNAs
‑ꢀ
疾病关联预测,并且取得不错的预测结果,既解决生物学家进行生物实验的耗时长成本高的 问题,又解决了由于lncRNAs与疾病种类繁多,生物实验范围过大的问题,为生物学家的研 究提供参考。
[0009]本专利技术所述模型主要由以下部分组成:
[0010]异构图偏好向量模型、生成对抗网络(GAN);
[0011]所述异构图偏好向量模型,是一种包含多种类型的节点和多种类型的边的图,节点有四种 类型:lncRNA、疾病、miRNA、基因Gene;边有6种类型:lncRNA

疾病、miRNA

疾病、Gene
‑ꢀ
疾病、lncRNA

miRNA、miRNA

Gene、lncRNA

Gene;
[0012]所述生成对抗网络,包括生成器和鉴别器两部分;
[0013]算法步骤如下:
[0014]Step

1:构建异构图并选取6条元路径;
[0015]Step

2:在异构图中采用P1,P2,...Pl的语义信息,其中l是元路径数目,利用交换矩阵在 每一条元路径上计算lncRNA和疾病之间的相似性矩阵,由此可以得到lncRNA对所有疾病 的偏好向量;
[0016]Step

3:采用注意力机制来聚合不同元路径上lncRNA和疾病之间的不同语义关系;
[0017]Step

4:利用权重矩阵w
i
与偏好向量a
i
计算每条元路径上的注意得分e
m

[0018]Step

5:再使用注意得分e
m
分别计算6条元路径的权重α
i

[0019]Step

6:整合各原路径上的权重α
i
和注意得分e
m
,得到lncRNA的混合关联程度向量r
k

[0020]Step

7:将r
k
作为生成对抗网络(GAN)生成器的输入,经过阈值处理:将向量中数值小 于0.5设为0;数值大于0.5的设为1,得到输出lncRNA的关联偏好向量以f
m
表示;
[0021]Step

8:将lncRNA的序列特征经4

mer转化为特征向量c
k

[0022]Step

9:在lncRNA

疾病关联矩阵C∈{0,1}
m
×
n
(c
xy
=1每个元素表示lncRNA与疾病之间存 在已知关联,反之亦然)取出每对关联数据的偏好向量r;
[0023]Step

10:将获取的r和c
k


(点乘)运算得到的x
r
作为判别器的真实数据,将f
m
和c
k

ꢀ⊙
(点乘)运算得到的x
f
作为判别器的虚假数据输入到生成对抗网络(GAN)的鉴别器中;
[0024]Step

11:鉴别器输出鉴别结果,反馈给生成器并进行优化,直到二者达到相对理想的状 态模型就训练好了,此时输入新数据便可以进行LncRNAs

疾病关联预测;
[0025]与现有技术相比,本专利技术具有如下的有益效果:
[0026]1、我们通过利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于异构图生成对抗网络的lncRNA

疾病关联预测模型的构建方法,所述预测模型包括:异构图偏好向量模型、生成对抗网络GAN,其特征在于:所述异构图偏好向量模型是包含节点和边的图;所述生成对抗网络,包括生成器和鉴别器两部分;所述节点有四种类型:lncRNA、疾病、miRNA、Gene;所述边有6种类型:lncRNA

疾病、miRNA

疾病、Gene

疾病、lncRNA

miRNA、miRNA

Gene、lncRNA

Gene;模型构建方法步骤如下:Step

1:构建异构图并选取6条元路径;Step

2:在异构图中采用P1,P2,...Pl的语义信息,其中l是元路径数目,利用交换矩阵在每一条元路径上计算lncRNA和疾病之间的相似性矩阵,由此可以得到lncRNA对所有疾病的偏好向量;Step

3:采用注意力机制来聚合不同元路径上lncRNA和疾病之间的不同语义关系;Step

4:利用权重矩阵w
i
与偏好向量a
i
计算每条元路径上的注意得分e
m
,其中i的取值范围是1~6;Step

5:再使用注意得分e
m
分别计算6条元路径的权重α
i
;Step

6:整合各原路径上的权重α
i
和注意得分e
m
,得到lncRNA的混合关联程度向量r
k
;Step

7:将r
k
作为生成对抗网络GAN生成器的输入,经过阈值处理,得到输出lncRNA的关联偏好向量f
m
;Step

8:将lncRNA的序列特征经4

mer转化为特征向量c
k
;Step

9:在lncRNA

疾病关联矩阵C∈{0,1}
m
×
n
取出每对关联数据的偏好向量r;Step

10:将获取的r和c
k

【专利技术属性】
技术研发人员:钟华杜标刘琳唐麟
申请(专利权)人:云南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1