一种基于图注意力机制的circRNA与疾病关联关系预测方法技术

技术编号:31711016 阅读:26 留言:0更新日期:2022-01-01 11:14
本发明专利技术公开了一种基于图注意力机制的circRNA与疾病关联关系预测方法,针对大量未知的circRNA

【技术实现步骤摘要】
一种基于图注意力机制的circRNA与疾病关联关系预测方法


[0001]本专利技术属于生物信息领域,涉及一种基于图注意力机制的circRNA与疾病关联关系预测方法。

技术介绍

[0002]环状核糖核酸(Circular RNAs,以下简称为circRNA)是一种新的内源性非编码 RNA,缺乏5

帽和3

聚腺苷化尾。自从20世纪70年代首次被发现以来,它们一直被认为是剪接错误。在过去的十年中,随着高通量测序技术的发展,在哺乳动物细胞中发现了大量的circRNA。研究人员发现,circRNA在人体组织中广泛表达,具有稳定的结构和组织特异性。目前,circRNA表达的机制仍然不清楚。研究表明,许多circRNA通过充当微小核糖核酸(miRNA)或核糖核酸结合蛋白的海绵、调节蛋白功能来实现其生物学功能。
[0003]许多circRNA参与了人类疾病,特别是癌症。例如,circHIPK3在结直肠癌(CRC) 组织中被发现显著上调,这是通过海绵化miR

7来抑制miR

7的活性。 Hsa_circ_0000190在胃癌组织和胃癌患者血浆中表达下调,可作为胃癌诊断的一种新型生物标志物。CircANRIL通过与pescadillo homolog 1(PES1)结合而与动脉粥样硬化疾病相关,进而损害pre

rRAN的加工和核糖体的生物发生,从而诱导细胞凋亡并抑制增殖。此外,研究人员还建立了相关数据库,如circRNADisease、 CircR2Disease、Circ2Disease和circAtlas。
[0004]实验验证方法识别疾病相关circRNA既昂贵又耗时。近年来,研究人员逐渐引入计算方法推断circRNA与疾病的潜在关联。Lei等人首先提出了一种路径加权方法来预测与疾病相关的circRNA。他们计算了疾病语义相似度、疾病功能相似度和高斯相互作用普相似。然后,构建了一个异构网络,并采用深度优先搜索 (DFS)遍历网络中的节点,计算预测得分。Yan等人开发了基于Kronecker积核正则化最小二乘的DWNN

RLS方法预测circRNA与疾病相关性,Xiao等人开发了一种具有双流形规则的加权低秩近似优化方法来推断潜在的circRNA

疾病关联。深度学习算法也被引入该领域。Deepthi等人提出了一种集成方法AE

RF,通过深度自编码器提取特征,利用随机森林进行预测。Li等人使用DeepWalk提取circRNA

疾病网络中的节点特征,并使用网络一致性投影算法预测。Wang等人使用FastGCN设计了GCNCDA来提取circRNA和疾病特征,使用Forest PA 分类器进行预测。
[0005]上述计算方法取得了不错的预测性能,但还存在一些问题和缺陷,还有进一步提升的空间。上述文献在提取circRNA和疾病特征时,通常直接使用相似性矩阵作为特征,或者使用相似性矩阵低维表示作为特征,导致circRNA和疾病特征的表示不准确。此外,特征的表示直接决定了模型的预测性能。

技术实现思路

[0006]为了解决现有技术的问题,本专利技术提供了一种基于图注意力机制的circRNA 与疾病关联关系预测方法,解决现有技术中circRNA和疾病特征的表示不准确进而影响模型的预测性能的问题。
[0007]本专利技术的技术方案如下:
[0008]一种基于图注意力机制的circRNA与疾病关联关系预测方法,包括步骤如下:
[0009]1)构建已知circRNA

疾病关联网络
[0010]从已知的circRNA

疾病关系,定义邻接矩阵其中N
c
和N
d
分别代表 circRNA和疾病的数量,Y(c
i
,d
j
)代表第i个circRNA和第j个疾病的关联关系,1 表示存在已知关联,0表示未知;
[0011]2)计算疾病语义相似性
[0012]根据Disease Ontology(DO)数据库中的疾病本体之间定义的关系,每个疾病构建一个有向无环图,根据代表两个疾病的有向无环图之间的重合度,计算疾病之间的相似性,得到疾病语义相似性;
[0013]3)计算circRNA和疾病高斯核相似性,circRNA功能相似性
[0014]根据已知circRNA

疾病邻接矩阵Y,分别计算出circRNA和疾病高斯核相似性;根据疾病语义相似性核circRNA

疾病邻接矩阵Y,计算circRNA功能相似性;
[0015]4)构建融合的circRNA和疾病相似性
[0016]针对circRNA功能相似性矩阵和疾病语义相似性矩阵稀疏性问题,结合疾病语义相似性矩阵、circRNA功能相似性矩阵,以及相应的高斯核相似性矩阵;若疾病语义相似性矩阵中元素非0,则保持不变,否则替换为疾病高斯核相似性矩阵中对应位置的值;类似地,若circRNA功能相似性中元素非0,则保持不变,否则替换为circRNA高斯核相似性矩阵中对应的值;分别获得融合circRNA和疾病相似性矩阵SC和SD;
[0017]5)基于图注意力机制的circRNA和疾病特征提取
[0018]针对circRNA和疾病特征缺失的问题,首先定义两个投影参数矩阵MC和MD,使得SC和SD映射到同一空间,矩阵中的一行表示每个circRNA和疾病的初始特征;然后,基于图注意力机制,在已知circRNA

疾病网络Y中进行进一步提取 circRNA和疾病的特征表示;
[0019]6)构建多层神经网络的模型进行circRNA

疾病关系的预测
[0020]根据已知circRNA

疾病关系,随机选取同样数量的未知关联作为负样本,构建多层神经网络的模型,计算所有circRNA和某疾病的关联概率,分值越大,则表示潜在的未知关联关系可能性越大。
[0021]与现有技术相比,本专利技术的有益效果是:
[0022]本专利技术融合circRNA和疾病相似性矩阵,以及已知circRNA

疾病关联关系,基于图注意力机制提取circRNA和疾病的低维表示,基于多层神经网络的模型准确预测未知circRNA

疾病之间的关联关系。本专利技术能够基于已知circRNA

疾病的关联,推断潜在的、未知的circRNA

疾病关联关系。本专利技术通过计算方法可以高效、可靠地预测与疾病相关的circRNA,本专利技术预测结果可以为进一步生物实验验证提供了可靠的依据,节省实验时间和人力财力花销。
附图说明
[0023]图1是本专利技术实施的流程图;(a)为circRNA和疾病相似性融合,(b)为基于图注意力本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图注意力机制的circRNA与疾病关联关系预测方法,其特征在于,包括步骤如下:1)构建已知circRNA

疾病关联网络从已知的circRNA

疾病关系,定义邻接矩阵其中N
c
和N
d
分别代表circRNA和疾病的数量,Y(c
i
,d
j
)代表第i个circRNA和第j个疾病的关联关系,1表示存在已知关联,0表示未知;2)计算疾病语义相似性根据Disease Ontology(DO)数据库中的疾病本体之间定义的关系,每个疾病构建一个有向无环图,根据代表两个疾病的有向无环图之间的重合度,计算疾病之间的相似性,得到疾病语义相似性;3)计算circRNA和疾病高斯核相似性,circRNA功能相似性根据已知circRNA

疾病邻接矩阵Y,分别计算出circRNA和疾病高斯核相似性;根据疾病语义相似性核circRNA

疾病邻接矩阵Y,计算circRNA功能相似性;4)构建融合的circRNA和疾病相似性针对circRNA功能相似性矩阵和疾病语义相似性矩阵稀疏性问题,结合疾病语义相似性矩阵、circRNA功能相似性矩阵,以及相应的高斯核相似性矩阵;若疾病语义相似性矩阵中元素非0,则保持不变,否则替换为疾病高斯核相似性矩阵中对应位置的值;类似地,若circRNA功能相似性中元素非0,则保持不变,否则替换为circRNA高斯核相似性矩阵中对应的值;分别获得融合circRNA和疾病相似性矩阵SC和SD;5)基于图注意力机制的circRNA和疾病特征提取针对circRNA和疾病特征缺失的问题,首先定义两个投影参数矩阵MC和MD,使得SC和SD映射到同一空间,矩阵中的一行表示每个circRNA和疾病的初始特征;然后,基于图注意力机制,在已知circRNA

疾病网络Y中进行进一步提取circRNA和疾病的特征表示;6)构建多层神经网络的模型进行circRNA

疾病关系的预测根据已知circRNA

疾病关系,随机选取同样数量的未知关联作为负样本,构建多层神经网络的模型,计算所有circRNA和某疾病的关联概率,分值越大,则表示潜在的未知关联关系可能性越大。2.如权利要求1所述的基于图注意力机制的circRNA与疾病关联关系预测方法,其特征在于,步骤2)进一步细化为:根据疾病之间的有向无环图计算疾病语义相似性矩阵SS;首先,对于每个疾病d构建唯一的有向无环图,它的所有节点记为T
d
,计算图中每个节点d
i
对该节点d的贡献值D
d
(d
i
),公式如下:D
d
(d
i
)=1if d=d
i
D
d
(d
i
)=max{ΔD
d
(d

i
)|d

i
∈children of d
i
}if d≠d
i
其中,Δ表示衰减因子;其次,定义疾病的语义值如下:然后,计算两个疾病d
i
和疾病d
j
之间的语义SS(d
i
,d
j
),公式如下:
其中,和分别表示疾病d
i
和疾病d
j
对应的各自有向无环图中的节点,d

表示两个有向无环图中相同的节点。3.如权利要求1所述的基于图注意力机制的circRNA与疾病关联关系预测方法,其特征在于,步骤3)进一步细化为:首先,根据已知circRNA

疾病邻接矩阵Y,分别计算circRNA和疾病高斯核相似性:GC(c
i
,c
j
)=exp(

γ
c
||Y
i
·

Y
j
·
||2)GD(d
i
,d
j
)=exp(

γ
d
||Y
·
i<...

【专利技术属性】
技术研发人员:嵇存美孙航王玉田倪建成郑春厚
申请(专利权)人:曲阜师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1