【技术实现步骤摘要】
一种糖尿病知识图谱链接预测方法及系统
[0001]本专利技术属于医疗信息化
,尤其涉及一种基于特征映射和双向卷积的糖尿病知识图谱链接预测方法及系统。
技术介绍
[0002]糖尿病是因机体胰岛素分泌相对或绝对不足导致血糖过高,而引起蛋白质和脂肪代谢紊乱的一种常见内分泌代谢性疾病。糖尿病的症状常表现为多饮、多食、多尿、体重下降,但主要危害在于患者长期血糖升高会引发各种严重的并发症,给肾脏、血管、神经、眼睛等器官带来巨大的危害,甚至危及生命。糖尿病是全世界最主要的慢性非传染性疾病之一,对人民生活产生了巨大的影响,其血糖控制及并发症的诊治消耗了大量的社会、个人家庭及医疗资源。近年来,全世界的糖尿病发病率均呈上升趋势,而我国、印度等发展中国家的糖尿病发病率的增长则更加迅猛。总体来说,地方经济越发达,糖尿病患病率越高。从年龄分布来看,老年人糖尿病患病率一直居高不下,而年轻的糖尿病患者越来越多。
[0003]而构建糖尿病知识图谱,可以指导人们自测症状,了解糖尿病有关知识和注意事项,以及获取糖尿病有关药物说明,帮助更好地就医,对症下药,对糖尿病患者的预防、诊断、治疗及康复管理都有着重要的帮助。然而现有的糖尿病知识图谱之间的关联性太少、知识缺失,不能够充分体现实体之间的关系。因此,如何设计一种有效的方法来预测实体之间的关系已经成为一个极其重要问题。
[0004]近期的一些链接预测技术研究表明,基于知识嵌入的卷积神经网络具有很强的表现力,在链接预测方面有很好的表现。然而基于卷积神经网络的模型不能够很好地处理关系与实 ...
【技术保护点】
【技术特征摘要】
1.一种基于特征映射和双向卷积的糖尿病知识图谱链接预测方法,其特征在于,通过爬虫对糖尿病的数据进行爬取,构建原始语料库;再由命名实体识别和关系抽取算法获取糖尿病原始语料库中的三元组;得到三元组之后,融合单跳和多跳的三元组信息,把融合后的三元组信息送入图注意力网络,实现对实体以及关系的编码;在得到实体和关系编码之后,把实体按照关系编码的空间进行映射,得到实体在关系空间的编码,捕捉到实体与关系之间的联系;在得到映射后的实体关系编码之后,把三元组按照顺序逆序两种顺序组合,把组合后的三元组信息编码后再送入卷积神经网络,经由r
‑
drop的方式训练。2.根据权利要求1所述的基于特征映射和双向卷积的糖尿病知识图谱链接预测方法,其特征在于,包括:步骤一,构建糖尿病数据语料库,通过爬虫对糖尿病的知识进行爬取,构建原始语料库;步骤二,获取糖尿病原始语料库中的三元组;步骤三,编码层阶段,获得糖尿病三元组的实体以及关系编码;步骤四,映射层阶段,获得实体在关系空间的编码;步骤五,解码层阶段,利用双向卷积对三元组进行解码。3.根据权利要求1所述的基于特征映射和双向卷积的糖尿病知识图谱链接预测方法,其特征在于,所述步骤一,包括:利用网络爬虫Scrapy框架获取相关糖尿病网站的原始数据,其中包括疾病名称、病因、临床表现、检查方法、检查指标值、药品名称、用药频率、用药剂量、用药方法、手术、不良反应、部位、程度、持续时间等数据,并且对数据进行初步的预处理,把处理好的数据以文件的形式保存。4.根据权利要求1所述的基于特征映射和双向卷积的糖尿病知识图谱链接预测方法,其特征在于,所述步骤二,具体包括:利用现有的命名实体识别、关系抽取算法对原始语料提取,具体采用Bert
‑
BiLSTM
‑
CRF模型进行命名实体识别提取出其中的实体,然后用Bert
‑
BiLSTM模型进行关系抽取提取出其中的关系,将抽取出的实体与关系与现有的糖尿病知识图谱中的三元组进行融合,形成新的三元组。5.根据权利要求1所述的基于特征映射和双向卷积的糖尿病知识图谱链接预测方法,其特征在于,所述步骤三,是指编码层融合单跳和多跳的三元组信息,再经过图注意力网络得到实体与关系的编码,具体包括:(1)对单跳三元组和多跳三元组和多跳三元组的实体、关系特征向量进行串联,得到更丰富的三元组表示,其中t表示三元组,s表示单跳信息,d表示多跳信息,表示实体嵌入,表示关系嵌入;首先合并单跳与多跳三元组:表示关系嵌入;首先合并单跳与多跳三元组:
然后进行线性变换,公式如下:c
ijk
=W1[h
i
||h
j
||g
k
]其中c
ijk
是三元组线性变换后的向量表示,矩阵h
i
表示实体的联合嵌入,矩阵h
j
表示实体的联合嵌入,矩阵g
k
表示关系的联合嵌入,W1表示线性转换矩阵;(2)以权重矩阵W2为参数进行线性变换,然后经过激活函数LeakyRelu对其进行操作,得到三元组的绝对注意力,公式如下:b
ijk
=LeakyReLU(W2c
ijk
)应用激活函数Softmax,得到相对的注意力α
ijk
:α
ijk
=Softmax
jk
(b
ijk
)(3)实体e
i
的嵌入h
′
i
是每个三元组表示由它们的注意力值加权的总和,如下公式所示:其中N
i
表示实体e
i
的邻域,R
ij
表示连接实体e
i
和e
j
的关系...
【专利技术属性】
技术研发人员:冯萍,张鑫,赵剑,王海燕,任丽晔,杨林,张博宁,
申请(专利权)人:长春大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。