一种基于知识图谱的多层次知识库构建方法技术

技术编号:38326591 阅读:13 留言:0更新日期:2023-07-29 09:09
本发明专利技术公开了一种基于知识图谱的多层次知识库构建方法。本发明专利技术的方法包括数据源模块、数据预处理模块、数据模型模块、知识存储模块、服务接口模块。本发明专利技术的步骤包括:1、结构化数据获取,2、实体层知识图谱构建,3、事件层知识图谱构建,4、模型层知识图谱构建,5、知识融合,6、知识存储。本发明专利技术分别对三类知识内部和知识间关系进行建模,将建模后的知识信息以节点形式进行存储,知识间的联系以关系形式进行存储,最终形成百万规模节点量的知识图谱,实现多层次知识库的构建,解决现有领域数据来源广泛、格式多样、数据价值密度低、数据体量大、种类繁多的数据困境和无法很好的组织、管理和理解使其充分利用的问题。理解使其充分利用的问题。理解使其充分利用的问题。

【技术实现步骤摘要】
一种基于知识图谱的多层次知识库构建方法


[0001]本专利技术属于软件工程
,更进一步涉及多类领域的信息处理和数据挖掘
中的一种基于知识图谱的多层次知识库构建方法。

技术介绍

[0002]当前,各个领域的数据量呈现爆炸式增长,这些数据具有超海量性、强领域性、冗余性等特征。同时,海量数据中也隐藏着有价值的知识信息,挖掘出对应的价值信息,并对其进行建模表示,可以对领域的相关工作进行指导。然而如何挖掘超海量数据中的价值数据并对其加以应用,是当前亟待解决的问题。知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法,其将世间万物表示为一个节点,将万物之间的联系表示为节点间的关系,从而形成一张极大规模的知识网图。通过对海量繁杂数据进行数据分析、数据抽取等操作,提取出数据中的关键要素并建模形成知识图谱,基于对此知识图谱的推理等操作,可以分析出有效的决策来指导现有领域活动。
[0003]广州利科科技有限公司在其申请的专利文献“一种知识图谱构建方法”(公开号:CN111061882A,申请号:CN201910766428.X,申请日:2019年8月19日)中提出一种知识图谱构建方法。该专利申请所公开方法的步骤包括:获取语料集;对语料集进行预处理;转化语料库并存入数据库;根据数据库构建知识图谱。该方法通过对大量语料集的处理,可以抽取出其中的价值数据构建知识图谱,从而方便相关领域人员对相应知识的查找。但是该方法未将语料集中的各种知识分类,即形成各类知识分层表示在知识图谱中,导致知识图谱结构不够清晰。<br/>[0004]上海智臻智能网络科技股份有限公司在其申请的专利文献“一种知识图谱构建方法”(公开号:CN112347263A,申请号:CN201910721967.1,申请日:2019年8月6日)中提出一种知识图谱构建方法。该专利申请所公开方法的步骤包括:对待处理的句子进行分词,得到多个单独词;识别多个单独词中的实体,得到两个一组的实体对;对于每个实体对,获取句子的句向量,句向量包括多个单独词的词

位置向量;根据句向量提取句子多个方面的表示特征;根据多个方面的表示特征得到一个融合特征;根据融合特征预测实体对的实体关系;根据实体对和对应的实体关系构建知识图谱。该方法通过识别词并表示为向量的方法对文本信息中的价值数据进行抽取,可以有效对价值数据进行建模并进一步形成知识图谱。但是该方法未考虑各个相同意义但不同名称词组的融合信息,易导致知识图谱中的知识冗余,降低知识图谱的可用性。
[0005]河南八六三软件股份有限公司在其申请的专利文献“一种构建知识图谱的方法”(公开号:CN111581398A,申请号:CN202010400800.8,申请日:2020年5月13日)中提出一种构建知识图谱的方法。该专利申请所公开方法的步骤包括:初步列出本行业的
,查询所建行业的相关资料,并对资料分类归纳;确定业务类别,根据查询资料,确定行业的业务类别名称;初步筛选业务类别并建立归属关系示意图;确定关键词;业务关系文本化;征询行业专家意见并修改完成;确定最终版,并生成可导入的知识图谱格式。该方法通过人工
建模知识图谱结构的形式,可以对领域知识进行提取并根据专家经验修改进一步形成知识图谱。但是该方法依赖人工参与过于严重,需要投入较大的人力,且不可避免在人工筛选中产生疏漏,从而导致构建的领域知识图谱覆盖面不够全面。
[0006]综上,现有的构建知识图谱的方法在面对海量数据且数据呈现来源多样化、格式多样化时,存在依赖专家经验严重、多源异质知识融合不到位等问题,从而导致构建形成的知识图谱不能完全反映客观现实,不能满足指导现有领域活动决策的需要。

技术实现思路

[0007]针对现有技术存在的问题,本专利技术提出一种基于知识图谱的多层次知识库构建方法,知识库包括数据源模块、数据预处理模块、数据模型模块、知识存储模块、服务接口模块,具体包括下列步骤:
[0008]步骤1:结构化数据获取;
[0009]利用自然语言处理技术从领域数据中抽取有效信息,包括实体信息、属性信息、事件信息、模型信息、关系信息,形成结构化数据;
[0010]步骤2:实体层知识图谱构建;
[0011]具体如下:
[0012]第1步:构建并训练LSTM

CRF模型
[0013]该模型分为三层:表示层、LSTM层以及CRF层;
[0014]其中表示层具备如下功能:1)文本数据预处理:对来自各个领域的文本进行处理;2)One

hot编码:编码前需确定样本空间文字数量,并将文字以One

hot编码形式进行转换;3)字向量转换:设定嵌入向量的维度,将文字对应的One

hot编码通过Embedding层转化为低维度的稠密向量,最终得到文字的数值向量表示;
[0015]LSTM层由多个LSTM单元串联构成;
[0016]LSTM单元的门结构分为输入门、忘记门和输出门3类;如果t时刻以i
t
、f
t
、o
t
和C
t
分别表明3种门和细胞状态,则有;
[0017]i
t
=σ(W
i
·
[h
t
‑1,x
t
]+b
t
)
ꢀꢀꢀꢀ
(1)
[0018]f
t
=σ(W
f
·
[h
t
‑1,x
t
]+b
f
)
ꢀꢀꢀꢀꢀꢀꢀ
(2)
[0019]o
t
=σ(W
o
·
[h
t
‑1,x
t
]+b
o
)
ꢀꢀꢀ
(3)
[0020][0021][0022][0023]其中为元素级乘法运算;σ为sigmod函数;W
i
、W
f
、W
o
分别是输入门、忘记门和输出门的权重矩阵,b
i
、b
f
、b
o
分别是输入门、忘记门和输出门的偏置向量,h
t
‑1、h
t
分别为中t

1时刻和t时刻的LSTM单元的输出也称为隐藏层单元、x
t
为t时刻LSTM单元的输入,是细胞初始状态,W
c
、b
c
分别是细胞状态的权重矩阵和偏置向量;
[0024]采用双向LSTM模型Bi

LSTM,该模型采用前向层和后向层2个相反方向的并行层,分别从序列的始端和末端开始运行,并将得到的2个向量和进行拼接以得到隐层表示
y
t
,并根据y
t
得到标签本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的多层次知识库构建方法,其特征在于,知识库包括数据源模块、数据预处理模块、数据模型模块、知识存储模块、服务接口模块,具体包括下列步骤:步骤1:结构化数据获取;利用自然语言处理技术从领域数据中抽取有效信息,包括实体信息、属性信息、事件信息、模型信息、关系信息,形成结构化数据;步骤2:实体层知识图谱构建;具体如下:第1步:构建并训练LSTM

CRF模型该模型分为三层:表示层、LSTM层以及CRF层;其中表示层具备如下功能:1)文本数据预处理:对来自各个领域的文本进行处理;2)One

hot编码:编码前需确定样本空间文字数量,并将文字以One

hot编码形式进行转换;3)字向量转换:设定嵌入向量的维度,将文字对应的One

hot编码通过Embedding层转化为低维度的稠密向量,最终得到文字的数值向量表示;LSTM层由多个LSTM单元串联构成;LSTM单元的门结构分为输入门、忘记门和输出门3类;如果t时刻以i
t
、f
t
、o
t
和C
t
分别表明3种门和细胞状态,则有;i
t
=σ(W
i
·
[h
t
‑1,x
t
]+b
i
)
ꢀꢀꢀꢀꢀꢀ
(1)f
t
=σ(W
f
·
[h
t
‑1,x
t
]+b
f
)
ꢀꢀꢀꢀꢀ
(2)o
t
=σ(W
o
·
[h
t
‑1,x
t
]+b
o
)
ꢀꢀꢀꢀꢀꢀ
(3)(3)(3)其中为元素级乘法运算;σ为sigmod函数;W
i
、W
f
、W
o
分别是输入门、忘记门和输出门的权重矩阵,b
i
、b
f
、b
o
分别是输入门、忘记门和输出门的偏置向量,h
t
‑1、h
t
分别为中t

1时刻和t时刻的LSTM单元的输出也称为隐藏层单元、x
t
为t时刻LSTM单元的输入,是细胞初始状态,W
c
、b
c
分别是细胞状态的权重矩阵和偏置向量;采用双向LSTM模型Bi

LSTM,该模型采用前向层和后向层2个相反方向的并行层,分别从序列的始端和末端开始运行,并将得到的2个向量和进行拼接以得到隐层表示y
t
,并根据y
t
得到标签得分矩阵P
n
×
k
,其中,n为句子包含的字数;k为标签数;CRF层对LSTM层计算结果加以限制,通过分析相邻标签关系获得一个全局最优的标记序列,以实现实体识别,其具体实施步骤如下:通过分析由LSTM层和事先生成的标签序列之间的相邻关系获得一个全局最优的标记序列;对于经过LSTM处理后输出的标签得分矩阵P
n
×
k
;P
n
×
k
中的元素p
i,j
为该句第i个字映射到第j个标签的非归一化概率,其中i的取值范围为1到n的整数,j的取值范围为1到k的整数;P
n
×
k
中的子向量P
·
j
为{p
1,j
,p
2,j


,p
n,j
}所组成的观测序列,定义p
·
k
为输出的观测序列X;引入状态转移矩阵A,其中的a
i,j
表明时序上从第i个标签转移到第j个标签的概率;对于从LSTM层获取的观测序列X和其对应的使用随机生成等方式事先生成的标记序列Y={y1,
y2,...,y
n
},定义分数为:对观测序列X和其对应的每个标记序列Y,运用动态优化算法,计算最大分数s
max
(X,Y),得到最优标注序列,以实现实体识别;第2步:构建并训练基于BERT和关系位置特征的分层框架HBP模型,并基于HBP模型实现关系抽取;基于HBP方法的实体关系抽取的方法包括以下三步:第一步:将BERT作为输入文本序列的编码器,将文本序列输入BERT模型,获取BERT隐含层状态向量,即输入为一个单词的Token序列,输出为每个Token的768维表示;第二步:在完成BERT编码后,采用分层强化学习方法,在高层中进行强化学习的关系识别,识别文本中的关系触发词;第三步:若识别出关系触发词,则触发低层强化学习过程进行实体识别,对当前关系所对应的实体进行解码;第3步:基于RoBERTa和实体边界预测实现属性补全;该方法包括文本编码层、实体边界预测层、BiLSTM

CRF属性预测层;文本编码层通过RoBERTa对预处理过的输入文本进行编码,获取其隐含层状态向量;然后将隐含层状态向量分别输入至实体边界预测层与BiLSTM

CRF属性预测层;在实体边界预测层,采用0/1编码的方式分别进行实体头部与实体尾部的标注,然后计算两个序列标注的损失值start_loss与end_loss;在BiLSTM

CRF属性预测层,将实体边界预测层的输出结果作为特征与输入文本向量拼接,将拼接结果输入至BiLSTM

CRF,由BiLSTM

CRF属性预测层对文本属性标签进行预测,然后计算其属性预测损失值att_loss;模型优化阶段,综合考虑三个loss值,对其进行加权求和,通过反向传播实现模型整体的优化;步骤3:事件层知识图谱构建;具体包括下列步骤:第1步:利用对抗式...

【专利技术属性】
技术研发人员:张杰勇赵亮孙鹏徐鑫钟贇刘彬程海燕马钰棠闫云飞梁威
申请(专利权)人:中国人民解放军空军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1