【技术实现步骤摘要】
基于主题模型的领域知识图谱本体半自动构建方法及系统
[0001]本专利技术涉及知识图谱构建领域,尤其涉及一种基于主题模型的领域知识图谱本体半自动构建方法及系统
。
技术介绍
[0002]知识图谱分为模式层和数据层两部分:其中模式层是是知识图谱的核心,在模式层存储的是经过提炼的知识;数据层存储的是具体数据信息
。Schema
属于模式层,用来规范知识图谱的领域与描述对象,为知识图谱设计
Schema
相当于为其本体构建
(Ontology Construction)
,文中提到的本体构建等价于设计
Schema。
[0003]本体构建是构建知识图谱中的一个关键步骤
,
本体构建是指在某个特定领域中对概念
、
实体
、
属性和关系进行定义和建模的过程
。
本体通常用于描述领域中的概念体系,将实体和概念组织成一个层次结构,并定义它们之间的属性和关系
。
在垂直领域的知识图谱,通常只需要定义实体类型,关系类型,属性类型
。
通过定义和构建本体,可以明确知识图谱中的实体
、
属性和关系,使得知识图谱具有更好的结构化和标准化特性,能够更准确地表达和表示领域内的知识
。
[0004]引入主题模型和聚类方法后提高了领域术语抽取的效率,可以根据语料文本相似度进行聚类和分析
。
但基于有监督的主题模型和聚类方法也需要依赖大量 ...
【技术保护点】
【技术特征摘要】
1.
一种基于主题模型的领域知识图谱本体半自动构建方法,其特征在于,包括:
S1
:获取领域语料库
Corpus
,对领域语料库
Corpus
进行降维和聚类,获得主题聚类分布;
S2
:对主题聚类分布进行领域术语提取,获得领域术语词表
Terms
;
S3
:构建词嵌入模型
word2vec
,通过词嵌入模型
word2vec
对领域术语词表
Terms
进行特征提取和融合,获得融合词嵌入表示矩阵
Keywords Embeddings
;
S4
:对融合词嵌入表示矩阵
Keywords Embeddings
进行降维和聚类,获得领域术语聚类分布;
S5
:通过领域术语聚类分布构建领域知识图谱本体
。2.
根据权利要求1所述的基于主题模型的领域知识图谱本体半自动构建方法,其特征在于,步骤
S1
具体为:
S11
:获取领域文档,通过分句和拼接使领域文档中的单个文档的字符长度在
512
个字符以内,获得领域语料库
Corpus
;
S12
:将领域语料库
Corpus
中的句子和段落映射到
512
维密集向量空间,获得词嵌入表示矩阵
Corpus Embeddings
;
S13
:通过
UMAP
降维算法对词嵌入表示矩阵
Corpus Embeddings
进行降维,获得词嵌入降维表示矩阵
UMAP Embeddings
;
S14
:通过
HDBSACN
聚类算法对词嵌入降维表示矩阵
UMAP Embeddings
进行主题聚类,获得主题聚类分布
。3.
根据权利要求1所述的基于主题模型的领域知识图谱本体半自动构建方法,其特征在于,步骤
S2
具体为:
S21
:将主题聚类分布中的单个聚类簇视为一个文档,提取获得各文档中的候选术语;
S22
:通过
TF
‑
IDF
算法计算获得各候选术语的
TF
‑
IDF
值,通过各候选术语的
TF
‑
IDF
值构建术语矩阵;
S23
:设置主题聚类分布中每个聚类簇的阈值,将
TF
‑
IDF
值高于对应聚类簇的阈值的候选术语作为领域术语,获取所有的领域术语构建领域术语词表
Terms。4.
根据权利要求1所述的基于主题模型的领域知识图谱本体半自动构建方法,其特征在于,步骤
S3
具体为:
S31
:获取初始词嵌入模型,通过领域语料库
Corpus
和领域术语词表
Terms
对初始词嵌入模型进行参数调整,获得词嵌入模型
word2vec
...
【专利技术属性】
技术研发人员:郭艳,冯诗祥,林伟华,刘福江,刘虹辰,邵泉森,梁伟超,高千凯,苏军顺,王宪彬,
申请(专利权)人:中国地质大学武汉,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。