基于主题模型的领域知识图谱本体半自动构建方法及系统技术方案

技术编号:39578707 阅读:13 留言:0更新日期:2023-12-03 19:29
本发明专利技术提供一种基于主题模型的领域知识图谱本体半自动构建方法,包括:

【技术实现步骤摘要】
基于主题模型的领域知识图谱本体半自动构建方法及系统


[0001]本专利技术涉及知识图谱构建领域,尤其涉及一种基于主题模型的领域知识图谱本体半自动构建方法及系统


技术介绍

[0002]知识图谱分为模式层和数据层两部分:其中模式层是是知识图谱的核心,在模式层存储的是经过提炼的知识;数据层存储的是具体数据信息
。Schema
属于模式层,用来规范知识图谱的领域与描述对象,为知识图谱设计
Schema
相当于为其本体构建
(Ontology Construction)
,文中提到的本体构建等价于设计
Schema。
[0003]本体构建是构建知识图谱中的一个关键步骤
,
本体构建是指在某个特定领域中对概念

实体

属性和关系进行定义和建模的过程

本体通常用于描述领域中的概念体系,将实体和概念组织成一个层次结构,并定义它们之间的属性和关系

在垂直领域的知识图谱,通常只需要定义实体类型,关系类型,属性类型

通过定义和构建本体,可以明确知识图谱中的实体

属性和关系,使得知识图谱具有更好的结构化和标准化特性,能够更准确地表达和表示领域内的知识

[0004]引入主题模型和聚类方法后提高了领域术语抽取的效率,可以根据语料文本相似度进行聚类和分析

但基于有监督的主题模型和聚类方法也需要依赖大量数据集的支持去进行特征学习,才能保证学习结果的准确性和可靠性

因此现有的本体构建通常需要大量领域专家参与来完成,效率低

耗时长且标准不统一


技术实现思路

[0005]为解决上述技术问题,本专利技术提供一种基于主题模型的领域知识图谱本体半自动构建方法,包括:
[0006]S1
:获取领域语料库
Corpus
,对领域语料库
Corpus
进行降维和聚类,获得主题聚类分布;
[0007]S2
:对主题聚类分布进行领域术语提取,获得领域术语词表
Terms

[0008]S3
:构建词嵌入模型
word2vec
,通过词嵌入模型
word2vec
对领域术语词表
Terms
进行特征提取和融合,获得融合词嵌入表示矩阵
Keywords Embeddings

[0009]S4
:对融合词嵌入表示矩阵
Keywords Embeddings
进行降维和聚类,获得领域术语聚类分布;
[0010]S5
:通过领域术语聚类分布构建领域知识图谱本体

[0011]优选的,步骤
S1
具体为:
[0012]S11
:获取领域文档,通过分句和拼接使领域文档中的单个文档的字符长度在
512
个字符以内,获得领域语料库
Corpus

[0013]S12
:将领域语料库
Corpus
中的句子和段落映射到
512
维密集向量空间,获得词嵌入表示矩阵
Corpus Embeddings

Embeddings

[0086]领域术语聚类分布获取模块,用于对融合词嵌入表示矩阵
Keywords Embeddings
进行降维和聚类,获得领域术语聚类分布;
[0087]领域知识图谱本体构建模块,用于通过领域术语聚类分布构建领域知识图谱本体

[0088]需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程

方法

物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程

方法

物品或者系统所固有的要素

在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程

方法

物品或者系统中还存在另外的相同要素

[0089]上述本专利技术实施例序号仅仅为了描述,不代表实施例的优劣

在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现

词语第一

第二

以及第三等的使用不表示任何顺序,可将这些词语解释为标识

[0090]以上仅为本专利技术的优选实施例,并非因此限制本专利技术的专利范围,凡是利用本专利技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的
,均同理包括在本专利技术的专利保护范围内

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于主题模型的领域知识图谱本体半自动构建方法,其特征在于,包括:
S1
:获取领域语料库
Corpus
,对领域语料库
Corpus
进行降维和聚类,获得主题聚类分布;
S2
:对主题聚类分布进行领域术语提取,获得领域术语词表
Terms

S3
:构建词嵌入模型
word2vec
,通过词嵌入模型
word2vec
对领域术语词表
Terms
进行特征提取和融合,获得融合词嵌入表示矩阵
Keywords Embeddings

S4
:对融合词嵌入表示矩阵
Keywords Embeddings
进行降维和聚类,获得领域术语聚类分布;
S5
:通过领域术语聚类分布构建领域知识图谱本体
。2.
根据权利要求1所述的基于主题模型的领域知识图谱本体半自动构建方法,其特征在于,步骤
S1
具体为:
S11
:获取领域文档,通过分句和拼接使领域文档中的单个文档的字符长度在
512
个字符以内,获得领域语料库
Corpus

S12
:将领域语料库
Corpus
中的句子和段落映射到
512
维密集向量空间,获得词嵌入表示矩阵
Corpus Embeddings

S13
:通过
UMAP
降维算法对词嵌入表示矩阵
Corpus Embeddings
进行降维,获得词嵌入降维表示矩阵
UMAP Embeddings

S14
:通过
HDBSACN
聚类算法对词嵌入降维表示矩阵
UMAP Embeddings
进行主题聚类,获得主题聚类分布
。3.
根据权利要求1所述的基于主题模型的领域知识图谱本体半自动构建方法,其特征在于,步骤
S2
具体为:
S21
:将主题聚类分布中的单个聚类簇视为一个文档,提取获得各文档中的候选术语;
S22
:通过
TF

IDF
算法计算获得各候选术语的
TF

IDF
值,通过各候选术语的
TF

IDF
值构建术语矩阵;
S23
:设置主题聚类分布中每个聚类簇的阈值,将
TF

IDF
值高于对应聚类簇的阈值的候选术语作为领域术语,获取所有的领域术语构建领域术语词表
Terms。4.
根据权利要求1所述的基于主题模型的领域知识图谱本体半自动构建方法,其特征在于,步骤
S3
具体为:
S31
:获取初始词嵌入模型,通过领域语料库
Corpus
和领域术语词表
Terms
对初始词嵌入模型进行参数调整,获得词嵌入模型
word2vec
...

【专利技术属性】
技术研发人员:郭艳冯诗祥林伟华刘福江刘虹辰邵泉森梁伟超高千凯苏军顺王宪彬
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1