System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于无监督学习知识图谱构建方法及系统技术方案_技高网

基于无监督学习知识图谱构建方法及系统技术方案

技术编号:44368512 阅读:8 留言:0更新日期:2025-02-25 09:47
本发明专利技术涉及知识图谱技术领域,具体为基于无监督学习知识图谱构建方法及系统,所述方法包括:获取文本数据,对收集的文本数据进行预处理,并对文本数据进行分词,得到文本数据的分词结果;基于预训练语言模型,对文本数据的分词结果进行实体识别,并对文本数据中的实体识别结果进行歧义消除;采用无监督模型抽取实体关系,生成实体和实体关系三元组;构建实体关系权重计算公式,并将实体关系权重映射为实体关系置信度,过滤置信度值低于阈值的实体关系;基于文本数据中抽取的实体和实体关系,构建文本数据的知识图谱。本发明专利技术提高了知识图谱构建的效率和质量,为智能搜索、问答、推荐等知识驱动的应用提供了重要的知识支撑。

【技术实现步骤摘要】

本专利技术涉及知识图谱,具体为基于无监督学习知识图谱构建方法及系统


技术介绍

1、知识图谱是一种结构化的语义知识库,用于描述实体及其关系,在智能搜索、问答系统、推荐系统等领域有广泛应用。

2、传统的知识图谱构建方法主要依赖人工定义的实体和大量标注数据,费时费力。

3、现有的文本知识图谱构建方法主要分为基于规则、基于监督学习和基于无监督学习三类。

4、基于规则的方法需要人工定义复杂的模板和规则,泛化能力差;基于监督学习的方法需要大量高质量的标注数据,人力成本高;基于无监督学习的方法无需人工定义规则和标注数据,可以自动挖掘文本中蕴含的知识,但抽取的知识质量和丰富度有待提高。

5、在实体识别方面,传统方法主要基于词典匹配、条件随机场等方法,泛化能力有限。

6、近年来,基于深度学习的命名实体识别方法取得了显著进展,特别是预训练语言模型如bert、roberta等,可以充分利用大规模语料中的语义知识,大幅提升实体识别效果。

7、然而,仅识别出实体还不够,还需要对同名实体进行消歧,链接到知识库中的标准实体。

8、在关系抽取方面,早期的方法主要基于模式匹配、启发式规则等,容易受限于人工定义的规则和模式。

9、随着语义解析技术的发展,研究者们提出了一些基于监督学习的关系抽取方法,从句法分析树或语义依存图中抽取实体对和关系触发词,然后使用分类模型判断关系类型。

10、这类方法可以处理复杂的句子结构,提取隐含的关系,但需要大量标注数据。p>

11、因此,亟须一种端到端的、高效准确的知识图谱构建方法,能够充分挖掘文本数据中的结构化知识,减少人工成本,提高知识抽取的质量和效率。

12、本专利技术正是在此背景下提出的,旨在提供一种基于无监督学习知识图谱构建方法及系统。


技术实现思路

1、为解决上述技术问题,本专利技术提供如下技术方案:基于无监督学习知识图谱构建方法,包括:

2、获取文本数据,对收集的文本数据进行预处理,并对文本数据进行分词,得到文本数据的分词结果;

3、基于预训练语言模型,对文本数据的分词结果进行实体识别,并对文本数据中的实体识别结果进行歧义消除;

4、采用无监督模型抽取实体关系,生成实体和实体关系三元组;

5、构建实体关系权重计算公式,并将实体关系权重映射为实体关系置信度,过滤置信度值低于阈值的实体关系;

6、基于文本数据中抽取的实体和实体关系,构建文本数据的知识图谱。

7、作为本专利技术所述基于无监督学习知识图谱构建方法的一种优选方案,其中:对文本数据进行预处理,去除文本数据中的标签数据和符号数据;基于词典和分词工具,将文本数据中的文本划分为词语序列;

8、基于预定义的词典和规则,采用正向最大匹配算法对文本进行分词:将文本数据表示为由个词语组成的序列:;

9、定义词典,其中包含个词语:从左到右扫描文本,找出最长词语匹配;

10、设为当前扫描位置,为词语结束位置对于,判断子串是否在词典中;若子串在词典中,则将作为一个词语,并将移动到的位置;若子串不在词典中,则将移动到的位置;重复扫描过程,直到,得到文本数据的分词结果。

11、作为本专利技术所述基于无监督学习知识图谱构建方法的一种优选方案,其中:选择roberta预训练模型作为实体识别模型,并在roberta预训练模型的基础上,对roberta预训练模型进行调整,添加实体识别特定的网络层,包括线性层和crf层;

12、将分词结果输入调整后的模型,得到每个分词的标签概率分布,使用维特比算法解码,得到最优标签序列;提取实体及类型,得到实体识别结果;

13、对每个实体识别结果,从roberta预训练模型的知识库中检索同名候选实体,计算知识库中的实体与候选实体的相似度;选择相似度最高的候选实体作为链接对象:

14、其中,是知识库中的实体集合,将知识库中的实体链接到选定的候选实体,消除歧义。

15、作为本专利技术所述基于无监督学习知识图谱构建方法的一种优选方案,其中:选择openie模型作为无监督实体关系抽取模型;

16、将预处理后的文本数据和实体识别结果输入到openie模型,openie模型通过句法分析、实体识别、关系触发词识别、关系界定以及三元组生成的步骤抽取实体关系;

17、所述句法分析包括,使用依存句法分析器对输入的文本进行句法分析,识别出句子的主语、谓语和宾语成分;

18、所述实体识别包括,利用预先识别的实体信息,在句子中定位实体;

19、所述关系触发词识别包括,根据句法分析结果和预定义的规则,识别出表示实体关系的触发词;

20、所述关系界定包括,根据触发词和实体提及的位置,界定出实体关系的边界,提取出实体关系;

21、所述三元组生成包括,将实体对和关系描述组合成三元组,表示实体和实体之间存在关系。

22、作为本专利技术所述基于无监督学习知识图谱构建方法的一种优选方案,其中:构建实体关系权重计算公式,计算实体和实体之间的关系权重:

23、其中,和表示实体;为文本数据的发布日期衰减指数;为文本数据的发布日期;为当前日期;为参数;为文本数据的来源指数;和分别为实体和实体在文章中的词频,为文本数据中的实体最大词频。

24、作为本专利技术所述基于无监督学习知识图谱构建方法的一种优选方案,其中:对于抽取出的关系,将实体关系权重映射为实体和实体关系置信度:其中,为实体和实体关系置信度,表示实体和实体关系存在的可信程度。

25、作为本专利技术所述基于无监督学习知识图谱构建方法的一种优选方案,其中:设定置信度阈值,过滤置信度不满足要求的实体和实体关系:

26、若,则认为实体和实体之间的关系不存在;

27、若,则认为实体和实体之间的关系存在。

28、作为本专利技术所述基于无监督学习知识图谱构建方法的一种优选方案,其中:基于文本数据中抽取的实体和实体关系,构建文本数据的知识图谱;定义无向加权知识图谱,其中表示实体节点集合,表示实体关系边集合,表示实体关系权重集合;

29、对于每一个满足置信度要求的三元组,执行以下步骤:

30、步骤a:将实体和实体添加到节点集合中:;

31、步骤b:将实体关系作为无向边添加到边集合中:

32、;

33、步骤c:将实体关系置信度作为边的权重添加到权重集合中:;

34、步骤d:若实体和实体之间存在多个实体关系,则选择置信度最大的关系作为实体和实体之间的边:;

35、重复步骤a至步骤d,直到所有满足置信度要求的三元组都被处理完毕。

36、作为本专利技术所述基于无监督学习知识图谱构建方法的一种优选方案,其中:在处理完所有三元组后,得到由实体节点、实体关系边和实体关系本文档来自技高网...

【技术保护点】

1.基于无监督学习知识图谱构建方法,其特征在于,包括:

2.根据权利要求1所述的基于无监督学习知识图谱构建方法,其特征在于,获取文本数据,对文本数据进行预处理,去除文本数据中的标签数据和符号数据;基于词典和分词工具,将文本数据中的文本划分为词语序列;基于预定义的词典和规则,采用正向最大匹配算法对文本进行分词:将文本数据表示为由个词语组成的序列:;

3.根据权利要求2所述的基于无监督学习知识图谱构建方法,其特征在于,选择RoBERTa预训练模型作为实体识别模型,并在RoBERTa预训练模型的基础上,对RoBERTa预训练模型进行调整,添加实体识别特定的网络层,包括线性层和CRF层;将分词结果输入调整后的模型,得到每个分词的标签概率分布,使用维特比算法解码,得到最优标签序列;提取实体及类型,得到实体识别结果;对每个实体识别结果,从RoBERTa预训练模型的知识库中检索同名候选实体,计算知识库中的实体与候选实体的相似度;选择相似度最高的候选实体作为链接对象:其中,是知识库中的实体集合,将知识库中的实体链接到选定的候选实体,消除歧义。

4.根据权利要求3所述的基于无监督学习知识图谱构建方法,其特征在于,选择OpenIE模型作为无监督实体关系抽取模型;

5.根据权利要求4所述的基于无监督学习知识图谱构建方法,其特征在于,构建实体关系权重计算公式,计算实体和实体之间的关系权重:其中,和表示实体;为文本数据的发布日期衰减指数;为文本数据的发布日期;为当前日期;为参数;为文本数据的来源指数;和分别为实体和实体在文章中的词频,为文本数据中的实体最大词频。

6.根据权利要求5所述的基于无监督学习知识图谱构建方法,其特征在于,对于抽取出的关系,将实体关系权重映射为实体和实体关系置信度:其中,为实体和实体关系置信度,表示实体和实体关系存在的可信程度。

7.根据权利要求6所述的基于无监督学习知识图谱构建方法,其特征在于,设定置信度阈值,过滤置信度不满足要求的实体和实体关系:若,则认为实体和实体之间的关系不存在;

8.根据权利要求7所述的基于无监督学习知识图谱构建方法,其特征在于,基于文本数据中抽取的实体和实体关系,构建文本数据的知识图谱;定义无向加权知识图谱,其中表示实体节点集合,表示实体关系边集合,表示实体关系权重集合;对于每一个满足置信度要求的三元组,执行以下步骤:

9.根据权利要求8所述的基于无监督学习知识图谱构建方法,其特征在于,在处理完所有三元组后,得到由实体节点、实体关系边和实体关系权重组成的无向加权知识图谱,其中,节点表示第个实体;边表示实体和实体之间存在语义关系;权重表示边对应的实体关系置信度,反映实体关系的可信程度。

10.基于无监督学习知识图谱构建系统,其用于实现基于无监督学习知识图谱构建方法,其特征在于,包括:数据获取模块、实体识别模块、实体关系抽取模块、实体关系权重计算模块以及知识图谱模块;

...

【技术特征摘要】

1.基于无监督学习知识图谱构建方法,其特征在于,包括:

2.根据权利要求1所述的基于无监督学习知识图谱构建方法,其特征在于,获取文本数据,对文本数据进行预处理,去除文本数据中的标签数据和符号数据;基于词典和分词工具,将文本数据中的文本划分为词语序列;基于预定义的词典和规则,采用正向最大匹配算法对文本进行分词:将文本数据表示为由个词语组成的序列:;

3.根据权利要求2所述的基于无监督学习知识图谱构建方法,其特征在于,选择roberta预训练模型作为实体识别模型,并在roberta预训练模型的基础上,对roberta预训练模型进行调整,添加实体识别特定的网络层,包括线性层和crf层;将分词结果输入调整后的模型,得到每个分词的标签概率分布,使用维特比算法解码,得到最优标签序列;提取实体及类型,得到实体识别结果;对每个实体识别结果,从roberta预训练模型的知识库中检索同名候选实体,计算知识库中的实体与候选实体的相似度;选择相似度最高的候选实体作为链接对象:其中,是知识库中的实体集合,将知识库中的实体链接到选定的候选实体,消除歧义。

4.根据权利要求3所述的基于无监督学习知识图谱构建方法,其特征在于,选择openie模型作为无监督实体关系抽取模型;

5.根据权利要求4所述的基于无监督学习知识图谱构建方法,其特征在于,构建实体关系权重计算公式,计算实体和实体之间的关系权重:其中,和表示实体;为文本数据的发布日期...

【专利技术属性】
技术研发人员:李章民
申请(专利权)人:北京信息职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1