System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及知识图谱,具体为基于无监督学习知识图谱构建方法及系统。
技术介绍
1、知识图谱是一种结构化的语义知识库,用于描述实体及其关系,在智能搜索、问答系统、推荐系统等领域有广泛应用。
2、传统的知识图谱构建方法主要依赖人工定义的实体和大量标注数据,费时费力。
3、现有的文本知识图谱构建方法主要分为基于规则、基于监督学习和基于无监督学习三类。
4、基于规则的方法需要人工定义复杂的模板和规则,泛化能力差;基于监督学习的方法需要大量高质量的标注数据,人力成本高;基于无监督学习的方法无需人工定义规则和标注数据,可以自动挖掘文本中蕴含的知识,但抽取的知识质量和丰富度有待提高。
5、在实体识别方面,传统方法主要基于词典匹配、条件随机场等方法,泛化能力有限。
6、近年来,基于深度学习的命名实体识别方法取得了显著进展,特别是预训练语言模型如bert、roberta等,可以充分利用大规模语料中的语义知识,大幅提升实体识别效果。
7、然而,仅识别出实体还不够,还需要对同名实体进行消歧,链接到知识库中的标准实体。
8、在关系抽取方面,早期的方法主要基于模式匹配、启发式规则等,容易受限于人工定义的规则和模式。
9、随着语义解析技术的发展,研究者们提出了一些基于监督学习的关系抽取方法,从句法分析树或语义依存图中抽取实体对和关系触发词,然后使用分类模型判断关系类型。
10、这类方法可以处理复杂的句子结构,提取隐含的关系,但需要大量标注数据。
...【技术保护点】
1.基于无监督学习知识图谱构建方法,其特征在于,包括:
2.根据权利要求1所述的基于无监督学习知识图谱构建方法,其特征在于,获取文本数据,对文本数据进行预处理,去除文本数据中的标签数据和符号数据;基于词典和分词工具,将文本数据中的文本划分为词语序列;基于预定义的词典和规则,采用正向最大匹配算法对文本进行分词:将文本数据表示为由个词语组成的序列:;
3.根据权利要求2所述的基于无监督学习知识图谱构建方法,其特征在于,选择RoBERTa预训练模型作为实体识别模型,并在RoBERTa预训练模型的基础上,对RoBERTa预训练模型进行调整,添加实体识别特定的网络层,包括线性层和CRF层;将分词结果输入调整后的模型,得到每个分词的标签概率分布,使用维特比算法解码,得到最优标签序列;提取实体及类型,得到实体识别结果;对每个实体识别结果,从RoBERTa预训练模型的知识库中检索同名候选实体,计算知识库中的实体与候选实体的相似度;选择相似度最高的候选实体作为链接对象:其中,是知识库中的实体集合,将知识库中的实体链接到选定的候选实体,消除歧义。
4.根据权利要求
5.根据权利要求4所述的基于无监督学习知识图谱构建方法,其特征在于,构建实体关系权重计算公式,计算实体和实体之间的关系权重:其中,和表示实体;为文本数据的发布日期衰减指数;为文本数据的发布日期;为当前日期;为参数;为文本数据的来源指数;和分别为实体和实体在文章中的词频,为文本数据中的实体最大词频。
6.根据权利要求5所述的基于无监督学习知识图谱构建方法,其特征在于,对于抽取出的关系,将实体关系权重映射为实体和实体关系置信度:其中,为实体和实体关系置信度,表示实体和实体关系存在的可信程度。
7.根据权利要求6所述的基于无监督学习知识图谱构建方法,其特征在于,设定置信度阈值,过滤置信度不满足要求的实体和实体关系:若,则认为实体和实体之间的关系不存在;
8.根据权利要求7所述的基于无监督学习知识图谱构建方法,其特征在于,基于文本数据中抽取的实体和实体关系,构建文本数据的知识图谱;定义无向加权知识图谱,其中表示实体节点集合,表示实体关系边集合,表示实体关系权重集合;对于每一个满足置信度要求的三元组,执行以下步骤:
9.根据权利要求8所述的基于无监督学习知识图谱构建方法,其特征在于,在处理完所有三元组后,得到由实体节点、实体关系边和实体关系权重组成的无向加权知识图谱,其中,节点表示第个实体;边表示实体和实体之间存在语义关系;权重表示边对应的实体关系置信度,反映实体关系的可信程度。
10.基于无监督学习知识图谱构建系统,其用于实现基于无监督学习知识图谱构建方法,其特征在于,包括:数据获取模块、实体识别模块、实体关系抽取模块、实体关系权重计算模块以及知识图谱模块;
...【技术特征摘要】
1.基于无监督学习知识图谱构建方法,其特征在于,包括:
2.根据权利要求1所述的基于无监督学习知识图谱构建方法,其特征在于,获取文本数据,对文本数据进行预处理,去除文本数据中的标签数据和符号数据;基于词典和分词工具,将文本数据中的文本划分为词语序列;基于预定义的词典和规则,采用正向最大匹配算法对文本进行分词:将文本数据表示为由个词语组成的序列:;
3.根据权利要求2所述的基于无监督学习知识图谱构建方法,其特征在于,选择roberta预训练模型作为实体识别模型,并在roberta预训练模型的基础上,对roberta预训练模型进行调整,添加实体识别特定的网络层,包括线性层和crf层;将分词结果输入调整后的模型,得到每个分词的标签概率分布,使用维特比算法解码,得到最优标签序列;提取实体及类型,得到实体识别结果;对每个实体识别结果,从roberta预训练模型的知识库中检索同名候选实体,计算知识库中的实体与候选实体的相似度;选择相似度最高的候选实体作为链接对象:其中,是知识库中的实体集合,将知识库中的实体链接到选定的候选实体,消除歧义。
4.根据权利要求3所述的基于无监督学习知识图谱构建方法,其特征在于,选择openie模型作为无监督实体关系抽取模型;
5.根据权利要求4所述的基于无监督学习知识图谱构建方法,其特征在于,构建实体关系权重计算公式,计算实体和实体之间的关系权重:其中,和表示实体;为文本数据的发布日期...
【专利技术属性】
技术研发人员:李章民,
申请(专利权)人:北京信息职业技术学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。