概念图谱构建方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:27453224 阅读:22 留言:0更新日期:2021-02-25 04:44
本申请实施例属于大数据技术领域,涉及一种概念图谱构建方法及相关设备,可应用于智慧教育领域,包括:采集文本数据,对所述文本数据进行短语抽取,得到第一候选概念数据、第二候选概念数据以及第三候选概念数据;组合第一候选概念数据、第二候选概念数据和第三候选概念数据为候选数据集,通过预设评分模型对候选数据集中的候选概念数据进行评分,确定评分大于等于预设阈值的候选概念数据为优选概念数据;将优选概念数据与存储的预设知识进行匹配,确定与优选概念数据匹配成功的预设知识为优选知识,将优选概念数据与优选知识进行关联存储。此外,本申请还涉及区块链技术,优选概念数据可存储于区块链中。本申请实现了概念图谱的自适应构建。自适应构建。自适应构建。

【技术实现步骤摘要】
概念图谱构建方法、装置、计算机设备及存储介质


[0001]本申请涉及大数据
,尤其涉及一种概念图谱构建方法、装置、计算机设备及存储介质。

技术介绍

[0002]当前,无论是在对话交谈中,还是对文章进行阅读和对事件进行描述时,人们往往以概念的方式对事物进行认知。理想的概念应该能准确描述一类事件,但同时又不缺乏泛化性,能够提供除事件本身以外,更多且更泛化的信息量。对于不同的应用和不同的场景,概念的体系是不同的。例如,对于搜索类的应用,电商系统中的搜索和医学文献的搜索,概念体系可能是完全不一样的。
[0003]现有的概念图谱,往往存在太过通用,或者太过正式而无法针对不同的场景进行不同的概念关联的问题。例如,有的概念图谱是在非常正式的内容上挖掘构建而成的,如维基百科的页面内容。这些内容与不同应用实际面对的场景是不一样的。如在智能对话系统中,用户的语言更加口语化;而在保险垂类搜索中,用户的输入则与保险行业高度相关。因此,现有的概念图谱无法为不同的应用提供适合、定制化的知识供给,从而限制了应用的智能化认知水平,无法为用户提供最优质的体验。

技术实现思路

[0004]本申请实施例的目的在于提出一种概念图谱构建方法、装置、计算机设备及存储介质,旨在解决现有的概念图谱无法进行定制化地知识供给的技术问题。
[0005]为了解决上述技术问题,本申请实施例提供一种概念图谱构建方法,采用了如下所述的技术方案:
[0006]一种概念图谱构建方法,包括以下步骤:
[0007]采集文本数据,基于预设模版库的基础模版对所述文本数据进行短语抽取,得到第一候选概念数据,基于预设短语抽取算法对所述文本数据进行短语抽取,得到第二候选概念数据,基于预设语言模型对所述文本数据进行短语抽取,得到第三候选概念数据;
[0008]组合所述第一候选概念数据、第二候选概念数据和第三候选概念数据为候选数据集,通过预设评分模型对所述候选数据集中的候选概念数据进行评分,确定评分大于等于预设阈值的候选概念数据为优选概念数据;
[0009]将所述优选概念数据与存储的预设知识一一进行匹配,确定与所述优选概念数据匹配成功的预设知识为优选知识,将所述优选概念数据与所述优选知识进行关联存储。
[0010]进一步的,在所述基于预设语言模型对所述文本数据进行短语抽取,得到第三候选概念数据的步骤之前,包括:
[0011]获取预设训练数据,基于所述预设训练数据对基础语言模型进行训练,其中,所述基础语言模型包括预训练模型和条件随机场模型;
[0012]获取所述基础语言模型的学习率,确定在所述学习率下所述基础语言模型中的预
训练模型和条件随机场模型的收敛值是否均为对应的最佳值;
[0013]在所述预训练模型和所述条件随机场模型任意一个的收敛值非对应的最佳值时,调整所述学习率,直至所述预训练模型和所述条件随机场模型的收敛值均达到对应的所述最佳值,确定所述基础语言模型为预设语言模型。
[0014]进一步的,所述通过预设评分模型对所述候选数据集中的候选概念数据进行评分的步骤包括:
[0015]获取所述候选数据集中候选概念数据的语义凝聚度、长度、词性标注结果以及语言模型特征;
[0016]将所述长度、所述词性标注结果、所述语义凝聚度以及所述语言模型特征,输入至预设评分模型,计算得到所述候选概念数据对应的评分。
[0017]进一步的,所述获取所述候选数据集中候选概念数据的语义凝聚度的步骤包括:
[0018]获取大规模语料数据,基于所述大规模语料数据确定包括所述候选概念数据的文章;
[0019]获取所有所述文章对应的类别,计算所述候选概念数据分别在不同类别下出现的子次数以及在所有类别下的总次数,将所述子次数与所述总次数的最大占比作为所述候选概念数据的语义凝聚度。
[0020]进一步的,所述将所述优选概念数据与存储的预设知识一一进行匹配的步骤包括:
[0021]计算所述优选概念数据与预设知识的字形相似度,将所述字形相似度大于等于第一匹配度的优选概念数据作为一级概念数据,确定所述一级概念数据对应的预设知识为优选知识;
[0022]将所述优选概念数据中除所述一级概念数据以外的优选概念数据作为二级概念数据,计算所述二级概念数据与所述预设知识的语义相似度,确定所述语义相似度大于等于第二匹配度的预设知识为优选知识。
[0023]进一步的,在所述基于预设模版库的基础模版对所述文本数据进行短语抽取,得到第一候选概念数据的步骤之后,包括:
[0024]检测所述第一候选概念数据在预设的概念库中是否存在,在所述第一候选概念数据在所述概念库中不存在时,确定所述第一候选概念数据为新概念数据;
[0025]基于预设模版生成系统和所述文本数据,生成所述新概念数据对应的候选模板;
[0026]对所述候选模版进行质量检测,在所述候选模版质量检测通过时,保存所述候选模版为预设模版库中的基础模版。
[0027]进一步的,所述对所述候选模版进行质量检测的步骤包括:
[0028]基于所述候选模版对验证数据进行概念抽取,获取抽取得到的新概念数据的第一数量,以及旧概念数据的第二数量;
[0029]计算所述第一数量与所述第二数量的比值,在所述比值大于等于第一预设阈值,并且所述第二数量大于等于第二预设阈值时,确定所述候选模版的质量检测通过。
[0030]为了解决上述技术问题,本申请实施例还提供一种概念图谱构建装置,采用了如下所述的技术方案:
[0031]采集模块,用于采集文本数据,基于预设模版库的基础模版对所述文本数据进行
短语抽取,得到第一候选概念数据,基于预设短语抽取算法对所述文本数据进行短语抽取,得到第二候选概念数据,基于预设语言模型对所述文本数据进行短语抽取,得到第三候选概念数据;
[0032]组合模块,用于组合所述第一候选概念数据、第二候选概念数据和所述第三候选概念数据为候选数据集,通过预设评分模型对所述候选数据集中的候选概念数据进行评分,确定评分大于等于预设阈值的候选概念数据为优选概念数据;
[0033]匹配模块,用于将所述优选概念数据与存储的预设知识一一进行匹配,确定与所述优选概念数据匹配成功的预设知识为优选知识,将所述优选概念数据与所述优选知识进行关联存储。
[0034]为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述概念图谱构建方法的步骤。
[0035]为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述概念图谱构建方法的步骤。
[0036]上述概念图谱构建方法,通过采集文本数据,基于预设模版库的基础模版对文本数据进行短语抽取,得到第一候选概念数据,基于预设短语抽取算法对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种概念图谱构建方法,其特征在于,包括下述步骤:采集文本数据,基于预设模版库的基础模版对所述文本数据进行短语抽取,得到第一候选概念数据,基于预设短语抽取算法对所述文本数据进行短语抽取,得到第二候选概念数据,基于预设语言模型对所述文本数据进行短语抽取,得到第三候选概念数据;组合所述第一候选概念数据、第二候选概念数据和第三候选概念数据为候选数据集,通过预设评分模型对所述候选数据集中的候选概念数据进行评分,确定评分大于等于预设阈值的候选概念数据为优选概念数据;将所述优选概念数据与存储的预设知识一一进行匹配,确定与所述优选概念数据匹配成功的预设知识为优选知识,将所述优选概念数据与所述优选知识进行关联存储。2.根据权利要求1所述的概念图谱构建方法,其特征在于,在所述基于预设语言模型对所述文本数据进行短语抽取,得到第三候选概念数据的步骤之前,包括:获取预设训练数据,基于所述预设训练数据对基础语言模型进行训练,其中,所述基础语言模型包括预训练模型和条件随机场模型;获取所述基础语言模型的学习率,确定在所述学习率下所述基础语言模型中的预训练模型和条件随机场模型的收敛值是否均为对应的最佳值;在所述预训练模型和所述条件随机场模型任意一个的收敛值非对应的最佳值时,调整所述学习率,直至所述预训练模型和所述条件随机场模型的收敛值均达到对应的所述最佳值,确定所述基础语言模型为预设语言模型。3.根据权利要求1所述的概念图谱构建方法,其特征在于,所述通过预设评分模型对所述候选数据集中的候选概念数据进行评分的步骤包括:获取所述候选数据集中候选概念数据的语义凝聚度、长度、词性标注结果以及语言模型特征;将所述长度、所述词性标注结果、所述语义凝聚度以及所述语言模型特征,输入至预设评分模型,计算得到所述候选概念数据对应的评分。4.根据权利要求3所述的概念图谱构建方法,其特征在于,所述获取所述候选数据集中候选概念数据的语义凝聚度的步骤包括:获取大规模语料数据,基于所述大规模语料数据确定包括所述候选概念数据的文章;获取所有所述文章对应的类别,计算所述候选概念数据分别在不同类别下出现的子次数以及在所有类别下的总次数,将所述子次数与所述总次数的最大占比作为所述候选概念数据的语义凝聚度。5.根据权利要求1所述的概念图谱构建方法,其特征在于,所述将所述优选概念数据与存储的预设知识一一进行匹配的步骤包括:计算所述优选概念数据与预设知识的字形相似度,将所述字形相似度大于等于第一...

【专利技术属性】
技术研发人员:白祚董光喆孙梓淇莫洋
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1