概念图谱构建方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：27453224 阅读：22 留言：0更新日期：2021-02-25 04:44

本申请实施例属于大数据技术领域，涉及一种概念图谱构建方法及相关设备，可应用于智慧教育领域，包括：采集文本数据，对所述文本数据进行短语抽取，得到第一候选概念数据、第二候选概念数据以及第三候选概念数据；组合第一候选概念数据、第二候选概念数据和第三候选概念数据为候选数据集，通过预设评分模型对候选数据集中的候选概念数据进行评分，确定评分大于等于预设阈值的候选概念数据为优选概念数据；将优选概念数据与存储的预设知识进行匹配，确定与优选概念数据匹配成功的预设知识为优选知识，将优选概念数据与优选知识进行关联存储。此外，本申请还涉及区块链技术，优选概念数据可存储于区块链中。本申请实现了概念图谱的自适应构建。自适应构建。自适应构建。

全部详细技术资料下载

【技术实现步骤摘要】
概念图谱构建方法、装置、计算机设备及存储介质

[0001]本申请涉及大数据
，尤其涉及一种概念图谱构建方法、装置、计算机设备及存储介质。

技术介绍

[0002]当前，无论是在对话交谈中，还是对文章进行阅读和对事件进行描述时，人们往往以概念的方式对事物进行认知。理想的概念应该能准确描述一类事件，但同时又不缺乏泛化性，能够提供除事件本身以外，更多且更泛化的信息量。对于不同的应用和不同的场景，概念的体系是不同的。例如，对于搜索类的应用，电商系统中的搜索和医学文献的搜索，概念体系可能是完全不一样的。
[0003]现有的概念图谱，往往存在太过通用，或者太过正式而无法针对不同的场景进行不同的概念关联的问题。例如，有的概念图谱是在非常正式的内容上挖掘构建而成的，如维基百科的页面内容。这些内容与不同应用实际面对的场景是不一样的。如在智能对话系统中，用户的语言更加口语化；而在保险垂类搜索中，用户的输入则与保险行业高度相关。因此，现有的概念图谱无法为不同的应用提供适合、定制化的知识供给，从而限制了应用的智能化认知水平，无法为用户提供最优质的体验。

技术实现思路

[0004]本申请实施例的目的在于提出一种概念图谱构建方法、装置、计算机设备及存储介质，旨在解决现有的概念图谱无法进行定制化地知识供给的技术问题。
[0005]为了解决上述技术问题，本申请实施例提供一种概念图谱构建方法，采用了如下所述的技术方案：
[0006]一种概念图谱构建方法，包括以下步骤：
[0007]采集文本数据，基于...

【技术保护点】

【技术特征摘要】
1.一种概念图谱构建方法，其特征在于，包括下述步骤：采集文本数据，基于预设模版库的基础模版对所述文本数据进行短语抽取，得到第一候选概念数据，基于预设短语抽取算法对所述文本数据进行短语抽取，得到第二候选概念数据，基于预设语言模型对所述文本数据进行短语抽取，得到第三候选概念数据；组合所述第一候选概念数据、第二候选概念数据和第三候选概念数据为候选数据集，通过预设评分模型对所述候选数据集中的候选概念数据进行评分，确定评分大于等于预设阈值的候选概念数据为优选概念数据；将所述优选概念数据与存储的预设知识一一进行匹配，确定与所述优选概念数据匹配成功的预设知识为优选知识，将所述优选概念数据与所述优选知识进行关联存储。2.根据权利要求1所述的概念图谱构建方法，其特征在于，在所述基于预设语言模型对所述文本数据进行短语抽取，得到第三候选概念数据的步骤之前，包括：获取预设训练数据，基于所述预设训练数据对基础语言模型进行训练，其中，所述基础语言模型包括预训练模型和条件随机场模型；获取所述基础语言模型的学习率，确定在所述学习率下所述基础语言模型中的预训练模型和条件随机场模型的收敛值是否均为对应的最佳值；在所述预训练模型和所述条件随机场模型任意一个的收敛值非对应的最佳值时，调整所述学习率，直至所述预训练模型和所述条件随机场模型的收敛值均达到对应的所述最佳值，确定所述基础语言模型为预设语言模型。3.根据权利要求1所述的概念图谱构建方法，其特征在于，所述通过预设评分模型对所述候选数据集中的候选概念数据进行评分的步骤包括：获取所述候选数据集中候选概念数据的语义凝聚度、长度、词性标注结果以及语言模型特征；将所述长度、所述词性标注结果、所述语义凝聚度以及所述语言模型特征，输入至预设评分模型，计算得到所述候选概念数据对应的评分。4.根据权利要求3所述的概念图谱构建方法，其特征在于，所述获取所述候选数据集中候选概念数据的语义凝聚度的步骤包括：获取大规模语料数据，基于所述大规模语料数据确定包括所述候选概念数据的文章；获取所有所述文章对应的类别，计算所述候选概念数据分别在不同类别下出现的子次数以及在所有类别下的总次数，将所述子次数与所述总次数的最大占比作为所述候选概念数据的语义凝聚度。5.根据权利要求1所述的概念图谱构建方法，其特征在于，所述将所述优选概念数据与存储的预设知识一一进行匹配的步骤包括：计算所述优选概念数据与预设知识的字形相似度，将所述字形相似度大于等于第一...

【专利技术属性】
技术研发人员：白祚，董光喆，孙梓淇，莫洋，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人