知识图谱的生成方法及装置制造方法及图纸

技术编号:23764707 阅读:23 留言:0更新日期:2020-04-11 19:13
本发明专利技术实施例公开了一种知识图谱的生成方法及装置,该方法包括:获取样本数据,并提取样本数据中的命名实体;其中,命名实体包括第一类命名实体以及第二类命名实体;针对于任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度;并确定出与该第一类命名实体具有强关联强度的第二类命名实体;建立该第一类命名实体与该第一类命名实体具有强关联强度的第二类命名实体之间的实体关系,以生成知识图谱。本方案通过实体间的关联强度来构建知识图谱,能够有效避免知识图谱中的数据冗余,节约存储资源;并且,本方案构建的知识图谱能够反映实体间的关联强度,进一步提升基于构建的知识图谱的数据分析效率及分析精度。

Generating method and device of knowledge map

【技术实现步骤摘要】
知识图谱的生成方法及装置
本专利技术涉及数据处理
,具体涉及一种知识图谱的生成方法及装置。
技术介绍
随着科学技术的不断发展,各类数据呈现井喷式地增长,从而为海量数据的处理及分析提出了新的挑战。目前,知识图谱以其可视化、数据全面性及数据连贯性等特点被广泛地应用在海量数据的处理及分析过程中。目前的知识图谱通常为三元组结构,即实体A-关系R-实体B。现有的知识图谱构建方式主要为:提取实体,并根据实体间的从属关系等构建知识图谱三元组。然而,采用现有的知识图谱构建方式会使得构建的知识图谱出现大量的数据冗余,并无法体现实体间真正的关联关系。以餐饮行业为例,“宫保鸡丁”这一家常菜会出现在大部分的店铺菜单中,若采用现有的知识图谱构建方式,则构建的知识图谱中“宫保鸡丁”实体会与大多数店铺实体建立实体连接,从而造成大量的数据冗余,增加存储负担;并且,由于该种构建方式是直接根据从属关系进行构建,从而使得无法准确反映实体间的关联关系,如通过宫保鸡丁-从属于-店铺A,并无法真实地反映“宫保鸡丁”与“店铺A”之间的关联关系,从而降低对海量数据的分析效率及分析精度。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的知识图谱的生成方法及装置。根据本专利技术实施例的一个方面,提供了一种知识图谱的生成方法,包括:在大数据存储系统中搜集文本词以及各文本词之间的从属关系数据,所述文本词包含:商品词、店铺词、和/或至少一级类目词;根据各文本词之间的从属关系数据,计算各文本词之间的关联强度;根据所述各文本词之间的关联强度,确定出与商品词具有强关联强度的店铺词和/或类目词;和/或,确定出与店铺词具有强关联强度的类目词;建立商品词与该商品词具有强关联强度的店铺词和/或类目词之间的知识图谱关系;和/或,建立店铺词与该店铺词具有强关联强度的类目词之间的知识图谱关系。可选的,所述根据所述各文本词之间的关联强度,确定出与商品词具有强关联强度的店铺词和/或类目词;和/或,确定出与店铺词具有强关联强度的类目词进一步包括:若商品词相对于店铺词的关联强度,大于该商品词相对于第一层级类目词的关联强度与强度系数的乘积,则确定该店铺词为与该商品词具有强关联强度的店铺词;若商品词相对于第一层级类目词的关联强度,大于该商品词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该商品词具有强关联强度的类目词;若店铺词相对于第一层级类目词的关联强度,大于该店铺词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该店铺词具有强关联强度的类目词;其中,所述第二层级为第一层级的父层级。可选的,所述根据各文本词之间的从属关系数据,计算各文本词之间的关联强度进一步包括:统计商品词相对于店铺词的第一从属词频占比,根据所述第一从属词频占比计算商品词与店铺词的关联强度;和/或,统计商品词相对于至少一级类目词的至少一个第二从属词频占比;根据所述至少一个第二从属词频占比,计算商品词与至少一级类目词的关联强度;和/或,统计店铺词相对于至少一级类目词的至少一个第三从属词频占比,根据所述至少一个第三从属词频占比,计算店铺词与至少一级类目词的关联强度。可选的,所述根据各文本词之间的从属关系数据,计算各文本词之间的关联强度进一步包括:统计商品词相对于至少一级类目词的至少一个第二从属店铺占比;根据所述至少一个第二从属店铺占比,计算商品词与至少一级类目词的关联强度。可选的,所述至少一级类目词包括:至少一级地理位置词、和/或至少一级行业类目词。可选的,所述在大数据存储系统中搜集文本词以及各文本词之间的从属关系数据进一步包括:在大数据存储系统中获取样本数据;对所述样本数据进行分词处理,以获得与样本数据对应的多个样本分词,根据所述样本分词获取所述文本词以及各文本词之间的从属关系数据。可选的,所述对所述样本数据进行分词处理进一步包括:对所述样本数据进行中粒度分词和/或全分词。可选的,在所述对所述样本数据进行分词处理之前,所述方法还包括:对所述样本数据进行预处理,获得预处理结果;所述对所述样本数据进行分词处理进一步包括:对预处理之后的样本数据进行分词处理。可选的,所述对所述样本数据进行预处理包括:对所述样本数据进行繁简体转换、大小写切换、和/或标点符号剔除。可选的,在所述建立商品词与该商品词具有强关联强度的店铺词和/或类目词之间的知识图谱关系;和/或,建立店铺词与该店铺词具有强关联强度的类目词之间的知识图谱关系之后,所述方法还包括:在文本词对应的搜索索引节点中展示与该文本词建立有知识图谱关系的其他文本词;和/或,基于建立的知识图谱关系,计算目标文本词与候选文本词之间的关联度;并基于所述关联度,对候选文本词进行排序。根据本专利技术实施例的另一个方面,提供了一种知识图谱的生成装置,包括:搜集模块,适于在大数据存储系统中搜集文本词以及各文本词之间的从属关系数据,所述文本词包含:商品词、店铺词、和/或至少一级类目词;计算模块,适于根据各文本词之间的从属关系数据,计算各文本词之间的关联强度;确定模块,适于根据所述各文本词之间的关联强度,确定出与商品词具有强关联强度的店铺词和/或类目词;和/或,确定出与店铺词具有强关联强度的类目词;建立模块,适于建立商品词与该商品词具有强关联强度的店铺词和/或类目词之间的知识图谱关系;和/或,建立店铺词与该店铺词具有强关联强度的类目词之间的知识图谱关系。可选的,所述确定模块进一步适于:若商品词相对于店铺词的关联强度,大于该商品词相对于第一层级类目词的关联强度与强度系数的乘积,则确定该店铺词为与该商品词具有强关联强度的店铺词;若商品词相对于第一层级类目词的关联强度,大于该商品词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该商品词具有强关联强度的类目词;若店铺词相对于第一层级类目词的关联强度,大于该店铺词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该店铺词具有强关联强度的类目词;其中,所述第二层级为第一层级的父层级。可选的,所述计算模块进一步适于:统计商品词相对于店铺词的第一从属词频占比,根据所述第一从属词频占比计算商品词与店铺词的关联强度;和/或,统计商品词相对于至少一级类目词的至少一个第二从属词频占比;根据所述至少一个第二从属词频占比,计算商品词与至少一级类目词的关联强度;和/或,统计店铺词相对于至少一级类目词的至少一个第三从属词频占比,根据所述至少一个第三从属词频占比,计算店铺词与至少一级类目词的关联强度。可选的,所述计算模块进一步适于:统计商品词相对于至少一级类目词的至少一个第二从属店铺占比;根据所述至少一个第二从属店铺占比,计算商品词与至少一级类目词的关联强度。可选的,所述至少一级类目词包括:至少一级地理位置词、和/或至少一级行业类目词。可选的,所述搜集模块进一步适于:在大数据存储系统中获取样本数据;所述装置还包括:分词模块,适于本文档来自技高网...

【技术保护点】
1.一种知识图谱的生成方法,包括:/n在大数据存储系统中搜集文本词以及各文本词之间的从属关系数据,所述文本词包含:商品词、店铺词、和/或至少一级类目词;/n根据各文本词之间的从属关系数据,计算各文本词之间的关联强度;/n根据所述各文本词之间的关联强度,确定出与商品词具有强关联强度的店铺词和/或类目词;和/或,确定出与店铺词具有强关联强度的类目词;/n建立商品词与该商品词具有强关联强度的店铺词和/或类目词之间的知识图谱关系;和/或,建立店铺词与该店铺词具有强关联强度的类目词之间的知识图谱关系。/n

【技术特征摘要】
1.一种知识图谱的生成方法,包括:
在大数据存储系统中搜集文本词以及各文本词之间的从属关系数据,所述文本词包含:商品词、店铺词、和/或至少一级类目词;
根据各文本词之间的从属关系数据,计算各文本词之间的关联强度;
根据所述各文本词之间的关联强度,确定出与商品词具有强关联强度的店铺词和/或类目词;和/或,确定出与店铺词具有强关联强度的类目词;
建立商品词与该商品词具有强关联强度的店铺词和/或类目词之间的知识图谱关系;和/或,建立店铺词与该店铺词具有强关联强度的类目词之间的知识图谱关系。


2.根据权利要求1所述的方法,其中,所述根据所述各文本词之间的关联强度,确定出与商品词具有强关联强度的店铺词和/或类目词;和/或,确定出与店铺词具有强关联强度的类目词进一步包括:
若商品词相对于店铺词的关联强度,大于该商品词相对于第一层级类目词的关联强度与强度系数的乘积,则确定该店铺词为与该商品词具有强关联强度的店铺词;
若商品词相对于第一层级类目词的关联强度,大于该商品词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该商品词具有强关联强度的类目词;
若店铺词相对于第一层级类目词的关联强度,大于该店铺词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该店铺词具有强关联强度的类目词;
其中,所述第二层级为第一层级的父层级。


3.根据权利要求1或2所述的方法,其中,所述根据各文本词之间的从属关系数据,计算各文本词之间的关联强度进一步包括:
统计商品词相对于店铺词的第一从属词频占比,根据所述第一从属词频占比计算商品词与店铺词的关联强度;
和/或,统计商品词相对于至少一级类目词的至少一个第二从属词频占比;根据所述至少一个第二从属词频占比,计算商品词与至少一级类目词的关联强度;
和/或,统计店铺词相对于至少一级类目词的至少一个第三从属词频占比,根据所述至少一个第三从属词频占比,计算店铺词与至少一级类目词的关联强度。


4.一种知识图谱的生成方法,包括:
获取样本数据,并提取所述样本数据中的命名实体;其中,所述命名实体包括第一类命名实体以及第二类命名实体;
针对于任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度;
基于该第一类命名实体与不同的第二类命名实体的关联强度,确定出与该第一类命名实体具有强关联强度的第二类命名实...

【专利技术属性】
技术研发人员:张翔
申请(专利权)人:口口相传北京网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1