一种创建知识图谱的方法及装置制造方法及图纸

技术编号:17211945 阅读:35 留言:0更新日期:2018-02-07 23:07
一种创建知识图谱的方法及装置,所述方法应用于数据分析装置,所述方法包括:获取数据源,数据源包括多个实体;对数据源进行语义分析和聚类分析,从数据源中提取实体集合和属性集合,属性集合包括实体集合中各实体的实体属性;获取实体集合中各实体与属性之间的关联关系;根据实体集合、属性集合、以及实体与属性之间的关联关系创建并输出知识图谱,知识图谱包括实体、实体属性、实体与属性之间的关联关系、以及实体间的关联关系。通过采用本方案,能够准确的创建出知识图谱,能够直观的呈现实体与属性之间的关系,以及实体间的关联关系。

A method and device for creating a knowledge map

A method and apparatus for creating mapping knowledge, application of the method in data analysis device, the method comprises: acquiring the data source, the data source includes a plurality of entities; analyze the semantic analysis and clustering of data source, extract the entity and attribute set from the data source collection, collection entity attributes including the entity set the entity in the relationship between the various entities; acquiring entity and attribute collection; relationship between entity sets, attribute set, and between the entities and attributes to create and output of knowledge map based on knowledge map, including the relationship between entities, attributes, entities and attributes, and the relationships between entities. By adopting this scheme, we can accurately create knowledge map, which can directly show the relationship between entities and attributes, and the relationship between entities.

【技术实现步骤摘要】
一种创建知识图谱的方法及装置
本申请涉及大数据处理
,尤其涉及一种创建知识图谱的方法及装置。
技术介绍
知识图谱为知识域的可视影射地图,是显示知识的发展进程与结构关系的一系列各种不同的图形,其可用于呈现知识资源、知识资源载体、挖掘、分析、构建和显示知识之间的关联关系。知识图谱可以用于智能机器人的智能问答,应用范围较广。但现有机制中,在构建知识图谱时,会将数据源中所有获取到的实体都进行分析,然后建立所有实体、实体属性之间的关联关系。这样,构建出的知识图谱虽然所能涵盖的范围较广,但无法直观的向用户呈现重要的结构关系,导致管理知识图谱时,并不能迅速的识别出有效的信息,使用起来的参考价值有限,需要用户花费较长时间去分析,从而无法有针对性的呈现关键结构信息。
技术实现思路
本申请提供了一种创建知识图谱的方法及装置,能够解决现有技术中所构建的知识图谱的针对性较低的问题。本申请第一方面提供一种创建知识图谱的方法,所述方法应用于数据分析装置,所述方法包括:获取数据源,所述数据源包括多个实体;对所述数据源进行语义分析和聚类分析,从所述数据源中提取实体集合和属性集合,所述属性集合包括所述实体集合中各实体的实体属性;获取所述实体集合中各实体与属性之间的关联关系;根据所述实体集合、属性集合、以及实体与属性之间的关联关系创建并输出知识图谱,所述知识图谱包括实体、实体属性、实体与属性之间的关联关系、以及实体间的关联关系。在一些可能的设计中,所述方法还包括:对所述实体集合中的各实体分别进行向量化,得到训练向量。在一些可能的设计中,所述对所述实体集合中的各实体分别进行向量化,得到训练向量,包括:采用多层神经网络对所述实体集合中的各实体进行命名实体识别,得到各实体的实体上下文;从得到各实体的实体上下文中抽取各实体间的关联关系;根据所述各实体的实体上下文和所述各实体间的关联关系,得到所述训练向量。在一些可能的设计中,所述采用多层神经网络对所述实体集合中的各实体进行命名实体识别,得到各实体的实体上下文之后,所述从得到各实体的实体上下文中抽取各实体间的关联关系之前,所述方法还包括:采用最大对数似然法对得到的各实体的实体上下文分别进行最大化处理。在一些可能的设计中,所述从得到各实体的实体上下文中抽取各实体间的关联关系之后,所述根据所述各实体的实体上下文和所述各实体间的关联关系,得到所述实体训练向量之前,所述方法还包括:采用最大对数似然法对得到的各实体的实体间的关联关系分别进行最大化处理。在一些可能的设计中,所述从得到各实体的实体上下文中抽取各实体间的关联关系,包括:根据所述属性集合、所述实体集合和时间递归神经网络模型,分别对所述实体集合中的各实体进行关联关系标注,标注的关联关系包括词语在实体中的位置、关联关系类型和关联关系位置;采用计算关联嵌入的方法计算关系类型的权重值;根据最近距离原则、关联关系类型从标注的关联关系中筛选出候选关联关系;按照关联关系类型的关键词对对筛选出的候选关联关系进行分类,以得到所述实体间的关联关系。在一些可能的设计中,所述从所述数据源中提取实体集合和属性集合之后,所述获取所述实体集合中各实体与属性之间的关联关系之前,所述方法还包括:根据实体的实体属性计算所述实体集合中各实体的权重值;根据实体的权重值,对所述实体集合中各实体的属性进行排序。在一些可能的设计中,所述方法还包括:通过实体属性嵌入计算各实体间的相似度,对所述知识图谱中实体类型相同或相似的实体进行合并、去重和区分中的至少一项。在一些可能的设计中,所述数据源包括第一数据表和第二数据表,所述多个实体包括至少一个第一实体和至少一个第二实体,所述第一实体属于第一数据表,所述第二实体属于第二数据表,所述知识图谱包括至少两个联通图,所述至少两个联通图之间存在子孙关系和/或父子关系。在一些可能的设计中,所述对所述知识图谱中实体类型相同或相似的实体进行合并、去重和区分中的至少一项,包括:若所述第一实体与所述第二实体的相似度高于预设相似度,且确定所述第一实体和所述第二实体同属于至少一个联通图,则合并所述第一实体和所述第二实体,或者从所述知识图谱删除所述第一实体或所述第二实体。若所述第一实体与所述第二实体的相似度高于所述预设相似度,且确定所述第一实体和所述第二实体不同属于任何一个联通图,则在所述知识图谱中区分所述第一实体和所述第二实体。在一些可能的设计中,所述对所述知识图谱中实体类型相同或相似的实体进行合并、去重和区分中的至少一项,包括:若所述第一实体与所述第二实体的相似度高于预设相似度,且确定所述第一实体和所述第二实体同属于至少一个联通图,则确定与所述第一实体直接关联的第一实体集合,以及与所述第二实体直接关联的第二实体集合;当确定所述第一实体集合与所述第二实体集合的交集至少包括两个实体,则合并所述第一实体和所述第二实体,或者从所述知识图谱删除所述第一实体或所述第二实体。在一些可能的设计中,所述知识图谱基于时间维度,在时间维度上的每个时间窗口内的联通图是所述时间窗口内实体间的关联关系,以及实体属性的快照。在一些可能的设计中,所述知识图谱至少还满足以下项之一:在所述知识图谱中,具有关联关系的实体之间按照关联关系强度从强至弱渐变显示;突出显示所述知识图谱中的特定实体,所述特定实体标记风险评估值,所述特定实体是指风险评估值高于预设风险评估值的实体;当所述知识图谱中的实体更新时,区分更新的实体;对有时间更新的实体属性增加时间轴,在时间轴上显示更替的时间;对于同一个实体的实体属性,按照实体属性的权重值从高至低,由深入浅着色。在一些可能的设计中,所述对所述语料集合进行语义分析和聚类分析,从所述语料集合中提取实体集合和属性集合,包括:对所述语料集合中的语料进行分词、语义标注处理,得到所述实体集合和所述属性集合;标注所述实体集合中的实体间的关联关系类型;基于条件随机场模型,对所述实体集合和所述属性集合分别进行调整,以及对所述实体集合中的各实体和所述属性集合中的各属性分别进行预测,得到实体与实体间的关联关系类型,以及得到实体与属性之间的映射。本申请第二方面提供一种用于创建知识图谱的装置,具有实现对应于上述第一方面提供的创建知识图谱的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。一种可能的设计中,所述用于创建知识图谱的装置包括:收发模块,用于获取数据源,所述数据源包括多个实体;处理模块,用于对所述收发模块获取的所述数据源进行语义分析和聚类分析,从所述数据源中提取实体集合和属性集合,所述属性集合包括所述实体集合中各实体的实体属性;获取所述实体集合中各实体与属性之间的关联关系;根据所述实体集合、属性集合、以及实体与属性之间的关联关系创建并输出知识图谱,所述知识图谱包括实体、实体属性、实体与属性之间的关联关系、以及实体间的关联关系。在一些可能的设计中,所述处理模块还用于:对所述实体集合中的各实体分别进行向量化,得到训练向量。在一些可能的设计中,所述处理模块还用于:采用多层神经网络对所述实体集合中的各实体进行命名实体识别,得到各实体的实体上下文;从得到各实体的实体上下文中抽取各实体间的关联关本文档来自技高网...
一种创建知识图谱的方法及装置

【技术保护点】
一种创建知识图谱的方法,所述方法应用于数据分析装置,其特征在于,所述方法包括:获取数据源,所述数据源包括多个实体;对所述数据源进行语义分析和聚类分析,从所述数据源中提取实体集合和属性集合,所述属性集合包括所述实体集合中各实体的实体属性;获取所述实体集合中各实体与属性之间的关联关系;根据所述实体集合、属性集合、以及实体与属性之间的关联关系创建并输出知识图谱,所述知识图谱包括实体、实体属性、实体与属性之间的关联关系、以及实体间的关联关系。

【技术特征摘要】
1.一种创建知识图谱的方法,所述方法应用于数据分析装置,其特征在于,所述方法包括:获取数据源,所述数据源包括多个实体;对所述数据源进行语义分析和聚类分析,从所述数据源中提取实体集合和属性集合,所述属性集合包括所述实体集合中各实体的实体属性;获取所述实体集合中各实体与属性之间的关联关系;根据所述实体集合、属性集合、以及实体与属性之间的关联关系创建并输出知识图谱,所述知识图谱包括实体、实体属性、实体与属性之间的关联关系、以及实体间的关联关系。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述实体集合中的各实体分别进行向量化,得到训练向量。3.根据权利要求2所述的方法,其特征在于,所述对所述实体集合中的各实体分别进行向量化,得到训练向量,包括:采用多层神经网络对所述实体集合中的各实体进行命名实体识别,得到各实体的实体上下文;从得到各实体的实体上下文中抽取各实体间的关联关系;根据所述各实体的实体上下文和所述各实体间的关联关系,得到所述训练向量。4.根据权利要求3所述的方法,其特征在于,所述采用多层神经网络对所述实体集合中的各实体进行命名实体识别,得到各实体的实体上下文之后,所述从得到各实体的实体上下文中抽取各实体间的关联关系之前,所述方法还包括:采用最大对数似然法对得到的各实体的实体上下文分别进行最大化处理。5.根据权利要求3所述的方法,其特征在于,所述从得到各实体的实体上下文中抽取各实体间的关联关系之后,所述根据所述各实体的实体上下文和所述各实体间的关联关系,得到所述实体训练向量之前,所述方法还包括:采用最大对数似然法对得到的各实体的实体间的关联关系分别进行最大化处理。6.根据权利要求1-5中任一所述的方法,其特征在于,所述从得到各实体的实体上下文中抽取各实体间的关联关系,包括:根据所述属性集合、所述实体集合和时间递归神经网络模型,分别对所述实体集合中的各实体进行关联关系标注,标注的关联关系包括词语在实体中的位置、关联关系类型和关联关系位置;采用关联关系嵌入法计算关系类型的权重值;根据最近距离原则、关联关系类型从标注的关联关系中筛选出候选关联关系;按照关联关系类型的关键词对对筛选出的候选关联关系进行分类,以得到所述实体间的关联关系。7.根据权利要求1-6中任一所述的方法,其特征在于,所述方法还包括:通过实体属性嵌入计算各实体间的相似度,对所述知识图谱中实体类型相同或相似的实体进行合并、去重和区分中的至少一项。8.根据权利要求7所述的方法,其特征在于,所述数据源包括第一数据表和第二数据表,所述多个实体包括至少一个第一实体和至少一个第二实体,所述第一实体属于第一数据表,所述第二实体属于第二数据表,所述知识图谱包括至少两个联通图,所述至少两个联通图之间存在子孙关系和/或父子关系。9.根据权利要求...

【专利技术属性】
技术研发人员:毛瑞彬朱菁张俊王仁勇邓永翠赵洪杰
申请(专利权)人:深圳证券信息有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1