A method and apparatus for creating mapping knowledge, application of the method in data analysis device, the method comprises: acquiring the data source, the data source includes a plurality of entities; analyze the semantic analysis and clustering of data source, extract the entity and attribute set from the data source collection, collection entity attributes including the entity set the entity in the relationship between the various entities; acquiring entity and attribute collection; relationship between entity sets, attribute set, and between the entities and attributes to create and output of knowledge map based on knowledge map, including the relationship between entities, attributes, entities and attributes, and the relationships between entities. By adopting this scheme, we can accurately create knowledge map, which can directly show the relationship between entities and attributes, and the relationship between entities.
【技术实现步骤摘要】
一种创建知识图谱的方法及装置
本申请涉及大数据处理
,尤其涉及一种创建知识图谱的方法及装置。
技术介绍
知识图谱为知识域的可视影射地图,是显示知识的发展进程与结构关系的一系列各种不同的图形,其可用于呈现知识资源、知识资源载体、挖掘、分析、构建和显示知识之间的关联关系。知识图谱可以用于智能机器人的智能问答,应用范围较广。但现有机制中,在构建知识图谱时,会将数据源中所有获取到的实体都进行分析,然后建立所有实体、实体属性之间的关联关系。这样,构建出的知识图谱虽然所能涵盖的范围较广,但无法直观的向用户呈现重要的结构关系,导致管理知识图谱时,并不能迅速的识别出有效的信息,使用起来的参考价值有限,需要用户花费较长时间去分析,从而无法有针对性的呈现关键结构信息。
技术实现思路
本申请提供了一种创建知识图谱的方法及装置,能够解决现有技术中所构建的知识图谱的针对性较低的问题。本申请第一方面提供一种创建知识图谱的方法,所述方法应用于数据分析装置,所述方法包括:获取数据源,所述数据源包括多个实体;对所述数据源进行语义分析和聚类分析,从所述数据源中提取实体集合和属性集合,所述属性集合包括所述实体集合中各实体的实体属性;获取所述实体集合中各实体与属性之间的关联关系;根据所述实体集合、属性集合、以及实体与属性之间的关联关系创建并输出知识图谱,所述知识图谱包括实体、实体属性、实体与属性之间的关联关系、以及实体间的关联关系。在一些可能的设计中,所述方法还包括:对所述实体集合中的各实体分别进行向量化,得到训练向量。在一些可能的设计中,所述对所述实体集合中的各实体分别进行向量化,得到训练向 ...
【技术保护点】
一种创建知识图谱的方法,所述方法应用于数据分析装置,其特征在于,所述方法包括:获取数据源,所述数据源包括多个实体;对所述数据源进行语义分析和聚类分析,从所述数据源中提取实体集合和属性集合,所述属性集合包括所述实体集合中各实体的实体属性;获取所述实体集合中各实体与属性之间的关联关系;根据所述实体集合、属性集合、以及实体与属性之间的关联关系创建并输出知识图谱,所述知识图谱包括实体、实体属性、实体与属性之间的关联关系、以及实体间的关联关系。
【技术特征摘要】
1.一种创建知识图谱的方法,所述方法应用于数据分析装置,其特征在于,所述方法包括:获取数据源,所述数据源包括多个实体;对所述数据源进行语义分析和聚类分析,从所述数据源中提取实体集合和属性集合,所述属性集合包括所述实体集合中各实体的实体属性;获取所述实体集合中各实体与属性之间的关联关系;根据所述实体集合、属性集合、以及实体与属性之间的关联关系创建并输出知识图谱,所述知识图谱包括实体、实体属性、实体与属性之间的关联关系、以及实体间的关联关系。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述实体集合中的各实体分别进行向量化,得到训练向量。3.根据权利要求2所述的方法,其特征在于,所述对所述实体集合中的各实体分别进行向量化,得到训练向量,包括:采用多层神经网络对所述实体集合中的各实体进行命名实体识别,得到各实体的实体上下文;从得到各实体的实体上下文中抽取各实体间的关联关系;根据所述各实体的实体上下文和所述各实体间的关联关系,得到所述训练向量。4.根据权利要求3所述的方法,其特征在于,所述采用多层神经网络对所述实体集合中的各实体进行命名实体识别,得到各实体的实体上下文之后,所述从得到各实体的实体上下文中抽取各实体间的关联关系之前,所述方法还包括:采用最大对数似然法对得到的各实体的实体上下文分别进行最大化处理。5.根据权利要求3所述的方法,其特征在于,所述从得到各实体的实体上下文中抽取各实体间的关联关系之后,所述根据所述各实体的实体上下文和所述各实体间的关联关系,得到所述实体训练向量之前,所述方法还包括:采用最大对数似然法对得到的各实体的实体间的关联关系分别进行最大化处理。6.根据权利要求1-5中任一所述的方法,其特征在于,所述从得到各实体的实体上下文中抽取各实体间的关联关系,包括:根据所述属性集合、所述实体集合和时间递归神经网络模型,分别对所述实体集合中的各实体进行关联关系标注,标注的关联关系包括词语在实体中的位置、关联关系类型和关联关系位置;采用关联关系嵌入法计算关系类型的权重值;根据最近距离原则、关联关系类型从标注的关联关系中筛选出候选关联关系;按照关联关系类型的关键词对对筛选出的候选关联关系进行分类,以得到所述实体间的关联关系。7.根据权利要求1-6中任一所述的方法,其特征在于,所述方法还包括:通过实体属性嵌入计算各实体间的相似度,对所述知识图谱中实体类型相同或相似的实体进行合并、去重和区分中的至少一项。8.根据权利要求7所述的方法,其特征在于,所述数据源包括第一数据表和第二数据表,所述多个实体包括至少一个第一实体和至少一个第二实体,所述第一实体属于第一数据表,所述第二实体属于第二数据表,所述知识图谱包括至少两个联通图,所述至少两个联通图之间存在子孙关系和/或父子关系。9.根据权利要求...
【专利技术属性】
技术研发人员:毛瑞彬,朱菁,张俊,王仁勇,邓永翠,赵洪杰,
申请(专利权)人:深圳证券信息有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。