当前位置: 首页 > 专利查询>之江实验室专利>正文

基于结构化数据表的交互式图数据构建方法技术

技术编号:39663845 阅读:22 留言:0更新日期:2023-12-11 18:26
本发明专利技术公开了一种基于结构化数据表的交互式图数据构建方法,包括:获取包含多个数据表的原始数据;基于原始数据中的字段构建对应的节点实体和节点实例;将字段与对应的节点实体和节点实例组成图数据组件;根据用户选取的若干字段生成对应的图数据组件,并基于两个图数据组件之间的相似度匹配,以获得两个图数据组件之间边实体以及相应的边实例,将图数据组件下所有的节点实例与边实例输出至显示界面,以获得可视化的图数据

【技术实现步骤摘要】
基于结构化数据表的交互式图数据构建方法、系统及装置


[0001]本专利技术属于图数据构建的
,尤其涉及一种基于结构化数据表的交互式图数据构建方法

系统及装置


技术介绍

[0002]图是一种常见的非线性数据结构,由节点和连接节点的边组成

在现实世界中,很多问题都可以通场景中的实体和关系抽象成图结构的方式进行分析

例如,在分析某个群体的社交网络时,将群体中的每个成员视为节点,成员之间的关系视为边,便可以得到该群体的单节点类型图结构;在电商分析场景中,将生产商

仓库

商品

门店

物流

顾客等实体抽象为节点,各种实体之间的交互关系抽象为边,便可以得到整个电商场景下的供应链图网络结构

得到图数据后,数据工作者可以非常方便地查询图中的节点和边,或者调用常见的图算法进行分析,例如最短路径算法

社团检测算法等

[0003]图数据的广泛应用催生了一批专门用于存储图数据的数据库,例如
Neo4j、JanusGraph、HugeGraph、TigerGraph、NebulaGraph


图数据库是一种非关系型数据库,它使用节点



属性来表示和存储图数据,与传统的关系型数据库相比,图数据库直接将图中的节点

点间的关系组成的集合相关联,能够实现复杂的图结构中节点

关系与路径的快速检索

然而,在数据分析场景中,原始数据类型多为结构化的表格数据,表格数据由多行相同结构的数据实例组成

与表格数据不同,一份图数据允许包含多种类型的节点和边,这些节点和边可以拥有不同的属性

多数情况下,图数据都需要基于结构化表格数据进行构建

[0004]schema
优先的图数据构建模式优点最为明显,业内大部分场景也都采用了这种模式

然而在具体实施时,它们大都采用
schema
构建与数据加载分离的交互方式构建图数据,这些方法没有充分利用数据中的信息,需要耗费用户大量的手动操作,费时费力

[0005]专利文献
CN115203162A
公开了一种所见即所得图数据构建方法,该方法将构图逻辑抽象成独立的若干组件,每一个组件抽象为一个任务流画布中的单个节点任务,每一个节点任务设置有相同的输入输出的数据结构;任务流中每一个节点任务按顺序依次执行,当任务流有分支则并行执行

该方法需要在构建图数据过程中对各实体之间的关系进行判断和手动操作,效率较低

[0006]专利文献
CN114417018A
公开了一种知识图谱的全流程可视化配置系统及方法,该系统包括:数据源管理模块,用于获取待连接数据源,建立与所有待连接数据源的连接;数据映射管理模块,用于获取待连接数据源中的结构化数据与图谱之间的映射关系;数据同步模块,用于将已连接的数据源中的数据抽取到图数据库,并基于所述映射关系,构建知识图谱;元素样式配置模块,用于获取图谱的元素样式,对知识图谱进行显示

该系统需要在数据处理过程中因直接将图数据进行导入使用,会存在数据异常的问题


技术实现思路

[0007]本专利技术的主要目的在于提供一种基于结构化数据表的交互式图数据构建方法

系统及装置,该方法能基于结构化数据表进行图数据的快速构建,并实时生成图数据的结果预览和相关探索结果

[0008]为了实现本专利技术的第一个目的,提供了一种基于结构化数据表的交互式图数据构建方法,包括:步骤
1、
获取包含多个数据表的原始数据,并提取每个数据表中的所有字段以及字段下的数据项,将提取获得的字段

数据项以及所在数据表组成关系库;步骤
2、
根据目标字段创建对应的节点实体,并通过所述关系库检索目标字段所在的数据表以及数据表内其他字段,将其他字段作为属性添加至所述节点实体的
schema
,同时将所有字段下的数据项注入所述节点实体,以构建所述节点实体下的节点实例;步骤
3、
重复步骤2以构建原始数据中所有目标字段对应的节点实体与节点实例,以生成对应的图数据组件;步骤
4、
根据用户选取的若干字段生成对应的图数据组件,并基于两个图数据组件之间的相似度匹配,以获得两个图数据组件之间边实体以及相应的边实例,将图数据组件下所有的节点实例与边实例输出至显示界面,以获得可视化的图数据

[0009]本专利技术以数据为中心,从构建
schema
开始便充分利用数据中的信息,使用数据表中的字段创建
schema
中的实体与属性,实现
schema
构建与数据加载同步进行,同时在构建数据映射时,设计了字符串相似度匹配

值相似度匹配等匹配算法,帮助用户推荐映射方案,从而减少用户的手动操作,快速生成实体间的关系

[0010]具体的,所述节点实体的
schema
还包括实体主键

实体属性

实体颜色

实体大小

实体名称以及实体标签,从而便于后续图数据构建过程的数据调用,以及关联关系的生成

[0011]具体的,所述两个图数据组件之间通过各自节点实体和对应节点实例中的属性值进行相似度匹配

[0012]具体的,所述相似度匹配采用文本相似度算法和字段值匹配算法,其具体过程如下:采用
word2vec
模型将两个节点实体中的属性名转化为对应的词向量;根据两个节点实体下所有属性名的词向量进行余弦相似度计算,筛选相似度高于阈值的词向量并降序排序,以获得第一匹配结果;筛选两个节点实体中存在相同字段值的属性,将其两两分组后计算每个分组内可匹配的相同字段值的数目占总字段值数目的比例,筛选出高于阈值的分组并降序排序,以获得第二匹配结果;根据第一匹配结果和第二匹配结果进行加权平均,以筛选获得两个节点实体间的边关系,从而得到边的实例数据

[0013]具体的,所述图数据组件支持通过交互的方式配置节点和边的属性,所述属性包括颜色

大小及标签,并将属性写对应的入节点实例和边实例中,从而在构建图数据过程中简化操作过程

[0014]具体的,用户选取若干字段后,通过拖拽或
/
和连线对应的图数据组件以完成构建图数据时的数据流转

[0015]具体的,在构建可视化的图数据时,实时更本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于结构化数据表的交互式图数据构建方法,其特征在于,包括:步骤
1、
获取包含多个数据表的原始数据,并提取每个数据表中所有字段以及字段下的数据项,将提取获得的字段

数据项以及所在数据表组成关系库;步骤
2、
根据目标字段创建对应的节点实体,并通过所述关系库检索目标字段所在的数据表以及数据表内其他字段,将其他字段作为属性添加至所述节点实体的
schema
,同时将所有字段下的数据项注入所述节点实体,以构建所述节点实体下的节点实例;步骤
3、
重复步骤2以构建原始数据中所有目标字段对应的节点实体与节点实例,以生成对应的图数据组件;步骤
4、
根据用户选取的若干字段生成对应的图数据组件,并基于两个图数据组件之间的相似度匹配,以获得两个图数据组件之间边实体以及相应的边实例,将图数据组件下所有的节点实例与边实例输出至显示界面,以获得可视化的图数据
。2.
根据权利要求1所述的基于结构化数据表的交互式图数据构建方法,其特征在于,所述节点实体的
schema
还包括实体主键

实体属性

实体颜色

实体大小

实体名称以及实体标签
。3.
根据权利要求1所述的基于结构化数据表的交互式图数据构建方法,其特征在于,所述两个图数据组件之间通过各自节点实体和对应节点实例中的属性值进行相似度匹配
。4.
根据权利要求3所述的基于结构化数据表的交互式图数据构建方法,其特征在于,所述相似度匹配采用文本相似度算法和字段值匹配算法,其具体过程如下:采用
word2vec
模型将两个节点实体中的属性名转化为对应的词向量;根据两个节点实体下所有属性名的词向量进行余弦相似度计算,筛选相似度高于阈值的词向量并降序排序,以获得第一匹配结果;筛选两个节点实体中存在相同字段值的属性,将其两两分组后计算每个分组内可匹配的相同字段值的数目占总字段值数目的比例,筛选出高于阈值的分组并降序排序,以获得第二匹配结果;根据第...

【专利技术属性】
技术研发人员:葛晓东罗实王永恒巫英才刘念李炳强周宇
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1