当前位置: 首页 > 专利查询>湖南大学专利>正文

基于稀疏矩阵的知识图谱查询方法、装置和计算机设备制造方法及图纸

技术编号:24756368 阅读:23 留言:0更新日期:2020-07-04 09:13
本申请涉及一种基于稀疏矩阵的知识图谱查询方法、装置、计算机设备和存储介质。所述方法包括:获取知识图谱并将所述知识图谱转换成稀疏矩阵;基于所述稀疏矩阵中各行向量的行向量长度,分别对所述稀疏矩阵进行行向量划分,得到各划分稀疏矩阵;分别评估各所述划分稀疏矩阵的行向量长度的离散度,确定离散度最低的划分稀疏矩阵;根据计算核的对齐字节对离散度最低的所述划分稀疏矩阵进行行向量填充,得到填充稀疏矩阵;基于所述填充稀疏矩阵进行所述知识图谱的查询。采用本方法能够提高查询效率。

Query method, device and computer equipment of knowledge map based on sparse matrix

【技术实现步骤摘要】
基于稀疏矩阵的知识图谱查询方法、装置和计算机设备
本申请涉及图查询领域,特别是涉及一种基于稀疏矩阵的知识图谱查询方法、装置、计算机设备和存储介质。
技术介绍
知识图谱也被称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱数据管理的一个重要问题是如何对知识图谱的数据进行存储和查询,大部分知识图谱的数据使用资源描述框架(ResourceDescriptionFramework,RDF)数据集来表示。其中,RDF三元组是构成RDF图的最基本单元。随着知识图谱相关技术的不断发展,RDF三元组数据日益激增,并且被广泛地应用在多个领域,包括科学、生物信息、商业智能和社交网络等。在现实世界中,RDF数据集往往达到数亿条三元组数据。因此,目前如何有效管理大规模RDF图数据集受到越来越多的关注。同时,随着稀疏矩阵数据结构和算法的发展,以及事实上RDF数据的稀疏性无处不在,促使了许多研究人员采用稀疏矩阵运算来解决图计算的问题。具体到RDF图,通过将RDF图存储为一个稀疏矩阵,对RDF图的查询操作也随之可以转换为一系列简明的稀疏矩阵运算。然而,由于RDF图的稀疏性并没有得到解决,转换成稀疏矩阵之后稀疏矩阵中非零元的分布同样具有稀疏、分布不规律的特点,使得利用该稀疏矩阵进行查询时容易造成较长的响应时间,从而导致降低了查询效率。
技术实现思路
于此,有必要针对上述技术问题,提供一种能够提高查询效率的基于稀疏矩阵的知识图谱查询方法、装置、计算机设备和存储介质。一种基于稀疏矩阵的知识图谱查询方法,所述方法包括:获取知识图谱并将所述知识图谱转换成稀疏矩阵;基于所述稀疏矩阵中各行向量的行向量长度,分别对所述稀疏矩阵进行行向量划分,得到各划分稀疏矩阵;分别评估各所述划分稀疏矩阵的行向量长度的离散度,确定离散度最低的划分稀疏矩阵;根据计算核的对齐字节对离散度最低的所述划分稀疏矩阵进行行向量填充,得到填充稀疏矩阵;基于所述填充稀疏矩阵进行所述知识图谱的查询。在其中一个实施例中,所述基于所述稀疏矩阵中各行向量的行向量长度,分别对所述稀疏矩阵进行行向量划分,得到各划分稀疏矩阵,包括:确定所述稀疏矩阵中行向量长度最长的行向量的长度值;获取小于所述长度值的各个正整数组成划分阈值集合;依次将所述划分阈值集合中的所述正整数作为划分阈值,从所述稀疏矩阵中确定行向量长度大于所述划分阈值的行向量;基于所述划分阈值,将确定的行向量长度大于所述划分阈值的各行向量分别划分成多个行向量长度不大于所述划分阈值的子行向量,得到所述划分阈值对应的划分稀疏矩阵。在其中一个实施例中,所述分别评估各所述划分稀疏矩阵的行向量长度的离散度,得到离散度最低的划分稀疏矩阵,包括:分别确定各所述划分稀疏矩阵的行向量长度的标准差;比较各所述划分稀疏矩阵的行向量长度的标准差,确定所述标准差最小的划分稀疏矩阵为离散度最低的划分稀疏矩阵。在其中一个实施例中,所述分别确定各所述划分稀疏矩阵的行向量长度的标准差,包括:获取所述划分稀疏矩阵的行向量总数和行向量总长度、以及确定所述划分稀疏矩阵中行向量长度相同的行向量的向量总数;根据所述行向量总数、所述行向量总长度以及所述向量总数计算得到所述划分稀疏矩阵的行向量长度的标准差。在其中一个实施例中,所述获取所述划分稀疏矩阵的行向量总数,包括:将所述稀疏矩阵中行向量长度大于所述划分阈值的行向量作为候选行向量;当所述候选行向量的行向量长度与所述划分阈值的余数为0时,确定各所述候选行向量的行向量长度与所述划分阈值的商;计算各所述商与固定值的差值,各所述差值与所述稀疏矩阵的行向量总数的和作为所述划分稀疏矩阵的行向量总数;当所述候选行向量的行向量长度与所述划分阈值的余数不为0时,确定各所述候选行向量的行向量长度与所述划分阈值的商,各所述商与所述稀疏矩阵的行向量总数的和作为所述划分稀疏矩阵的行向量总数。在其中一个实施例中,所述根据计算核的对齐字节对离散度最低的所述划分稀疏矩阵进行行向量填充,得到填充稀疏矩阵,包括:根据计算核的对齐字节确定填充阈值;根据所述填充阈值对所述划分稀疏矩阵中的各行向量分别进行向量填充,得到各行向量长度均为所述填充阈值的倍数的填充稀疏矩阵。在其中一个实施例中,所述基于所述填充稀疏矩阵进行所述知识图谱的查询,包括:获取所述知识图谱的查询语句,所述查询语句包括已知数据;基于所述已知数据和所述填充稀疏矩阵进行矩阵乘运算,得到查询结果。在其中一个实施例中,一种基于稀疏矩阵的知识图谱查询装置,所述装置包括:转换模块,用于获取知识图谱并将所述知识图谱转换成稀疏矩阵;划分模块,用于基于所述稀疏矩阵中各行向量的行向量长度,分别对所述稀疏矩阵进行行向量划分,得到各划分稀疏矩阵;评估模块,用于分别评估各所述划分稀疏矩阵的行向量长度的离散度,得到离散度最低的划分稀疏矩阵;填充模块,用于根据计算核的对齐字节对离散度最低的所述划分稀疏矩阵进行行向量填充,得到填充稀疏矩阵;查询模块,用于基于所述填充稀疏矩阵进行所述知识图谱的查询。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述基于稀疏矩阵的知识图谱查询方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述基于稀疏矩阵的知识图谱查询方法的步骤。上述基于稀疏矩阵的知识图谱查询方法、装置、计算机设备和存储介质,一方面,由于一组数据离散度的高低能够表明该组数据的分布均匀情况,因此该方法将知识图谱转换成稀疏矩阵并通过稀疏矩阵的行向量长度进行行向量划分后,对划分得到的各划分稀疏矩阵进行离散度的评价,进而选取最低离散度对应划分阈值划分得到的划分稀疏矩阵,保证所得到的划分稀疏矩阵中非零元在行向量中分布的更均匀,离散度最小,避免因分布稀疏和不均匀导致降低查询效率,从而提高了查询效率。另一方面,基于计算核的对齐字节对选取的划分稀疏矩阵进行行向量填充得到填充稀疏矩阵,从而保证进行知识图谱查询时对填充稀疏矩阵的数据访问都是按照字节边界对齐的,避免不对齐的访存造成处理异常,从而提高查询的效率。附图说明图1为一个实施例中基于稀疏矩阵的知识图谱查询方法的流程示意图;图2为一个实施例中RDF图的示意图;图3为一个实施例中与RDF图对应的稀疏矩阵的示意图;图4为一个实施例中跨32字节不对齐访存的示意图;图5为一个实施例中向量填充的示意图;图6为一个实施例基于稀疏矩阵中各行向量的行向量长度,分别对稀疏矩阵进行行向量划分,得到各划分稀疏矩阵步骤本文档来自技高网...

【技术保护点】
1.一种基于稀疏矩阵的知识图谱查询方法,所述方法包括:/n获取知识图谱并将所述知识图谱转换成稀疏矩阵;/n基于所述稀疏矩阵中各行向量的行向量长度,分别对所述稀疏矩阵进行行向量划分,得到各划分稀疏矩阵;/n分别评估各所述划分稀疏矩阵的行向量长度的离散度,确定离散度最低的划分稀疏矩阵;/n根据计算核的对齐字节对离散度最低的所述划分稀疏矩阵进行行向量填充,得到填充稀疏矩阵;/n基于所述填充稀疏矩阵进行所述知识图谱的查询。/n

【技术特征摘要】
1.一种基于稀疏矩阵的知识图谱查询方法,所述方法包括:
获取知识图谱并将所述知识图谱转换成稀疏矩阵;
基于所述稀疏矩阵中各行向量的行向量长度,分别对所述稀疏矩阵进行行向量划分,得到各划分稀疏矩阵;
分别评估各所述划分稀疏矩阵的行向量长度的离散度,确定离散度最低的划分稀疏矩阵;
根据计算核的对齐字节对离散度最低的所述划分稀疏矩阵进行行向量填充,得到填充稀疏矩阵;
基于所述填充稀疏矩阵进行所述知识图谱的查询。


2.根据权利要求1所述的方法,其特征在于,所述基于所述稀疏矩阵中各行向量的行向量长度,分别对所述稀疏矩阵进行行向量划分,得到各划分稀疏矩阵,包括:
确定所述稀疏矩阵中行向量长度最长的行向量的长度值;
获取小于所述长度值的各个正整数组成划分阈值集合;
依次将所述划分阈值集合中的所述正整数作为划分阈值,从所述稀疏矩阵中确定行向量长度大于所述划分阈值的行向量;
基于所述划分阈值,将确定的行向量长度大于所述划分阈值的各行向量分别划分成多个行向量长度不大于所述划分阈值的子行向量,得到所述划分阈值对应的划分稀疏矩阵。


3.根据权利要求1所述的方法,其特征在于,所述分别评估各所述划分稀疏矩阵的行向量长度的离散度,得到离散度最低的划分稀疏矩阵,包括:
分别确定各所述划分稀疏矩阵的行向量长度的标准差;
比较各所述划分稀疏矩阵的行向量长度的标准差,确定所述标准差最小的划分稀疏矩阵为离散度最低的划分稀疏矩阵。


4.根据权利要求3所述的方法,其特征在于,所述分别确定各所述划分稀疏矩阵的行向量长度的标准差,包括:
获取所述划分稀疏矩阵的行向量总数和行向量总长度、以及确定所述划分稀疏矩阵中行向量长度相同的行向量的向量总数;
根据所述行向量总数、所述行向量总长度以及所述向量总数计算得到所述划分稀疏矩阵的行向量长度的标准差。


5.根据权利要求4所述的方法,其特征在于,所述获取所述划分稀疏矩阵的行向量总数,包括:
将所述稀疏矩阵中行向量长度大于所述划分阈值的行向量作为候选行向量;
当所述...

【专利技术属性】
技术研发人员:肖国庆陈玥丹李肯立唐卓阳王东周旭
申请(专利权)人:湖南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1