【技术实现步骤摘要】
一种知识图谱压缩存储改进优化算法
[0001]本专利技术涉及知识图谱相关领域,具体为一种知识图谱压缩存储改进优化算法
。
技术介绍
[0002]知识图谱:是通过将应用数学
、
图形学
、
信息可视化技术
、
信息科学等学科的理论与方法与计量学引文分析
、
共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构
、
发展历史
、
前沿领域以及整体知识架构达到多学科融合目的的现代理论
。
[0003]稀疏矩阵:在矩阵中,若数值为0的元素数目远远多于非0元素的数目,并且非0元素分布没有规律时,则称该矩阵为稀疏矩阵;与之相反,若非0元素数目占大多数时,则称该矩阵为稠密矩阵
。
定义非零元素的总数比上矩阵所有元素的总数为矩阵的稠密度
。
[0004]布鲁姆过滤器:布鲁姆过滤器是一种特殊的哈希表,这个哈希表中的每一个槽只存储0或1,所以可以使用计算机中的最小单位
bit
来存储每一个
01
以达到空间的极大节省
。
在数据集非常大的条件下进行某个数据对象
A
的查找即使是利用哈希表仍然会有很大的开销,尤其是当要在多个独立分布的数据集中查找的时候开销更加明显
。
[0005]RLE
压缩技术:
RLE
压缩算法的基本思路是把数据按照线性序列分成两种情况:一种是连续的重复数 ...
【技术保护点】
【技术特征摘要】
1.
一种知识图谱压缩存储改进优化算法,其特征在于,包括以下步骤:步骤
S1、
在
k2
‑
tree
树进行二级压缩后得到一个位串,位串里的每一个数字都代表了二进制位0和1的频数;步骤
S2、
根据首位标识符判断哪些位块包含“1”这个二进制位;步骤
S3、
对步骤
S2
中判断得出的有效数位的数值和数组下标构成一个二元组数组,二元组的第一个元素就是该位块有多少个连续的“1”,二元组的第二个元素就是该位块在二次压缩后的位串中的下标;步骤
S4、
以步骤
S3
中每个二元组数据的第一个元素从大到小进行排序,得到的二元组数组越靠前的元素,连续含有的1二进制位越多;步骤
S5、
当读取数据时候,首先读取二元组数组中每个元素的第二个数,该数就是二次压缩后位串对应的下标,然后利用该下标访问位串;步骤
S6、
当需要查询数据的时候,对排序后的二元组数组依次检索,越靠前的数组元素代表二次压缩后位串中越多的“1”二进制位,所包含的信息量也就越大
。2.
根据权利要求1所述的一种知识图谱压缩存储改进优化算法,其特征在于:所述步骤
S1
中位串的格式为:
[
首位标识符
]+
二进制位的频数,例如
[1]2 1 1 1 2 1 1 2 1 1 1 1 1 2 2 2 2 2 1 3 1 4 1 2 1 1
,在这个位串中,
[1]
表示二进制字符串从1开始
,0
和1位块交替排列因此第0位上的2就表示2个1,第一位上的1表示一个0,第二位上的一表示一个1,第三位上的...
【专利技术属性】
技术研发人员:杨开元,孙知信,徐月华,
申请(专利权)人:常州安易软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。