一种数据特征指纹构建及相似性度量方法与索引技术

技术编号:35266836 阅读:12 留言:0更新日期:2022-10-19 10:30
本发明专利技术公开了一种基于布隆过滤器的数据特征指纹构建方法,通过将数据特征集合映射到固定长度的位向量空间,将数据所包含的全部特征进行统一表征;有效地将数据特征集合的空间复杂度降低至常数级,有效地降低了当前大数据中高维数据特征的存储成本。数据特征相似度计算采用两个固定长度位向量的海明距离进行计算,不仅能够有效表征数据在特征上的相似度,还降低了计算的复杂度量级,提高计算效率。对于海量数据特征相似性度量,采用倒排索引方式构建数据特征指纹索引,仅需将对应特征指纹进行分段,然后将该段指纹作为索引键保存在数据特征倒排索引库中,就能够检索得到其相似数据,进一步提升了数据指纹检索匹配效率。进一步提升了数据指纹检索匹配效率。进一步提升了数据指纹检索匹配效率。

【技术实现步骤摘要】
一种数据特征指纹构建及相似性度量方法与索引


[0001]本专利技术涉及一种数据特征指纹,具体涉及一种数据特征指纹构建及相似性度量方法与索引。

技术介绍

[0002]传统试验数据特征提取与识别方法集中在对单一类别或模态的试验数据处理上,包括数值计算、关联分析等,以获取该试验数据对象特征,并通过特征来进行关联及检索。
[0003]根据统计,2019年、2020年全球数据流量分别达到每月180和230艾字节,预计到2026年,这一数据将增长至每月780艾字节。2019年固定数据流量占所有数据流量的近75%,随着移动终端和物联网设备数量的增加,预计移动宽带的数据流量将迅速增长,到2026年将达到总数据量的近三分之一。随着数据体量迅速增长及数据应用日益广泛,其所对应的特征规模也迅速增长,数据多维特征表征及相似性度量的需求迫切,对数据特征化旨在缩减数据规模且尽可能保留数据原有特征,而现有多维特征表征及相似性度量方法,面临着计算复杂,时间开销大,维护成本高等问题。
[0004]当前,关于数据相似性度量的方法及其实现技术较多,有Sorensen

Dice系数、Jaro

Winkler距离、Shingle集合相似度、余弦距离等,其主要缺点在于:
[0005](1)、计算复杂性高:需要计算数据U与数据V所包含的全部特征的相似性才能返回结果,其复杂度为O(uv),其中u,v表示数据U及数据V中特征值的个数;
[0006](2)、数据特征存储空间成本较高:需要存储任意数据的全部特征,由于特征值个数并非固定长度,因此其存储需要根据不同数据库选型,造成额外的空间占用。如选用关系型数据库(RDBMS),往往需要对任意数据增加一张表来存储数据特征;
[0007](3)、计算过程依赖原始数据特征值,存在敏感数据泄露隐患。
[0008]关于数据指纹的技术,有如MD5哈希、局部敏感哈希、相似哈希等,通过不同的哈希函数将任意长度的原始数据映射为固定长度的散列值来构建数据指纹,能够有效解决计算复杂性、存储成本等问题,且散列本身不包含特征的语义信息,因此能够保护敏感数据的安全。
[0009]然而,该类方法主要针对数据文件相似性,难以直接用于数据特征指纹构建。其主要缺点在于:
[0010](1)、可扩展性缺陷:当某一数据存在多维特征时,需要对多维特征逐个进行哈希并构建指纹,将导致数据特征指纹库存在大量冗余;
[0011](2)、可维护性差:当某一数据经过分析得出新的特征时,原数据指纹难以支持新的数据特征插入;
[0012](3)、难以支持异构数据、跨模态数据特征指纹构建:由于该类方法主要针对数据文件的内容,难以反映出具有类似特征的异构数据、跨模态数据的特征上的相似度。例如,针对同一对象进行描述的文本数据和图像数据,其数据内容完全不同却在数据上具有相似性,现有数据指纹技术难以支持跨模态的数据相似性度量。
[0013]因此,亟需提出一种面向试验数据的多维特征指纹构造及数据特征相似度快速度量方法,以解决重复或相似数据特征检测、基于特征的数据检索查询、数据关联识别等应用需求。

技术实现思路

[0014]为解决现有技术的不足,本专利技术的目的在于提供一种数据特征指纹构建方法,构建固定长度的数据特征指纹,并支持新生成数据特征维护,从而准确反应数据特征,能够支持数据异构性、跨模态性等复杂数据应用;并提供一种相似度度量方法,支持采用本专利技术构建的特征指纹的相似性度量,从而支持数据查询检索等方面的需要。
[0015]为了实现上述目标,本专利技术采用如下的技术方案:
[0016]一种数据特征指纹构建,包括以下步骤:
[0017]S1、使用TF

IDF方法对数据进行特征(词)提取;
[0018]S2、基于布隆过滤器结构,将不同数据的特征(词)通过哈希运算映射至对应的BF位向量表中,并将最终位向量中0和1构成的序列作为该数据特征的指纹输出。
[0019]上述步骤S1中的使用TF

IDF方法,包括以下步骤:
[0020]A1、通过下式(1)计算提取的数据特征的词频TF:
[0021][0022]其中,i表示词的索引,j表示数据的文本索引,n
i,j
表示第i个词在第j个文本中出现的次数,分母表示第j个文本中的词的总数;即,TF值为某个词在一个文本中出现的频次与该文本的词的总数的比值;
[0023]A2、通过下式(2)计算逆文本频率IDF:
[0024][0025]其中,M表示文本的总数,m
i
表示包含第i个词的文本的数量,
ɑ
表示经验系数,一般取0.01;
[0026]A3、每个文本向量的特征项对应的TF

IDF权重,通过下式(3)计算:
[0027]TFIDF
i,j
=TF
i,j
·
IDF
i
ꢀꢀ
(3)
[0028]A4、利用TF

IDF权重法计算出各个特征项的权重后,选择权重较大的数据作为文本的特征。
[0029]上述步骤S1还包括步骤S10、对待提取的数据进行预处理,包括:
[0030]B1、清洗数据:以文本数据为例,包括删除HTML标签、非字母数字字符的特殊字符和重音字符、停止词;
[0031]B2、扩展数据中的缩略语。
[0032]上述步骤S1还包括步骤S12、整理所提取的特征,使特征标准化,包括以下步骤:
[0033]C1、采用余弦相似度计算不同特征之间的相似度;
[0034]C2、设置相似度阈值;
[0035]C3、将特征两两比对;若相似度大于阈值,则删除重复特征;
[0036]C4、重复步骤C3至特征(描述词)唯一。
[0037]上述步骤C1中余弦相似度的计算,具体为:
[0038]计算文本特征向量之间的距离,从而得到文本之间的相似度;一般来说,两个文本向量的距离越近,则两个文本越相似;
[0039]采用余弦相似度计算不同特征之间的相似度,公式为:
[0040][0041]其中,A=(x1,x2,

x
n
),B=(y1,y2,

y
n
),为文本向量。
[0042]上述步骤S2中对数据特征进行哈希散列并映射到BF相应的位向量表中,具体为:
[0043]给定一组数据集A={a1,a2,

a
n
},使用k个哈希函数{h1,h2,

h
k
}得到待插入数据特征的索引值h
i
(a
j
),其中i∈[1,k],j∈[1,n];
[0044]初始状态时,位向量表中所有值都置为0;插入时,将索引值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据特征指纹构建,其特征在于,包括以下步骤:S1、使用TF

IDF方法对数据进行特征提取;S2、基于布隆过滤器结构,将不同数据的特征通过哈希运算映射至对应BF的位向量表中,将最终位向量中0和1构成的序列作为该数据特征的指纹输出。2.根据权利要求1所述的数据特征指纹构建,其特征在于,所述步骤S1中的使用TF

IDF方法,包括以下步骤:A1、通过下式(1)计算提取的数据特征的词频TF:其中,i表示词的索引,j表示数据的文本索引,n
i,j
表示第i个词在第j个文本中出现的次数,分母表示第j个文本中的词的总数;即,TF值为某个词在一个文本中出现的频次与该文本的词的总数的比值;A2、通过下式(2)计算逆文本频率IDF:其中,M表示文本的总数,m
i
表示包含第i个词的文本的数量,
ɑ
表示经验系数,一般取0.01;A3、每个文本向量的特征项对应的TF

IDF权重,通过下式(3)计算:TFIDF
i,j
=TF
i,j
·
IDF
i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)A4、利用TF

IDF权重法计算出各个特征项的权重后,选择权重较大的数据作为文本的特征。3.根据权利要求1所述的数据特征指纹构建,其特征在于,所述步骤S1还包括步骤S10、对待提取的数据进行预处理,包括:B1、清洗数据:以文本数据为例,包括删除HTML标签、非字母数字字符的特殊字符和重音字符、停止词;B2、扩展数据中的缩略语。4.根据权利要求1所述的数据特征指纹构建,其特征在于,所述步骤S1还包括步骤S12、整理所提取的特征,使特征标准化,包括以下步骤:C1、采用余弦相似度计算不同特征之间的相似度;C2、设置相似度阈值;C3、将特征两两比对;若相似度大于阈值,则删除重复特征;C4、重复步骤C3至特征唯一。5.根据权利要求4所述的数据特征指纹构建,其特征在于,所述步骤C1中余弦相似度的计算,具体为:计算文本特征向量之间的距离,从而得到文本之间的相似度;一般来说,两个文本向量的距离越近,则两个文本越相似;采用余弦相似度计算不同特征之间的相似度,公式为:
其中,A=(x1,x2,
...

【专利技术属性】
技术研发人员:周晓磊华悦琳范强张骁雄严浩王芳潇
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1