一种数据特征指纹构建及相似性度量方法与索引技术

技术编号：35266836 阅读：12 留言：0更新日期：2022-10-19 10:30

本发明专利技术公开了一种基于布隆过滤器的数据特征指纹构建方法，通过将数据特征集合映射到固定长度的位向量空间，将数据所包含的全部特征进行统一表征；有效地将数据特征集合的空间复杂度降低至常数级，有效地降低了当前大数据中高维数据特征的存储成本。数据特征相似度计算采用两个固定长度位向量的海明距离进行计算，不仅能够有效表征数据在特征上的相似度，还降低了计算的复杂度量级，提高计算效率。对于海量数据特征相似性度量，采用倒排索引方式构建数据特征指纹索引，仅需将对应特征指纹进行分段，然后将该段指纹作为索引键保存在数据特征倒排索引库中，就能够检索得到其相似数据，进一步提升了数据指纹检索匹配效率。进一步提升了数据指纹检索匹配效率。进一步提升了数据指纹检索匹配效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据特征指纹构建及相似性度量方法与索引

[0001]本专利技术涉及一种数据特征指纹，具体涉及一种数据特征指纹构建及相似性度量方法与索引。

技术介绍

[0002]传统试验数据特征提取与识别方法集中在对单一类别或模态的试验数据处理上，包括数值计算、关联分析等，以获取该试验数据对象特征，并通过特征来进行关联及检索。
[0003]根据统计，2019年、2020年全球数据流量分别达到每月180和230艾字节，预计到2026年，这一数据将增长至每月780艾字节。2019年固定数据流量占所有数据流量的近75％，随着移动终端和物联网设备数量的增加，预计移动宽带的数据流量将迅速增长，到2026年将达到总数据量的近三分之一。随着数据体量迅速增长及数据应用日益广泛，其所对应的特征规模也迅速增长，数据多维特征表征及相似性度量的需求迫切，对数据特征化旨在缩减数据规模且尽可能保留数据原有特征，而现有多维特征表征及相似性度量方法，面临着计算复杂，时间开销大，维护成本高等问题。
[0004]当前，关于数据相似性度量的方法及其实现技术较多，有Sorensen
‑
Dice系数、Jaro
‑
Winkler距离、Shingle集合相似度、余弦距离等，其主要缺点在于：
[0005](1)、计算复杂性高：需要计算数据U与数据V所包含的全部特征的相似性才能返回结果，其复杂度为O(uv)，其中u，v表示数据U及数据V中特征值的个数；
[0006](2)、数据特征存储空间成本较高：需要存储任意数...

【技术保护点】

【技术特征摘要】
1.一种数据特征指纹构建，其特征在于，包括以下步骤：S1、使用TF
‑
IDF方法对数据进行特征提取；S2、基于布隆过滤器结构，将不同数据的特征通过哈希运算映射至对应BF的位向量表中，将最终位向量中0和1构成的序列作为该数据特征的指纹输出。2.根据权利要求1所述的数据特征指纹构建，其特征在于，所述步骤S1中的使用TF
‑
IDF方法，包括以下步骤：A1、通过下式(1)计算提取的数据特征的词频TF：其中，i表示词的索引，j表示数据的文本索引，n
i,j
表示第i个词在第j个文本中出现的次数，分母表示第j个文本中的词的总数；即，TF值为某个词在一个文本中出现的频次与该文本的词的总数的比值；A2、通过下式(2)计算逆文本频率IDF：其中，M表示文本的总数，m
i
表示包含第i个词的文本的数量，
ɑ
表示经验系数，一般取0.01；A3、每个文本向量的特征项对应的TF
‑
IDF权重，通过下式(3)计算：TFIDF
i，j
＝TF
i，j
·
IDF
i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)A4、利用TF
‑
IDF权重法计算出各个特征项的权重后，选择权重较大的数据作为文本的特征。3.根据权利要求1所述的数据特征指纹构建，其特征在于，所述步骤S1还包括步骤S10、对待提取的数据进行预处理，包括：B1、清洗数据：以文本数据为例，包括删除HTML标签、非字母数字字符的特殊字符和重音字符、停止词；B2、扩展数据中的缩略语。4.根据权利要求1所述的数据特征指纹构建，其特征在于，所述步骤S1还包括步骤S12、整理所提取的特征，使特征标准化，包括以下步骤：C1、采用余弦相似度计算不同特征之间的相似度；C2、设置相似度阈值；C3、将特征两两比对；若相似度大于阈值，则删除重复特征；C4、重复步骤C3至特征唯一。5.根据权利要求4所述的数据特征指纹构建，其特征在于，所述步骤C1中余弦相似度的计算，具体为：计算文本特征向量之间的距离，从而得到文本之间的相似度；一般来说，两个文本向量的距离越近，则两个文本越相似；采用余弦相似度计算不同特征之间的相似度，公式为：
其中，A＝(x1，x2，
...

【专利技术属性】
技术研发人员：周晓磊，华悦琳，范强，张骁雄，严浩，王芳潇，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人