一种支持语义感知密文检索加速的筛选因子确定方法技术

技术编号:36794892 阅读:12 留言:0更新日期:2023-03-08 22:59
本发明专利技术属于信息检索技术领域,公开了一种支持语义感知密文检索加速的筛选因子确定方法,其第一阶段为每个关键词构建其与各文档的语义相关度划分序列:利用语义感知模型计算每个文档的语义向量;提取关键词,并计算每个关键词的语义向量;为每个关键词计算其与每个文档的语义相关度,形成语义相关度序列,并按降序对该序列进行排序;执行划分,为每个关键词生成该关键词与各文档的语义相关度划分序列;第二阶段根据检索关键词,利用语义相关度划分序列,计算并确定筛选因子。本发明专利技术提供的加速筛选因子确定方法,适用于支持语义感知的密文检索中基于树形结构索引的应用场景,能够显著提升检索速度,并且对搜索结果准确率没有影响。响。响。

【技术实现步骤摘要】
一种支持语义感知密文检索加速的筛选因子确定方法


[0001]本专利技术属于信息检索
,具体是涉及一种支持语义感知密文检索加速的筛选因子确定方法。

技术介绍

[0002]随着互联网技术的不断发展和各种软件用户的数量不断增加,数据的规模日益庞大,本地化的数据存储已经不能满足日益增长的业务需求。为了解决这个困境,人们转而将数据外包给云服务器。用户可以根据个人所需按量使用计算资源。简而言之,云计算使用互联网的传输能力将数据信息从本地服务器传输到互联网并在互联网上进行数据处理。虽然云计算有很多优点,但也存在一些问题,比如数据隐私问题。为了保护外包数据的隐私,最常见也最直接的方法是在外包到云服务器之前对数据进行加密,再将加密后的数据外包给云服务器。但是,加密后的数据可用性降低,对完成数据检索等基本操作变得复杂困难。同时,加密后的数据语义性降低,难以寻找数据和检索之间的语义关系。因此,许多既能够保证外包数据的隐私性,同时能高效且准确的在云服务器上进行数据检索的可搜索加密方法被提出。
[0003]近年来,研究者提出的可搜索加密方法在索引结构上主要采用树形结构索引来对加密文档进行排序检索,该类方法通过构建结构简单且自身安全的树形结构索引,通过深度优先搜索检索出最相关的top

k个加密文档。例如,论文“Xia Z,Wang X,Sun X,et al.A secure and dynamic multi

keyword ranked search scheme over encrypted cloud data.IEEE transactions on parallel and distributed systems,2015”使用了二叉平衡树索引、论文“Dai H,Dai X,Yi X,et al.Semantic

aware multi

keyword ranked search scheme over encrypted cloud data.Journal of Network and Computer Applications,2019”使用了蕴含语义特征信息的完全二叉树索引、论文“Hu Z,Dai H,Yang G,Yi X,Sheng W.Semantic

Based Multi

keyword Ranked Search Schemes over Encrypted Cloud Data.Security and Communication Networks,2022.”使用了蕴含语义特征信息的聚类二叉树索引等,该类方法均使用检索筛选因子提高检索效率。
[0004]此类可搜索加密的一般方法是首先将文档和关键词转化为向量表示,接着将文档使用树形索引保存并将文档和索引都进行加密后发送给云服务器。用户将搜索提交给云服务器后,云服务器在加密的树形索引上进行检索并返回用户所需的密文,由用户进行解密。由于现有的基于树形索引的检索方法中,通常使用深度优先搜索,并在搜索过程中,根据被遍历的叶节点从0开始更新检索筛选因子,利用筛选因子剪枝掉不满足要求的子树,从而加速检索过程;然而,现有的基于树形索引的检索方法如前文中的三篇论文中的方法,其中的初始检索筛选因子均设置为0,如果能够在搜索开始前,预先确定一个适宜的筛选因子,就能在检索初期过滤掉更多不满足要求的子树,加速深度优先搜索的过程。

技术实现思路

[0005]为解决上述技术问题,本专利技术提供了一种支持语义感知密文检索加速的筛选因子确定方法,能在不影响检索结果精度的情况下,提升检索效率。
[0006]本专利技术所述的一种支持语义感知密文检索加速的筛选因子确定方法,所述方法步骤为:
[0007]步骤1、为每一个关键词构建该关键词与各文档的语义相关度划分序列;
[0008]步骤2、根据检索关键词,利用语义相关度划分序列,计算筛选因子。
[0009]进一步的,步骤1具体为:
[0010]步骤1a、利用语义感知模型,计算文档集合D中每一个文档d
j
的语义向量,D={d1,d2,

,d
j
,

,d
n
},j取值范围1

n;从每一个文档d
j
中提取关键词,生成关键词集合W,W={w1,w2,

,w
i
,

,w
m
},i取值范围1

m,并计算每一个关键词w
i
的语义向量;
[0011]步骤1b、对于W中每一个关键词w
i
∈W,计算其与文档集合D中每一个文档d
j
∈D的语义相关度relevance(w
i
,d
j
),建立w
i
与D中各文档的语义相关度序列L
i
,然后按照降序对该序列进行排序处理;
[0012]步骤1c、根据w
i
的语义相关度序列L
i
和给定的分割参数τ,对序列进行等数量划分,生成w
i
与各文档的语义相关度划分序列每一个分区表示为一个二元组其中和代表这个分区的上下边界。
[0013]进一步的,步骤1c具体为:
[0014]步骤1c1、对每个w
i
与D中文档的相关度得分进行降序排列,生成语义相关度序列L
i
;对W中的每一个关键词w
i
,根据分割参数τ,对L
i
进行等量划分,构建w
i
对应的包含个分区的语义相关度;
[0015]步骤1c2、划分序列其中前个分区均包含τ个相关度得分,最后一个分区包含的文档数量小于等于τ,并且对于任意相邻的两个分区和而言,中的任一相关度得分均大于中的任一相关度得分;
[0016]步骤1c3、针对SPT
i
中的每一个分区构造二元组计算每个分区的和
[0017]进一步的,步骤1c3具体为:
[0018]对于w
i
对应的SPT
i
中的每一个分区,其划分二元组和的计算方法如下,其中,rand(x,y)表示x和y之间的随机值,min(X)表示集合X中元素的最小值,max(X)表示集合X中元素的最大值:
[0019][0020][0021][0022]进一步的,步骤2具体为:
[0023]步骤2a、若Q为用户交付的检索关键词集合,k为用户需要检索的文档数量;对于Q中每个检索关键词w
n
,n的取值范围1

|Q|,计算其前x个语义相关度分区中的文档标记集合的并集U
x
,若U
x
满足下列公式条件,则即为w
n
对应的局部检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种支持语义感知密文检索加速的筛选因子确定方法,其特征在于,所述方法步骤为:步骤1、为每一个关键词构建该关键词与各文档的语义相关度划分序列;步骤2、根据检索关键词,利用语义相关度划分序列,计算筛选因子。2.根据权利要求1所述的一种支持语义感知密文检索加速的筛选因子确定方法,其特征在于,步骤1具体为:步骤1a、利用语义感知模型,计算文档集合D中每一个文档d
j
的语义向量,D={d1,d2,

,d
j
,

,d
n
},j取值范围1

n;从每一个文档d
j
中提取关键词,生成关键词集合W,W={w1,w2,

,w
i
,

,w
m
},i取值范围1

m,并计算每一个关键词w
i
的语义向量;步骤1b、对于W中每一个关键词w
i
∈W,计算其与文档集合D中每一个文档d
j
∈D的语义相关度relevance(w
i
,d
j
),建立w
i
与D中各文档的语义相关度序列L
i
,然后按照降序对该序列进行排序处理;步骤1c、根据w
i
的语义相关度序列L
i
和给定的分割参数τ,对序列进行等数量划分,生成w
i
与各文档的语义相关度划分序列每一个分区表示为一个二元组其中和代表这个分区的上下边界。3.根据权利要求2所述的一种支持语义感知密文检索加速的筛选因子确定方法,其特征在于,步骤1c具体为:步骤1c1、对每个w
i

【专利技术属性】
技术研发人员:戴华刘源龙周倩邓寅甫陈燕俐杨庚
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1