基于神经网络和隐私集合求交的数据检索方法技术

技术编号：40386345 阅读：6 留言：0更新日期：2024-02-20 22:20

本发明专利技术涉及一种基于神经网络和隐私集合求交的数据检索方法，属数据安全领域，包括多个参与方将各自私有原始数据集进行预处理后得到各自的样本集；各参与方初始化各自的神经网络模型输入各自的样本集进行模型训练，待模型收敛后得到各自训练好的神经网络模型，将各自的样本集输入各自训练好的神经网络模型，从各自的隐含层中提取各自的样本集的特征向量；对各参与方的样本集的特征向量使用隐私集合求交得到公共数据集作为公共数据库；任一参与方输入查询关键词，从隐含层提取查询关键词的特征向量；将查询关键词的特征向量与公共数据集的各特征向量使用隐私集合求交得到公共数据集中与查询关键词相符结果。解决多类型数据难以相似性加密检索问题<subgt;。</subgt;

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据安全，尤其涉及一种基于神经网络和隐私集合求交的数据检索方法。

技术介绍

1、近几年随着大数据、云计算技术的广泛应用，在云端提供大数据检索服务已成为常态，数据提供商将查询数据外包存储在云服务器上，通过租赁云服务来降低设备成本和运维成本，用户通过云服务接口输入查询条件检索查询数据。不同于传统意义上的仅针对文本、数值等数据通过精确匹配进行检索，大数据检索旨在通过机器学习等技术，对图像、文本等多类型、非结构化数据进行相似性检索。

2、然而，云计算服务往往由第三方提供，云平台自身开放、第三方等特性决定了云平台是半可信的，即云平台忠实地提供服务的同时也有可能造成数据资产被窃取或用户查询隐私泄露等数据安全问题，一旦发生信息安全事故，将会对数据提供商、云服务提供商、用户造成不必要的损失，尤其在涉及敏感数据的情况下。

3、尽管已有一些学者针对云环境半可信问题提出了可搜索加密方案，通过对查询数据每个关键词进行加密，并对进行密文关键词检索，但传统可搜索加密技术仅能提供文本关键词或数值数据的精确匹配，传统检索难以保障各参与方私有数据和数据特征较强机密性的同时，实现数据安全共享和检索，提供多类型、非结构化数据的相似性检索的技术问题。

技术实现思路

1、鉴于上述的分析，本专利技术实施例旨在提供一种基于神经网络和隐私集合求交的数据检索方法，用以解决云计算服务各参与方私有数据和数据特征较强机密性的同时，实现数据安全共享和检索，提供多类型、非结构化数据的相似性检索的技术问题。

2、本专利技术公开一种基于神经网络和隐私集合求交的数据检索方法，包括如下步骤：

3、多个参与方将各自私有原始数据集进行预处理后得到各自的样本集；

4、各参与方初始化各自的神经网络模型并输入所述各自的样本集进行模型训练，待模型收敛后得到各自训练好的神经网络模型，将各自的样本集输入所述各自训练好的神经网络模型，从各自的隐含层中提取所述各自的样本集的特征向量；对各参与方的样本集的特征向量使用隐私集合求交得到公共数据集，将所述公共数据集作为公共数据库；

5、任一参与方输入查询关键词，基于该参与方训练好的神经网络模型的隐含层提取所述查询关键词的特征向量；将所述查询关键词的特征向量与所述公共数据集的各特征向量使用所述隐私集合求交得到所述公共数据集中与所述查询关键词的特征向量相符的结果。

6、进一步地，所述多个参与方将各自私有原始数据集进行预处理得到各自的样本集包括：

7、所述各自私有原始数据集中包含多条数据记录，对每条数据记录进行清洗去噪；

8、对清洗去噪后的每条数据记录进行分词，分离出其中的关键词；

9、对所述每条数据记录中的关键词采用词向量模型进行向量化，将各条数据记录中的关键词词映射为对应的词向量，得到各条数据记录的词向量序列；

10、将所述各条数据记录的词向量序列作为各参与方的样本，从而形成所述样本集；

11、其中，所述各自私有原始数据集数据为明文，为多类型、非结构化的数据。

12、进一步地，在所述神经网络模型的训练过程中，需迭代多个周期，在每个周期内，所述各参与方将各自的训练样本集的样本分批输入到初始化后的神经网络模型的输入层；

13、所述初始化后的神经网络模型的隐含层依次计算所述训练样本集中每条数据记录的词向量，输出层输出分类标签；

14、利用各自的测试样本集输入到所述神经网络模型中评估模型性能和准确度；

15、当准确度满足要求后，得到训练好的神经网络模型，将各自的样本集输入训练好的神经网络模型，从各自的隐含层提取最后一个时间步的状态向量作为各自的样本集的特征向量；

16、其中，每个参与方保存所述原始数据集中关键词与所述各自的样本集的特征向量的映射关系。

17、进一步地，在隐含层中，假设时间序列t＝1,2,3,...,t，在t＝0时，初始化一个隐藏状态向量h0为零向量；

18、对于每个时间步t，通过使用当前时间步的输入词向量xt和上一个时间步的隐藏状态向量ht-1计算出新的隐藏状态ht，并且变成下一时间步的输入，用于后续的循环计算，计算公式如下：

19、ht＝activation(w×[xt,ht-1]+b)

20、其中，ht为当前时间步的隐藏状态向量，activation为激活函数，[xt,ht-1]表示在时间步t将输入词向量xt和上一时间步的隐藏状态向量ht-1合并叠加，w和b为神经网络模型学习的权重和偏置；

21、完成循环计算后，获得输入词向量xt对应的最后一个时间步的隐藏状态向量ht，所有词向量对应的隐含层的最后一个时间步的隐藏状态向量作为所述样本中每条数据记录的特征向量；

22、每个参与方所有数据记录的特征向量组成各自样本集的特征向量。

23、进一步地，对所述各自的样本集的特征向量使用隐私集合求交得到公共数据集包括：

24、将每个参与方各自的样本集的特征向量视为一个集合；

25、对所述集合中的特征向量执行不经意伪随机函数映射为不可逆的伪随机值；

26、将每个参与方的伪随机值求交集，得到各参与方的公共数据集；

27、其中，每个参与方保存特征向量与所述为随机值的映射关系。

28、进一步地，任一参与方的查询关键词的词向量序列输入训练好的所述神经网络模型，从隐含层提取所述查询关键词对应的特征向量视作集合a，把所述公共数据集视作集合b；

29、对于所述集合a、b中的每个特征向量执行不经意伪随机函数得到对应的伪随机值的集合ha、hb；

30、对ha和hb求交集得到交集集合，作为所述公共数据集中与所述输入查询关键词的特征向量相符的结果。

31、进一步地，所述集合ha和hb的交集集合中元素的个数表示所述集合a、b相似度大小，交集集合中相同元素个数越多所述查询关键词的特征向量与所述公共数据集的特征向量相似度越高；

32、对所述交集集合按照所述相似度进行降序排列。

33、进一步地，所述交集集合为特征向量对应的伪随机值的集合；

34、基于所述为随机值与所述特征向量的映射关系，以及所述特征向量与所述原始数据的映射关系，得到所述交集集合中伪随机值对应的原始数据，进而得到参与方查询得到的所述交集集合对应的所述原始数据。

35、进一步地，所述各参与方初始化各自的神经网络模型包括：

36、每个参与方在使用相同的操作系统和硬件环境的基础上，使用相同的神经网络模型，模型包括输入层、隐含层和输出层，其中至少包含一个隐含层；

37、其中，所述神经网络模型为rnn模型。

38、进一步地，所述词向量模型采用glove模型；

39、所述样本集的70％作为训练样本集，30％作为测试样本集。

40、与现有技术相比，本专利技术本文档来自技高网...

【技术保护点】

1.一种基于神经网络和隐私集合求交的数据检索方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述多个参与方将各自私有原始数据集进行预处理得到各自的样本集包括：

3.根据权利要求2所述的方法，其特征在于，在所述神经网络模型的训练过程中，需迭代多个周期，在每个周期内，所述各参与方将各自的训练样本集的样本分批输入到初始化后的神经网络模型的输入层；

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求4所述的方法，其特征在于，对所述各自的样本集的特征向量使用隐私集合求交得到公共数据集包括：

6.根据权利要求7所述的方法，其特征在于，

7.根据权利要求6所述的方法，其特征在于，所述集合HA和HB的交集集合中元素的个数表示所述集合A、B相似度大小，交集集合中相同元素个数越多所述查询关键词的特征向量与所述公共数据集的特征向量相似度越高；

8.根据权利要求7所述的方法，其特征在于，

9.根据权利要求8所述的方法，其特征在于，所述各参与方初始化各自的神经网络模型包括：

10.根据权利要求1-9任一项所述的方法，其特征在于，所述词向量模型采用GloVe模型；

...

【技术特征摘要】

1.一种基于神经网络和隐私集合求交的数据检索方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述多个参与方将各自私有原始数据集进行预处理得到各自的样本集包括：

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求4所述的方法，其特征在于，对所述各自的样本集的特征向量使用隐私集合求...

【专利技术属性】
技术研发人员：王世谦，黄勇，李为，狄立，华远鹏，王自强，贾一博，郭军利，闫利，宋大为，王圆圆，于雪辉，高妍，张登锋，卜飞飞，王涵，韩丁，李秋燕，
申请(专利权)人：国网河南省电力公司经济技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人