当前位置: 首页 > 专利查询>宁波大学专利>正文

一种基于用户分类的中毒样本构建方法技术

技术编号:37251340 阅读:14 留言:0更新日期:2023-04-20 23:29
本发明专利技术公开了一种基于用户分类的中毒样本构建方法,包括以下步骤:定义系统中的脆弱用户和鲁棒用户;定义损失函数即每个用户的动态权重,构建代理模型,模拟系统脆弱用户尽可能中毒的状态来得到假用户候选交互物品候选集合,并通过初始化假用户来降低推荐偏差以提高候选交互物品的可信性;定义每个物品的选择概率,得到所有物品的最终评分,按评分从高到低选取假用户的交互物品。本发明专利技术增强了基于深度学习推荐系统的数据中毒攻击的攻击性,同时降低了攻击成本,并为推荐系统对于数据中毒攻击的防御提供了思路。击的防御提供了思路。击的防御提供了思路。

【技术实现步骤摘要】
一种基于用户分类的中毒样本构建方法


[0001]本专利技术涉及计算机
,特别是一种基于用户分类的中毒样本构建方法。

技术介绍

[0002]随着大数据时代的来临,信息处理的方式发生了巨大的变化。推荐系统作为一种有效的信息过滤方式,有效缓解了信息爆炸的问题。推荐系统在电商、音乐等领域给用户带来了极大的便利,尤其是深度学习技术的发展以及在推荐系统领域的应用,使得深度学习技术成为推荐系统领域的一个趋势。但是推荐系统仍然面临着一些不可避免的隐私以及安全问题,包括推荐系统过度搜集用户隐私,利用成员推理攻击推理出了推荐系统的原始训练集,推荐系统的水军攻击(数据中毒攻击)等等,对推荐系统的隐私安全问题提出了新的挑战。然而随着电商等领域水军,刷好评等现象的频繁出现,尤其在推荐系统领域中,刷好评会大大降低用户对系统的信任,因此对于推荐系统的水军攻击与防御的研究意义重大。
[0003]现有的基于深度学习推荐系统的数据中毒攻击进行物品推广的攻击技术的研究中,都是对系统中的所有用户进行物品推广,推广攻击的本质是通过学习系统中的用户的特征来构建假用户,以此来推广目标物品,但是由于系统中不同的用户的特征不同,因此对于以往所有的推广攻击并未对系统用户进行分类攻击,得到的推广效果也不是非常理想。因此,基于用户分类的数据中毒攻击的研究在当下具有重要的意义,只有清楚地了解数据中毒攻击的具体攻击手段才可以更好地进行防御,为推荐系统对于数据中毒攻击的防御提供新的思路。

技术实现思路

[0004]本专利技术的目的在于,提供一种基于用户分类的中毒样本构建方法。本专利技术增强了基于深度学习推荐系统的数据中毒攻击的攻击性,同时降低了攻击成本,并为推荐系统对于数据中毒攻击的防御提供了思路。
[0005]本专利技术的技术方案:一种基于用户分类的中毒样本构建方法,本专利技术中的攻击者基于白盒先验知识,由于白盒先验知识对于攻击者来说是最严苛的条件,因此对该攻击场景进行防御能够更大程度上的防御实际情况中的攻击。
[0006]本专利技术中将要推广的目标物品定义为目标物品t,由于攻击者的攻击成本有限,因此定义攻击者可注入数据集的假用户的数量最多为n个,每个假用户样本的历史交互记录数目最多为r条。中毒样本构建方法具体包括以下步骤:
[0007]步骤S1、对推荐系统中的用户进行分析,根据用户对目标物品的偏好和用户的历史交互记录数目将用户分类为脆弱用户和鲁棒用户。
[0008]步骤S2、对步骤S1分类好的两类的用户赋予相应的权重以表示用户的脆弱程度,根据得到的用户的脆弱程度定义动态权重,脆弱程度高的用户获得更高的权重,以此来控制系统不同用户特征的学习。
[0009]对于个性化推荐系统而言,个性化推荐系统的本质是基于用户的偏好来进行推荐
服务的,根据系统中的用户的交互信息或其他信息对系统中的用户进行偏好挖掘,如传统的协同过滤算法和基于深度学习的推荐算法深度协同过滤(NCF)。而对于此类个性化推荐系统的数据中毒攻击的本质就是使得假用户充分学习系统中用户的非鲁棒性特征,因此攻击者在利用数据中毒攻击对目标物品t进行推广时,应该充分考虑不同用户的脆弱性,就推广目标物品t而言,对于脆弱用户群,是非常容易受到攻击的,即该类用户非常容易被推荐物品t;而对于鲁棒用户群,此类用户对于目标物品t并不敏感,因此在一定的假用户数量攻击下,大概率不会被推荐物品t,或者需要更多的假用户,这将需要大大提高攻击的成本,同时大量用户的推荐列表中如果出现一些根本不符合实际的推荐结果,那么更加容易引起怀疑从而导致假用户被检测出来,最终无法达到推广物品的目的。因此本专利技术基于该原理,学习更多的脆弱用户的特征,减少对于鲁棒特征的学习,即尽量减少对推广攻击具有负面影响的特征的学习。
[0010]步骤S3、基于步骤S2获得的动态权重构建一个代理模型,来模拟推荐系统中脆弱用户最大程度中毒后的状态,生成假用户的候选物品集合。
[0011]步骤S4、根据中毒后的推荐系统反馈结果选择假用户的交互项目,并生成评分,生成最终的假用户。
[0012]步骤S5、将步骤S4最终生成的假用户加入本地代理推荐系统的数据集,回到步骤S1,进行下一个假用户构建,直至向代理数据集内加入设定个数的假用户,最后将这批假用户加入目标推荐系统的数据集中,完成推荐系统的投毒攻击。
[0013]数据中毒攻击的本质就是构建毒样本数据,在推荐系统领域的数据中毒攻击就是构造假用户,本专利技术针对深度协同过滤推荐算法,一个假用户的数据即为交互历史,交互历史包括交互物品和交互物品的评分这两项组成,因此该假用户样本构建的关键点在于交互物品如何选择以及交互物品对应的评分。在综合分析目前数据中毒攻击的研究成果及当前攻击方法的特性之后,本专利技术目的是基于深度协同过滤的推荐系统构建毒性更强的毒样本,本专利技术中将毒样本统一称为假用户,本专利技术中构建假用户的攻击目的是推广冷门物品。
[0014]前述的一种基于用户分类的中毒样本构建方法中,所述代理模型设立在本地,能完全还原目标推荐系统,代理模型使用的数据集与目标推荐系统的数据集完全一致。
[0015]前述的一种基于用户分类的中毒样本构建方法中,所述步骤S3具体包括以下子步骤:
[0016]子步骤S3.1、在推荐系统生成第j个假用户时,向代理模型的数据集中添加一条初始假用户v
j
的数据,初始假用户v
j
的历史交互记录中包括一条对于目标物品的最高评分以及多个种子物品,多个种子物品的评分分别符合各个物品整体评分的正态分布;
[0017]子步骤S3.2、根据推荐系统用户的脆弱性分类设计动态权重来定义代理模型的损失函数,以此利用训练好的代理模型来模拟脆弱用户最大程度中毒后的推荐系统状态;
[0018]子步骤S3.3、训练代理模型得到对假用户v
j
的推荐结果。
[0019]基于深度学习的推荐系统算法如深度协同过滤(NCF)算法,不同于传统的矩阵分解算法和协同过滤算法,对于用公式计算的方式会产生巨大的计算开销以及梯度消失问题,因此现有的针对深度学习推荐系统的中毒攻击的研究成果,通过构建毒模型来模拟系统理想的中毒状态,以此来选择找到对于攻击效果最好的假用户交互记录。而本专利技术则启发于该思想给出了一种攻击性更强且更加隐蔽的方法,通过基于动态权重的方式构建一个
代理模型来模拟系统中脆弱用户最大程度中毒并且鲁棒用户被尽可能维持,并且中毒用户在保证中毒的情况下尽可能维持原有的偏好和分布的理想状态,最后生成假用户的候选物品集合。
[0020]前述的一种基于用户分类的中毒样本构建方法中,所述步骤S4具体包括以下子步骤:
[0021]子步骤S4.1、根据训练好的代理模型得到假用户v
j
对每个物品的预测评分
[0022]子步骤S4.2、根据深度协同过滤算法的原理定义每个物品i的选择概率p
i

[0023]根据深度协同过滤算法的原理,根据代理模型可以知道理想中被中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于用户分类的中毒样本构建方法,其特征在于:包括以下步骤:步骤S1、对推荐系统中的用户进行分析,根据用户对目标物品的偏好和用户的历史交互记录数目将用户分类为脆弱用户和鲁棒用户;步骤S2、对步骤S1分类好的两类的用户赋予相应的权重以表示用户的脆弱程度,根据得到的用户的脆弱程度定义动态权重,脆弱程度高的用户获得更高的权重;步骤S3、基于步骤S2获得的动态权重构建一个代理模型,来模拟推荐系统中脆弱用户最大程度中毒后的状态,生成假用户的候选物品集合;步骤S4、根据中毒后的推荐系统反馈结果选择假用户的交互项目,并生成评分,生成最终的假用户;步骤S5、将步骤S4最终生成的假用户加入本地代理推荐系统的数据集,回到步骤S1,进行下一个假用户构建,直至向代理数据集内加入设定个数的假用户,完成推荐系统的投毒攻击。2.根据权利要求1所述的一种基于用户分类的中毒样本构建方法,其特征在于:所述代理模型设立在本地,能完全还原目标推荐系统,代理模型使用的数据集与目标推荐系统的数据集完全一致。3.根据权利要求2所述的一种基于用户分类的中毒样本构建方法,其特征在于:所述步骤S3具体包括以下子步骤:子步骤S3.1、在推荐系统生成第j个假用户时,向代理模型的数据集中添加一条初始假用户v
j
的数据,初始假用户v
j
的历史交互记录中包括一条对于目标物品的最高评分以及多个种子物品,多个种子物品的评分分别符合各个物品整体评分的正态分布;子步骤S3.2、根据推荐系统用户的脆弱性分类设计动态权重来定义代理模型的损失函数,以此利用训练好的代理模型来模拟脆弱用户最大程度中毒后的推荐系统状态;子步骤S3.3、训练代理模型得到对假用户v
j
的推荐结果。4.根据权利要求3所述的一种基于用户分类的中毒样本构建方法,其特征在于:所述步骤S4具体包括以下子步骤:子步骤S4.1、根据训练好的代理模型得到假用户v
j
对每个物品的预测评分子步骤S4.2、根据深度协同过滤算法的原理定义每个物品i的选择概率p
i
;子步骤S4.3、生成每个物品的最终评分rating
i
;子步骤S4.4、根据最终评分从高到低选择top

r个物品作为假用户v
j
的填充物品,并根据推荐系统中所有物品评分的正态分布对假用户v
j
的填充物品进行评分,生成最终的假用户v
j
。5.根据权利要求4所述的一种基于用户分类的中毒样本构建方法,其特征在于:步骤S1中对目标物品的预测评分高于设定阈值的定义为脆弱用户,反之则为鲁棒用户。...

【专利技术属性】
技术研发人员:刘柏嵩王志业张雪垣林晨楠胡测
申请(专利权)人:宁波大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1