一种基于时序数据的推荐系统攻击检测算法技术方案

技术编号：9830926 阅读：155 留言：0更新日期：2014-04-01 19:49

本发明专利技术公开了一种基于时序数据的推荐系统攻击检测方法，包括：利用用户-项目偏好程度数据集和频繁项集挖掘技术，得到用户组和项目组；为每对用户组和项目组计算组偏好程度值比例特征；将项目组中各项目的所有偏好程度按操作时间形成时序的偏好程度数据；为每对的用户组和项目组计算组偏好程度时间间隔特征；为用户组计算组平均熵特征；为每一用户组，选择其对应最大的组偏好程度值比例特征和最大的组偏好程度时间间隔特征，并依次利用上述三种特征对用户组进行排序，得到三个有序的用户组序列；综合所述三个有序的用户组序列，得到一个整体有序的用户组序列，从而得到最可能的攻击用户组；通过组偏好程度值比例特征得到最有可能的目标项目组。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于时序数据的推荐系统攻击检测方法
本专利技术涉及机器学习和模式识别领域，特别是机器学习中基于协同过滤的推荐系统攻击检测问题。
技术介绍
近年来，随着网络的飞速发展，人们每天都会面临大量的信息。面对成千上万的信息，人们疲于从中发现自己感兴趣的有价值的信息，推荐系统的出现可以使人们从海量的信息中解脱出来。推荐系统是一种信息过滤技术，它能够从大量的信息中筛选出用户感兴趣的有价值的内容并提供给用户，从而使用户从纷杂繁多的信息中解脱出来。常用的推荐系统技术有基于内容的推荐系统、基于协同过滤的推荐系统和混合推荐系统，其中最流行的是基于协同过滤的推荐系统，本专利技术中的算法和框架也是面向协同过滤技术的推荐系统。基于协同过滤的推荐系统收集并汇聚用户偏好信息，依托用户和项目的相似性度量对用户可能的偏好项目进行个性化预测。基于协同过滤的技术又可以分为最近邻协同过滤和基于模型的协同过滤。最近邻协同过滤利用最相似的若干个用户或项目的偏好来计算目标用户对目标项目的偏好程度，然后再向目标用户推荐其最感兴趣的项目；基于模型的协同过滤不直接操作已有偏好信息而得到预测值，而是使用已有偏好信息去训练模型再基于模型对项目进行偏好程度预测。虽然基于协同过滤的推荐系统能够比较准确的向用户推荐其可能感兴趣的项目，但是它比较容易受到用户概貌注入攻击的影响。因为协同过滤算法是利用用户和项目的相似性度量来发现用户可能感兴趣的项目，所以通过人为的制造大量与很多用户相似的虚假用户概貌信息并将其注入推荐系统，就能够对基于协同过滤的推荐系统产生严重的影响。由于需要大量与正常用户概貌相似的虚假用户概貌信息以及...
一种基于时序数据的推荐系统攻击检测算法

【技术保护点】
一种基于时序数据的推荐系统攻击检测算法，包括步骤：步骤S1：利用用户‑项目偏好程度数据集和频繁项集挖掘技术，得到候选的多个用户组和候选的多个项目组；步骤S2：为每对用户组和项目组计算描述组攻击行为在偏好程度值上特性的组偏好程度值比例特征；步骤S3：将项目组中各项目的所有偏好程度按操作时间的先后顺序进行组织，形成时序的偏好程度数据；步骤S4：为每对的用户组和项目组计算组偏好程度时间间隔特征，捕获组攻击行为的时间间隔特性；步骤S5：为用户组计算组平均熵特征，从一组用户偏好程度分布的角度来检测组攻击行为；步骤S6：为每一用户组，选择其对应最大的组偏好程度值比例特征和最大的组偏好程度时间间隔特征，并依次利用上述三种特征对用户组进行排序，得到三个有序的用户组序列；步骤S7：利用排序聚集技术综合所述三个有序的用户组序列，得到一个整体有序的用户组序列，从而得到最可能的攻击用户组；步骤S8：通过组偏好程度值比例特征得到与所述最可能的攻击用户组对应的最有可能被攻击的目标项目组。

【技术特征摘要】
1.一种基于时序数据的推荐系统攻击检测方法，包括步骤：步骤S1：利用用户-项目偏好程度数据集和频繁项集挖掘技术，得到候选的多个用户组和候选的多个项目组；步骤S2：为每对用户组和项目组计算组偏好程度值比例特征，所述组偏好程度值比例特征用于描述组攻击行为在偏好程度值上的特性；步骤S3：将项目组中各项目的所有偏好程度按操作时间的先后顺序进行组织，形成时序的偏好程度数据；步骤S4：为每对的用户组和项目组计算组偏好程度时间间隔特征，捕获组攻击行为的时间间隔特性；步骤S5：为用户组计算组平均熵特征，从一组用户偏好程度分布的角度来检测组攻击行为；步骤S6：为每一用户组，选择其对应最大的组偏好程度值比例特征和最大的组偏好程度时间间隔特征，并依次利用组偏好程度值比例特征、组偏好程度时间间隔特征和组平均熵特征对用户组进行排序，得到三个有序的用户组序列；步骤S7：利用排序聚集技术综合所述三个有序的用户组序列，得到一个整体有序的用户组序列，从而得到最可能的攻击用户组；步骤S8：通过组偏好程度值比例特征得到与所述最可能的攻击用户组对应的最有可能被攻击的目标项目组。2.根据权利要求1所述的方法，其特征在于：利用用户-项目偏好程度数据集和频繁项集挖掘技术得到候选的用户组和项目组，从而使攻击用户组和目标项目组包含于其中。3.根据权利要求1所述的方法，其特征在于：步骤S2中每对用户组和项目组的组偏好程度值比例如下计算：其中，为用户组集合GU中的第m个用户组，为项目组集合GI中的第n个项目组，GVRm...

【专利技术属性】
技术研发人员：王亮，吴书，王保兴，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人