一种预训练模型的攻击检测方法、装置、设备和存储介质制造方法及图纸

技术编号：43048421 阅读：11 留言：0更新日期：2024-10-22 14:32

本申请实施例提供了一种预训练模型的攻击检测方法、装置、设备和存储介质，用于检测预训练模型是否存在后门攻击，从而保证预训练模型的安全运行。包括：根据应用平台的第一训练样本集训练得到第一模型；将应用平台的测试样本集输入第一模型得到第一指标集合，并将测试样本集输入第二模型得到第二指标集合，其中，第二模型为第三方提供的预训练模型，第一指标集合和第二指标集合中包括具有相同的指标类型；根据第一指标集合和第二指标集合对测试样本集中的各个物品进行分类得到至少两个分类集合，至少两个分类集合至少包括正常集合和异常集合；根据异常集合确定第二模型存在异常攻击。本申请提供的技术方案应用于人工智能、云技术等领域。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能领域，尤其涉及一种预训练模型的攻击检测方法、装置、设备和存储介质。

技术介绍

1、目前，人工智能模型已经在越来越多领域中的复杂现实世界任务里展示了其强大的能力，其中包括许多安全关键型的应用场景，例如自动驾驶、医疗诊断、身份验证等。由于人工智能模型的训练通常会有很高的计算开销并需要大量数据，因此常见的做法是获取预训练模型并在用户的下游任务上进行微调。

2、而在推荐系统领域，预训练模型也取得了巨大的进步。统一的预训练推荐模型，可以用于不同的下游推荐任务。尽管有了这些进展，经典推荐系统的漏洞也以一种新形式存在于预训练推荐中，因此预训练推荐模型的安全性仍未被探索，这可能会威胁到其广泛的实际应用。

3、因此此急需可以检测预训练模型中存在攻击的技术。

技术实现思路

1、本申请实施例提供了一种预训练模型的攻击检测方法、装置、设备和存储介质，用于检测预训练模型是否存在后门攻击，从而保证预训练模型的安全运行。

2、有鉴于此，本申请一方面提供一种预训练模型的攻击检测方法，包括：根据应用平台的第一训练样本集训练得到第一模型；将该应用平台的测试样本集输入该第一模型得到该测试样本集中各个物品的第一指标集合，并将该测试样本集输入第二模型得到该测试样本集中各个物品的第二指标集合，其中，该第二模型为第三方提供的预训练模型，该第一指标集合和该第二指标集合中包括具有相同的指标类型；根据该第一指标集合和该第二指标集合对该测试样本集中的各个物品进行分类得到至少两个分类

3、本申请另一方面提供一种预训练模型的攻击检测装置，包括：训练模块，用于根据应用平台的第一训练样本集训练得到第一模型；

4、处理模块，用于将该应用平台的测试样本集输入该第一模型得到该测试样本集中各个物品的第一指标集合，并将该测试样本集输入第二模型得到该测试样本集中各个物品的第二指标集合，其中，该第二模型为第三方提供的预训练模型，该第一指标集合和该第二指标集合中包括具有相同的指标类型；

5、聚类模块，用于根据该第一指标集合和该第二指标集合对该测试样本集中的各个物品进行分类得到至少两个分类集合，该至少两个分类集合至少包括正常集合和异常集合；

6、该处理模块，还用于根据该异常集合确定该第二模型存在异常攻击。

7、在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该聚类模块，具体用于获取所第一指标集合和该第二指标集合中各个相同类型的指标之间的差异值，并获取该差异值的嵌入表示；

8、将该嵌入表示输入聚类模型得到该测试样本集中的各个物品的至少两个分类集合，其中该正常集合的差异值小于该异常集合的差异值。

9、在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该聚类模块，具体用于将该嵌入表示输入k-means模型对该测试样本集中的各个物品进行聚类得到该至少两个分类集合；

10、或者，

11、该聚类模块，具体用于将该嵌入表示输入系统聚类模型对该测试样本集中的各个物品进行聚类得到该至少两个分类集合；

12、或者，

13、该聚类模块，具体用于将该嵌入表示输入基于密度的噪声应用空间聚类(density-based spatial clustering of applications with noise，dbscan)模型对该测试样本集中的各个物品进行聚类得到该至少两个分类集合。

14、在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该第一指标集合和该第二指标集合中的指标类型包括但不限于hr、ndcg和auc，其中hr用于指示推荐列表中正确推荐的比例，ndcg用于指示推荐列表中推荐物品的相关性和排序质量的度量，auc用于度量二分类模型性能的指标。

15、在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该第一指标集合中的各类指标均为平均值，该第二指标中的各类指标均为平均值。

16、在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该装置还包括获取模块，用于获取第二训练样本集和推荐模型，该第二训练样本集为该第三方提供的训练样本集，该第二训练样本集包括多个对象的真实行为序列和对应的真实物品；获取该第二训练样本集中的真实物品对应的第一物品集，该第一物品集中每个物品与该真实物品之间的第一相似性度量满足第一阈值；

17、该处理模块，还用于利用该第一物品集和该第二训练样本集中生成第三训练样本集，该第三训练样本集中包括由该第一物品集中的物品替换该真实物品生成的虚假行为序列；

18、该训练模块，还用于利用该第三训练样本集训练该推荐模型得到该第二模型。

19、在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该获取模块，还用于获取第四训练样本集和初始模型，该第四训练样本集为该第三方提供的训练样本集，该第四训练样本集包括多个对象的真实行为序列和对应的真实物品；

20、该训练模块，还用于利用该第四训练样本集训练该初始模型得到第三模型；

21、该获取模块，还用于获取第五训练样本集，该第五训练样本集为该第三方提供的训练样本集，该第五训练样本集包括多个对象的真实行为序列和对应的真实物品；

22、该训练模块，还用于固定该第三模型的网络参数，并利用该第五训练样本集对该第三模型进行提示学习得到提示模型，此时该第三模型和该提示模型作为该推荐模型。

23、本申请另一方面提供一种预训练模型的攻击方法，包括：获取第一训练样本集和初始模型，该第一训练样本集包括多个对象的真实行为序列和对应的真实物品；获取该第一训练样本集中的真实物品对应的第一物品集，该第一物品集中每个物品与该真实物品之间的第一相似性度量满足第一阈值；利用该第一物品集和该第一训练样本集中生成第二训练样本集，该第二训练样本集中包括由该第一物品集中的物品替换该真实物品生成的虚假行为序列；利用该第二训练样本集训练该初始模型得到预训练模型。

24、本申请另一方面提供一种预训练模型的攻击装置，包括：获取模块，用于获取第一训练样本集和初始模型，该第一训练样本集包括多个对象的真实行为序列和对应的真实物品；获取该第一训练样本集中的真实物品对应的第一物品集，该第一物品集中每个物品与该真实物品之间的第一相似性度量满足第一阈值；

25、处理模块，用于利用该第一物品集和该第一训练样本集中生成第二训练样本集，该第二训练样本集中包括由该第一物品集中的物品替换该真实物品生成的虚假行为序列；

26、训练模块，用于利用该第二训练样本集训练该初始模型得到预训练模型。

27、在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该处理模块，具体用于利用第一随机概率确定该第一训练样本集中的第一本文档来自技高网...

【技术保护点】

1.一种预训练模型的攻击检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一指标集合和所述第二指标集合对所述测试样本集中的各个物品进行分类得到至少两个分类集合包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述嵌入表示输入聚类模型得到所述测试样本集中的各个物品的至少两个分类集合包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，在获取所述第二训练样本集和推荐模型之前，所述方法还包括：

6.一种预训练模型的攻击方法，其特征在于，包括：

7.根据权利要求6所述的方法，其特征在于，所述利用所述第一物品和所述第一训练样本集生成第二训练样本集包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

10.根据权利要求6至9中任一项所述的方法，其特征在于，在获取所述第一训练样本集和初始模型之前，所述方法还包括：

11.根据权利要求6至9中任一项所述的方法，其特征在于，所述方法还包括：

12.根据权利要求11所述的方法，其特征在于，所述根据所述第一指标集合和所述第二指标集合对所述测试样本集中的各个物品进行分类得到至少两个分类集合包括：

13.根据权利要求12所述的方法，其特征在于，所述将所述嵌入表示输入聚类模型得到所述测试样本集中的各个物品的至少两个分类集合包括：

14.一种预训练模型的攻击检测装置，其特征在于，包括：

15.一种预训练模型的攻击装置，其特征在于，包括：

16.一种计算机设备，其特征在于，包括：存储器、处理器以及总线系统；

17.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至13中任一项所述的方法。

...

【技术特征摘要】