System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 应用聚类方法、装置、存储介质及计算机设备制造方法及图纸_技高网

应用聚类方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:40536657 阅读:29 留言:0更新日期:2024-03-01 13:58
本申请公开一种应用聚类模型的训练方法,该方法利用人工智能技术:获取训练样本对;通过图像编码网络对训练样本对进行图像编码,得到第一特征矩阵和第二特征矩阵;基于第一特征矩阵和第二特征矩阵进行对比特征提取,得到第三特征矩阵和第四特征矩阵,及基于第一特征矩阵和第二特征矩阵进行聚类特征提取,得到第五特征矩阵和第六特征矩阵;基于第三特征矩阵和第四特征的确定第一损失与基于第五特征矩阵和第六特征矩阵确定的第二损失对网络参数进行迭代更新,直至达到训练结束条件。通过联合第一损失和第二损失训练出的应用聚类模型可准确学习出各应用对应的特征表示,以提升基于该特征表示的聚类准确性,从而提高对不同应用进行类型识别的准确度。

【技术实现步骤摘要】

本申请涉及人工智能,更具体地,涉及一种应用聚类方法、装置、存储介质及计算机设备


技术介绍

1、应用软件是指为了某种特定的用途而被开发的计算机软件。应用软件可以是特定的程序或者具有互相协作能力的程序集合。随着信息技术的发展,应用软件的使用场景和应用功能也越来越多。用户可以根据自身需求通过不同的网络途径下载应用软件。

2、根据用户和服务领域提供的不同功能,应用软件可以是一个特定的程序,例如部署在移动终端上的社交app。也可以是一组功能联系紧密,能够互相协作的程序集合,例如部署在电脑上的办公软件,或者由众多独立程序组成的庞大的数据库管理系统。

3、针对网络上存在较多劣质应用(也即,非法或违规的应用软件)的情况,现有技术会对下载的应用软件进行检测识别,例如,对应用软件进行逆向脱壳分析、提取应用软件模拟运行的内容,然而,这些方法无法做到对应用软件进行准确地检测识别。


技术实现思路

1、本申请实施例提供一种应用聚类方法、装置、存储介质以及计算机设备。以解决相关技术中无法对应用软件进行准确地检测识别的问题。

2、一方面,本申请实施例提供一种应用聚类模型的训练方法,应用聚类模型包括图像编码网络和特征提取网络,该方法包括:获取训练样本对,训练样本对包括从样本应用的运行截图和运行截图的至少两种增广图中选取的第一图像和第二图像;通过图像编码网络对训练样本对进行图像编码,得到第一特征矩阵和第二特征矩阵;第一特征矩阵表示训练样本对中第一图像的图像特征;第二特征矩阵表示训练样本对中第二图像的图像特征;通过特征提取网络基于第一特征矩阵和第二特征矩阵进行对比特征提取,得到第三特征矩阵和第四特征矩阵,以及基于第一特征矩阵和第二特征矩阵进行聚类特征提取,得到第五特征矩阵和第六特征矩阵;第三特征矩阵表示第一图像在嵌入维度下的对比特征,第四特征矩阵表示第二图像在嵌入维度下的对比特征;第五特征矩阵表示第一图像在聚类维度下的聚类特征,第六特征矩阵表示第二图像在聚类维度下的聚类特征;基于第三特征矩阵和第四特征矩阵,确定训练样本对中两个图像间的对比相似度,并基于对比相似度确定第一损失;基于第五特征矩阵和第六特征矩阵,确定训练样本对中两个图像间的聚类相似度,并基于聚类相似度确定第二损失;根据第一损失和第二损失对应用聚类模型的权重参数进行迭代更新,直至达到网络训练结束条件。

3、本申请提供的应用聚类模型的训练方法,可以获取训练样本对,并通过图像编码网络对训练样本对进行图像编码,得到第一特征矩阵和第二特征矩阵。该第一特征矩阵表示训练样本对中第一图像的图像特征,第二特征矩阵表示训练样本对中第二图像的图像特征。进一步地,通过特征提取网络基于第一特征矩阵和第二特征矩阵进行对比特征提取,得到第三特征矩阵和第四特征矩阵,以及基于第一特征矩阵和第二特征矩阵进行聚类特征提取,得到第五特征矩阵和第六特征矩阵。

4、进一步地,基于第三特征矩阵和第四特征矩阵,确定训练样本对中两个图像间的表征相似度,并基于表征相似度确定第一损失,并基于第五特征矩阵和第六特征矩阵,确定训练样本对中两个图像间的聚类相似度,并基于聚类相似度确定第二损失,进而根据第一损失和第二损失对应用聚类模型的权重参数进行迭代更新,直至达到网络训练结束条件。

5、由此,基于比相似度确定的第一损失可以让应用聚类模型能够准确捕获到各图像特征对应的样本应用自身的特征信息,使得各样本应用在聚类空间的特征表示能够具有明显的区别性。并且,基于聚类相似度确定的第二损失可以让应用聚类模型能够准确捕获到各图像特征对应的样本应用之间的关联信息,从而,通过联合第一损失和第二损失进行网络训练使得训练得到应用聚类模型可以准确得到各样本应用对应的特征表示,进而,基于该特征表示的应用聚类的准确性能够得到有效提升,使得不同样本应用准确地划分到所述的聚类簇中,准确识别出样本应用所属的应用类别。

6、另一方面,本申请实施例还提供一种应用聚类模型的训练装置,应用聚类模型包括图像编码网络和特征提取网络,该装置包括:样本获取模块,用于获取训练样本对,训练样本对包括从样本应用的运行截图和运行截图的至少两种增广图中选取的第一图像和第二图像;图像编码模块,用于通过图像编码网络对训练样本对进行图像编码,得到第一特征矩阵和第二特征矩阵;第一特征矩阵表示训练样本对中第一图像的图像特征;第二特征矩阵表示训练样本对中第二图像的图像特征;特征提取模块,用于通过特征提取网络基于第一特征矩阵和第二特征矩阵进行对比特征提取,得到第三特征矩阵和第四特征矩阵,以及基于第一特征矩阵和第二特征矩阵进行聚类特征提取,得到第五特征矩阵和第六特征矩阵;第三特征矩阵表示第一图像在嵌入维度下的对比特征,第四特征矩阵表示第二图像在嵌入维度下的对比特征;第五特征矩阵表示第一图像在聚类维度下的聚类特征,第六特征矩阵表示第二图像在聚类维度下的聚类特征;第一损失确定模块,用于基于第三特征矩阵和第四特征矩阵,确定训练样本对中两个图像间的对比相似度,并基于对比相似度确定第一损失;第二损失确定模块,用于基于第五特征矩阵和第六特征矩阵,确定训练样本对中两个图像间的聚类相似度,并基于聚类相似度确定第二损失;网络训练模块,用于根据第一损失和第二损失对应用聚类模型的权重参数进行迭代更新,直至达到网络训练结束条件。

7、另一方面,本申请实施例提供一种应用聚类方法,该方法包括:获取待测应用集,待测应用集包括多个待测应用;通过模拟运行环境对每个待测应用进行模拟运行,得到每个待测应用的运行截图,待测应用的运行截图是在模拟运行待测应用的过程中,对待测应用响应于触发事件呈现的界面进行截图得到的;通过应用聚类模型基于每个待测应用的运行截图进行应用聚类,确定待测应用集对应的聚类结果;其中,应用聚类模型为基于对比相似度确定的第一损失和聚类相似度确定的第二损失进行训练得到的;对比相似度为基于训练样本对中两个图像经对比特征提取得到的对比特征矩阵对确定的;聚类相似度为基于训练样本对中两个图像经聚类特征提取得到的特征矩阵对确定的。

8、另一方面,本申请实施例还提供一种应用聚类装置,该装置包括:应用获取模块,用于获取待测应用集,待测应用集包括多个待测应用;截图获取模块,用于通过模拟运行环境对每个待测应用进行模拟运行,得到每个待测应用的运行截图,待测应用的运行截图是在模拟运行待测应用的过程中,对待测应用响应于触发事件呈现的界面进行截图得到的;应用聚类模块,用于通过应用聚类模型基于每个待测应用的运行截图进行应用聚类,确定待测应用集对应的聚类结果;其中,应用聚类模型为基于对比相似度确定的第一损失和聚类相似度确定的第二损失进行训练得到的;对比相似度为基于训练样本对中两个图像经对比特征提取得到的对比特征矩阵对确定的;聚类相似度为基于训练样本对中两个图像经聚类特征提取得到的特征矩阵对确定的。

9、另一方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,其中,在该计算机程序被处理器运行时执行上述的应用聚类方法和应用本文档来自技高网...

【技术保护点】

1.一种应用聚类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述应用聚类模型包括图像编码网络、文本编码网络和特征提取网络;所述通过所述应用聚类模型基于每个所述待测应用的运行截图进行应用聚类,确定所述待测应用集对应的聚类结果,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述通过所述文本编码网络对各待测应用的运行截图对应的文本信息进行文本编码,得到各待测应用对应的目标文本特征,包括:

4.根据权利要求1或2所述的方法,其特征在于,所述特征提取网络包括对比网路和聚类网络;所述通过所述特征提取网络对各待测应用的合并特征进行对比特征提取,得到各待测应用对应的第一应用特征,通过所述特征提取网络对各待测应用的合并特征进行聚类特征提取,得到各待测应用对应的第二应用特征,包括:

5.根据权利要求1至4任一项所述的方法,其特征在于,所述聚类结果包括预设数量的聚类簇;所述基于所述第一应用特征和所述第二应用特征进行聚类,得到所述待测应用集对应的聚类结果,包括:

6.根据权利要求1所述的方法,其特征在于,所述方法还包括:

7.一种应用聚类模型的训练方法,其特征在于,所述应用聚类模型包括图像编码网络和特征提取网络,所述方法包括:

8.根据权利要求7所述的方法,其特征在于,所述基于所述第三特征矩阵和所述第四特征矩阵,确定所述训练样本对中两个图像间的对比相似度,并基于所述对比相似度确定第一损失,包括:

9.根据权利要求8所述的方法,其特征在于,所述第三特征矩阵包括第一对比特征向量和第二对比特征向量;所述第四特征矩阵包括第三对比特征向量和第四对比特征向量;所述第一对比特征向量在所述第三特征矩阵中的元素位置与所述第三对比特征向量在所述第四特征矩阵中的元素位置相同;所述第二对比特征向量在所述第三特征矩阵中的元素位置与所述第四对比特征向量在所述第四特征矩阵中的元素位置相同;

10.根据权利要求9所述的方法,其特征在于,所述训练样本对中两个图像间的对比相似度包括第一对比相似度、第二对比相似度和第三对比相似度;

11.根据权利要求7所述的方法,其特征在于,所述基于所述第五特征矩阵和所述第六特征矩阵,确定所述训练样本对中两个图像间的聚类相似度,并基于所述聚类相似度确定第二损失,包括:

12.根据权利要求7至11中任一项所述的方法,其特征在于,所述应用聚类模型还包括文本编码网络;

13.根据权利要求7至12任一项所述的方法,其特征在于,所述获取训练样本对之前,所述方法还包括:

14.根据权利要求13所述的方法,其特征在于,所述增广图包括掩码增广图和缩放增广图;

15.根据权利要求13所述的方法,其特征在于,所述基于运行截图和所述运行截图的至少两种增广图,构建训练样本对,包括:

16.一种应用聚类模型的训练装置,其特征在于,所述应用聚类模型包括图像编码网络和特征提取网络,所述装置包括:

17.一种应用聚类装置,其特征在于,所述装置包括:

18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可读指令,当所述计算机可读指令被处理器执行时,实现如权利要求1至6任一项所述的应用聚类方法,或如权利要求7至12任一项所述的应用聚类模型的训练方法。

19.一种计算机设备,其特征在于,包括:

20.一种计算机程序产品或计算机程序,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时,实现如权利要求1至6任一项所述的应用聚类方法,或如权利要求7至12任一项所述的应用聚类模型的训练方法。

...

【技术特征摘要】

1.一种应用聚类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述应用聚类模型包括图像编码网络、文本编码网络和特征提取网络;所述通过所述应用聚类模型基于每个所述待测应用的运行截图进行应用聚类,确定所述待测应用集对应的聚类结果,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述通过所述文本编码网络对各待测应用的运行截图对应的文本信息进行文本编码,得到各待测应用对应的目标文本特征,包括:

4.根据权利要求1或2所述的方法,其特征在于,所述特征提取网络包括对比网路和聚类网络;所述通过所述特征提取网络对各待测应用的合并特征进行对比特征提取,得到各待测应用对应的第一应用特征,通过所述特征提取网络对各待测应用的合并特征进行聚类特征提取,得到各待测应用对应的第二应用特征,包括:

5.根据权利要求1至4任一项所述的方法,其特征在于,所述聚类结果包括预设数量的聚类簇;所述基于所述第一应用特征和所述第二应用特征进行聚类,得到所述待测应用集对应的聚类结果,包括:

6.根据权利要求1所述的方法,其特征在于,所述方法还包括:

7.一种应用聚类模型的训练方法,其特征在于,所述应用聚类模型包括图像编码网络和特征提取网络,所述方法包括:

8.根据权利要求7所述的方法,其特征在于,所述基于所述第三特征矩阵和所述第四特征矩阵,确定所述训练样本对中两个图像间的对比相似度,并基于所述对比相似度确定第一损失,包括:

9.根据权利要求8所述的方法,其特征在于,所述第三特征矩阵包括第一对比特征向量和第二对比特征向量;所述第四特征矩阵包括第三对比特征向量和第四对比特征向量;所述第一对比特征向量在所述第三特征矩阵中的元素位置与所述第三对比特征向量在所述第四特征矩阵中的元素位置相同;所述...

【专利技术属性】
技术研发人员:郝立扬
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1