一种基于特征的恶意应用程序检测方法及设备技术

技术编号:32028482 阅读:16 留言:0更新日期:2022-01-27 12:43
本发明专利技术实施例提供一种基于特征的恶意应用程序检测方法及设备。所述方法包括解析待检测应用程序安装包中的目标文件,提取所述目标文件中的关键特征,所述关键特征的形式为字符串;获取部分关键特征的词语随机度,获取剩余部分关键特征的数值数据,并将所述词语随机度以及所述数值数据拼接为数字特征向量;将所述数字特征向量输入训练好的AI模型,获得对所述待检测应用程序的恶意性检测结果;所述AI模型是根据输入的数字特征向量进行训练,并输出所述数字特征向量对应的应用程序为恶意应用的概率和/或非恶意应用的概率。解决了传统恶意应用程序检测时存在的规则提取困难、覆盖度低、扩展性差、易被绕过等问题,具有更高的准确性和及时性。性和及时性。性和及时性。

【技术实现步骤摘要】
一种基于特征的恶意应用程序检测方法及设备


[0001]本专利技术实施例涉及移动网络安全
,尤其涉及一种基于特征的恶意应用程序检测方法及设备。

技术介绍

[0002]在如火如荼的高科技时期,Android软件的开发呈现了爆发式增长。根据日前App Annie发布的《全球移动应用市场2019年回顾报告》显示数据表明,2018年全球APP下载量超过1940亿次,相比2016年全球应用下载量增长率为35%。可惜不幸的是,这样的受欢迎程度也会吸引恶意软件开发者,预置应用程序、捆绑下载、过度获取权限、山寨应用等防不胜防。恶意应用程序的盛行却让用户的个人隐私逐渐走向透明,在《2017Q1中国手机安全市场研究报告》中提到,89.6%的受访用户表示曾遭受过个人隐私信息泄露,诈骗电话等,如今信息安全成为很多用户的心腹大患。
[0003]目前,很多安全厂商也投入到移动安全领域,而这些软件进行杀毒基本原理是通过匹配已知的恶意木马特征来确认入侵行为,以防火墙、动态监控等方式进行主动防御,但缺点是依赖恶意特征库的更新,学习新型恶意检测的能力较弱。
[0004]然而,新的恶意应用程序层出不穷,它们的恶意性各不相同,依靠恶意特征库进行恶意检测,由于恶意特征库更新不及时将难以达到理想的安全防护效果。

技术实现思路

[0005]针对现有技术存在的问题,本专利技术实施例提供一种基于特征的恶意应用程序检测方法及设备,在对大量Android平台主流恶意软件分析的基础上,总结了Android平台恶意软件的攻击意图和手段,并通过深度学习算法实现了应用程序恶意的AI检测,为Android平台应用程序的恶意检测提供了新的方向。
[0006]第一方面,本专利技术实施例提供一种基于特征的恶意应用程序检测方法,包括:
[0007]解析待检测应用程序安装包中的目标文件,提取所述目标文件中的关键特征,所述关键特征包含行为维度、权限维度和内容维度中的至少一种维度信息;
[0008]获取部分关键特征的词语随机度,获取剩余部分关键特征的数值数据,并将所述词语随机度以及所述数值数据拼接为数字特征向量;
[0009]将所述数字特征向量输入训练好的AI模型,获得对所述待检测应用程序的恶意性检测结果;所述AI模型是根据输入的数字特征向量进行训练,并输出所述数字特征向量对应的应用程序为恶意应用的概率和/或非恶意应用的概率。
[0010]进一步,所述获取所述部分关键特征的词语随机度,具体包括:
[0011]根据所述部分关键特征字符串的字母顺序,依次获取所述部分关键特征字符串的任意相邻两个字母的字母相邻频率;
[0012]基于所述任意相邻两个字母的字母相邻频率,获取所述关键特征的词语随机度;
[0013]其中,所述字母相邻频率是将字符串作为预设语言文字的单词,通过预设语言文
字的词语随机度计算规则得到两个字母之间的相邻频率;所述词语随机度通过所述字母相邻频率得到。
[0014]进一步,所述AI模型的网络结构包括四部分:输入层、分解机层、隐藏层和输出层;所述AI模型通过如下方法训练得到:
[0015]获取应用程序安装包样本以及所述应用程序安装包样本的恶意标签;
[0016]解析所述应用程序安装包样本中的第二目标文件,提取所述第二目标文件中的第二关键特征,所述关键特征包含行为维度、权限维度和内容维度中的至少一种维度信息;
[0017]获取部分关键特征的词语随机度,获取剩余部分关键特征的数值数据,并将所述词语随机度以及所述数值数据拼接为数字特征向量;
[0018]将所述第二数字特征向量以及所述应用程序安装包样本的恶意标签,输入搭建好的AI模型,对所述AI模型进行训练,从而获得符合预期要求的AI模型。
[0019]进一步,所述将所述第二数字特征向量以及所述应用程序安装包样本的恶意标签,输入搭建好的AI模型,对所述AI模型进行训练,具体包括:
[0020]将所述应用程序安装包样本的恶意标签转换为所述第二数字特征向量的恶意标签;
[0021]将所述第二数字特征向量以及所述第二数字特征向量的恶意标签,输入搭建好的AI模型,对所述AI模型进行训练。
[0022]第二方面,本专利技术实施例提供一种电子设备,包括:
[0023]至少一个处理器;以及
[0024]与所述处理器通信连接的至少一个存储器,其中:
[0025]所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行本专利技术实施例第一方面所述基于特征的恶意应用程序检测方法及其任一可选实施例所述的方法。
[0026]第三方面,本专利技术实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令执行本专利技术实施例第一方面所述基于特征的恶意应用程序检测方法及其任一可选实施例的方法。
[0027]本专利技术实施例提供的基于特征的恶意应用程序检测方法,提取待检测应用程序安装包中目标文件的关键特征,对部分关键特征获取词语随机度,对剩余部分关键特征获取数值数据,并将所得的全部随机度数据和数值数据拼接为数字特征向量;基于已经训练好的AI模型,通过AI模型对数字特征向量进行运算,即可得到所述数字特征向量对应的应用程序为恶意应用的概率和/或非恶意应用的概率。本专利技术实施例解决了传统基于人工提取规则进行恶意应用程序检测时所存在的规则提取困难、覆盖度低、扩展性差、易被绕过等问题,针对恶意程序检测具有更高的准确性和及时性。
附图说明
[0028]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]图1为本专利技术实施例所述基于特征的恶意应用程序检测方法流程示意图;
[0030]图2为本专利技术实施例数值分段示意图;
[0031]图3为本专利技术实施例所述AI模型的网络结构示意图;
[0032]图4位本专利技术实施例AI模型训练流程示意图;
[0033]图5为本专利技术实施例基于特征的恶意应用程序检测装置;
[0034]图6为本专利技术实施例电子设备的框架示意图。
具体实施方式
[0035]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0036]针对现有技术问题,本专利技术实施例以深度学习方法中DeepFM算法为基础进行算法重新设计,获得人工智能(Artificial Intelligence,AI)模型;基于对海量的Android平台应用程序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征的恶意应用程序检测方法,其特征在于,包括:解析待检测应用程序安装包中的目标文件,提取所述目标文件中的关键特征,所述关键特征包含行为维度、权限维度和内容维度中的至少一种维度信息;获取部分关键特征的词语随机度,获取剩余部分关键特征的数值数据,并将所述词语随机度以及所述数值数据拼接为数字特征向量;将所述数字特征向量输入训练好的AI模型,获得对所述待检测应用程序的恶意性检测结果;所述AI模型是根据输入的数字特征向量进行训练,并输出所述数字特征向量对应的应用程序为恶意应用的概率和/或非恶意应用的概率。2.根据权利要求1所述的方法,其特征在于,所述行为维度包含应用程序运行时的行为信息;所述权限维度包含应用程序在进行特定行为时所需要的权限信息;所述内容维度包含下述至少一种信息:应用程序包名、程序名、开发者信息、语言信息、应用程序的总文件大小、应用程序所包含的文件数量、应用程序中特定文件大小、应用程序中特定组件的数量、元数据的数量、资源字符串数量、支持语言数量以及应用程序加固信息。3.根据权利要求1所述的方法,其特征在于,所述获取所述部分关键特征的词语随机度,具体包括:根据所述部分关键特征字符串的字母顺序,依次获取所述部分关键特征字符串的任意相邻两个字母的字母相邻频率;基于所述任意相邻两个字母的字母相邻频率,获取所述关键特征的词语随机度;其中,所述字母相邻频率是将字符串作为预设语言文字的单词,通过预设语言文字的词语随机度计算规则得到两个字母之间的相邻频率;所述词语随机度通过所述字母相邻频率得到。4.根据权利要求1-3任一项所述的方法,其特征在于,所述获取剩余部分关键特征的数值数据,具体包括:基于所述剩余部分关键特征中内容维度的关键特征,将所提取的关键特征转换为第一数值数据,所述第一数值数据为关键特征所代表的数值;基于所述剩余部分关键特征中行为维度和权限维度的关键特征,将所提取的关键特征转换为第二数值数据,所述第二数值数据为数字0或1。5.根据权利要求4任一项所述的方法,其特征在于,所述将所述词语随机度以及所述数值数据拼接为数字特征向量,具体包括:基于所述词语随机度以及所述第一数值数据中的每一个数据,分别将每一个数据进行特征变换后,通过独热编码,转换成由0和1组成的编码数字;将所有随机度数据和第一数值数据转换后的编码数字,以及第二数值数据,按预设顺序拼接为数字特征向量。6.根据权利要求5所述的方法,其特征在于,所述分别将每一个数据进行特征变换后,通过独热编码,转换成由0和1组成的编码数字,具体包括:基于所有数据,按第一预设规则获取N个数值分段,并将所述N个数值分段按数值大小排序,获得每个数值分段的排序位次,所述N为大于0的整数;
将每一个数据,按第二预设规则与所述N个数值分段进行匹配,使每一个数据匹配一个数值分段,并将所匹配的数值分段的排序位次作为所述每一个数据的特征变换数字;对每一个数据的特征变换数字进行独热编码,从而获得由0和1组成的编码数字。7.根据权利要求5或6任一项所述的方法,其特征在于,所述分别将每一个数据进行特征变换后,通过独热编码,转换成由0和1组成的编码数字,具体包括:以所有数据中的最大值和最小值为数值区间,将所述数值区间分为N份,获得N个数值分段,并将所述N个数值分段按数值大小排序,获得每个数值分段的排序位次,所述N为大于0的整数;对于每一个数据,若所述数据的值处于一个数值分段S的数值范围内,则将所述数值分段S的排序位次作为所述数据的特征变换数字;对每一个数据的特征变换数...

【专利技术属性】
技术研发人员:潘宣辰董超陈家林
申请(专利权)人:武汉安天信息技术有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1