一种基于特征的恶意应用程序检测方法及设备技术

技术编号：32028482 阅读：28 留言：0更新日期：2022-01-27 12:43

本发明专利技术实施例提供一种基于特征的恶意应用程序检测方法及设备。所述方法包括解析待检测应用程序安装包中的目标文件，提取所述目标文件中的关键特征，所述关键特征的形式为字符串；获取部分关键特征的词语随机度，获取剩余部分关键特征的数值数据，并将所述词语随机度以及所述数值数据拼接为数字特征向量；将所述数字特征向量输入训练好的AI模型，获得对所述待检测应用程序的恶意性检测结果；所述AI模型是根据输入的数字特征向量进行训练，并输出所述数字特征向量对应的应用程序为恶意应用的概率和/或非恶意应用的概率。解决了传统恶意应用程序检测时存在的规则提取困难、覆盖度低、扩展性差、易被绕过等问题，具有更高的准确性和及时性。性和及时性。性和及时性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特征的恶意应用程序检测方法及设备

[0001]本专利技术实施例涉及移动网络安全
，尤其涉及一种基于特征的恶意应用程序检测方法及设备。

技术介绍

[0002]在如火如荼的高科技时期，Android软件的开发呈现了爆发式增长。根据日前App Annie发布的《全球移动应用市场2019年回顾报告》显示数据表明，2018年全球APP下载量超过1940亿次，相比2016年全球应用下载量增长率为35％。可惜不幸的是，这样的受欢迎程度也会吸引恶意软件开发者，预置应用程序、捆绑下载、过度获取权限、山寨应用等防不胜防。恶意应用程序的盛行却让用户的个人隐私逐渐走向透明，在《2017Q1中国手机安全市场研究报告》中提到，89.6％的受访用户表示曾遭受过个人隐私信息泄露，诈骗电话等，如今信息安全成为很多用户的心腹大患。
[0003]目前，很多安全厂商也投入到移动安全领域,而这些软件进行杀毒基本原理是通过匹配已知的恶意木马特征来确认入侵行为，以防火墙、动态监控等方式进行主动防御，但缺点是依赖恶意特征库的更新，学习新型恶意检测的能力较弱。
[0004]然而，新的恶意应用程序层出不穷，它们的恶意性各不相同，依靠恶意特征库进行恶意检测，由于恶意特征库更新不及时将难以达到理想的安全防护效果。

技术实现思路

[0005]针对现有技术存在的问题，本专利技术实施例提供一种基于特征的恶意应用程序检测方法及设备，在对大量Android平台主流恶意软件分析的基础上，总结了Android平台恶意软件的攻击意图和手段，并...

【技术保护点】

【技术特征摘要】
1.一种基于特征的恶意应用程序检测方法，其特征在于，包括：解析待检测应用程序安装包中的目标文件，提取所述目标文件中的关键特征，所述关键特征包含行为维度、权限维度和内容维度中的至少一种维度信息；获取部分关键特征的词语随机度，获取剩余部分关键特征的数值数据，并将所述词语随机度以及所述数值数据拼接为数字特征向量；将所述数字特征向量输入训练好的AI模型，获得对所述待检测应用程序的恶意性检测结果；所述AI模型是根据输入的数字特征向量进行训练，并输出所述数字特征向量对应的应用程序为恶意应用的概率和/或非恶意应用的概率。2.根据权利要求1所述的方法，其特征在于，所述行为维度包含应用程序运行时的行为信息；所述权限维度包含应用程序在进行特定行为时所需要的权限信息；所述内容维度包含下述至少一种信息：应用程序包名、程序名、开发者信息、语言信息、应用程序的总文件大小、应用程序所包含的文件数量、应用程序中特定文件大小、应用程序中特定组件的数量、元数据的数量、资源字符串数量、支持语言数量以及应用程序加固信息。3.根据权利要求1所述的方法，其特征在于，所述获取所述部分关键特征的词语随机度，具体包括：根据所述部分关键特征字符串的字母顺序，依次获取所述部分关键特征字符串的任意相邻两个字母的字母相邻频率；基于所述任意相邻两个字母的字母相邻频率，获取所述关键特征的词语随机度；其中，所述字母相邻频率是将字符串作为预设语言文字的单词，通过预设语言文字的词语随机度计算规则得到两个字母之间的相邻频率；所述词语随机度通过所述字母相邻频率得到。4.根据权利要求1-3任一项所述的方法，其特征在于，所述获取剩余部分关键特征的数值数据，具体包括：基于所述剩余部分关键特征中内容维度的关键特征，将所提取的关键特征转换为第一数值数据，所述第一数值数据为关键特征所代表的数值；基于所述剩余部分关键特征中行为维度和权限维度的关键特征，将所提取的关键特征转换为第二数值数据，所述第二数值数据为数字0或1。5.根据权利要求4任一项所述的方法，其特征在于，所述将所述词语随机度以及所述数值数据拼接为数字特征向量，具体包括：基于所述词语随机度以及所述第一数值数据中的每一个数据，分别将每一个数据进行特征变换后，通过独热编码，转换成由0和1组成的编码数字；将所有随机度数据和第一数值数据转换后的编码数字，以及第二数值数据，按预设顺序拼接为数字特征向量。6.根据权利要求5所述的方法，其特征在于，所述分别将每一个数据进行特征变换后，通过独热编码，转换成由0和1组成的编码数字，具体包括：基于所有数据，按第一预设规则获取N个数值分段，并将所述N个数值分段按数值大小排序，获得每个数值分段的排序位次，所述N为大于0的整数；
将每一个数据，按第二预设规则与所述N个数值分段进行匹配，使每一个数据匹配一个数值分段，并将所匹配的数值分段的排序位次作为所述每一个数据的特征变换数字；对每一个数据的特征变换数字进行独热编码，从而获得由0和1组成的编码数字。7.根据权利要求5或6任一项所述的方法，其特征在于，所述分别将每一个数据进行特征变换后，通过独热编码，转换成由0和1组成的编码数字，具体包括：以所有数据中的最大值和最小值为数值区间，将所述数值区间分为N份，获得N个数值分段，并将所述N个数值分段按数值大小排序，获得每个数值分段的排序位次，所述N为大于0的整数；对于每一个数据，若所述数据的值处于一个数值分段S的数值范围内，则将所述数值分段S的排序位次作为所述数据的特征变换数字；对每一个数据的特征变换数...

【专利技术属性】
技术研发人员：潘宣辰，董超，陈家林，
申请(专利权)人：武汉安天信息技术有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人