一种恶意安装包的识别方法和装置制造方法及图纸

技术编号:17940050 阅读:34 留言:0更新日期:2018-05-15 20:23
本发明专利技术公开了一种恶意安装包的识别方法和装置,所述方法包括:获取待检测安装包经过沙箱处理后的特征序列;从所述特征序列中提取符合预定文字提取规则的文字信息;对所述文字信息进行前处理,得到符合预先配置的神经网络识别模型输入格式的待输入数据;通过将所述待输入数据输入到所述神经网络识别模型进行分析,确定所述待检测安装包是否为恶意安装包。这样,利用神经网络识别模型进行进一步的识别处理,将沙箱无法识别的恶意安装包识别出来,有效提高了识别恶意软件的准确率,避免了一些恶意安装包带来的危害,保证了用户使用安装包的安全性。

An identification method and device for a malicious installation package

The invention discloses a method and device for the identification of a malicious installation package. The method includes: obtaining the feature sequence after the sandbox is processed, extracting the text information that is in line with the predetermined text extraction rules from the feature sequence, and preprocessing the written information to get the pre configured God. The input data is input through the network recognition model, and the data to be input to the neural network identification model is analyzed to determine whether the pending installation package is a malicious installation package. In this way, the neural network recognition model is used to recognize the malicious installation package which can not be identified by the sandbox, which effectively improves the accuracy of identifying malware, avoids the harm caused by some malicious installation packages, and ensures the security of the user to use the installation package.

【技术实现步骤摘要】
一种恶意安装包的识别方法和装置
本专利技术涉及信息处理领域,特别是涉及一种恶意安装包的识别方法和装置。
技术介绍
随着现在网络技术的不断发展,各个软件开发公司开发出的软件安装包越来越多,用户将自己需要的安装包从网上或通过其他途径进行下载,并放入手机、平板、电脑、笔记本等能够对该安装包进行安装的设备上,利用这些设备对安装包进行解压安装,得到相应的软件程序,以供用户使用。现在很多不法分子开发出一些恶意安装包,来窃取用户的隐私、财产或者干扰用户设备的正常使用,给用户带来极大的不便。针对这种情况一些开发公司开发出了各种杀毒软件,来对这些安装包进行检测,具体的,杀毒软件在安装包安装前会将安装包放入沙箱中进行模拟运行,杀毒软件基于安装包在沙箱中的运行情况,如果安装包运行过程中存在恶意行为,确定该安装包为恶意安装包,进而会对该安装包进行安全处理。但是,根据安装包在沙箱运行过程中是否存在恶意行为,有时很难判断出安装包是否为恶意安装包,容易造成遗漏,进而会给用户造成安全隐患。例如,一些手机安装包,在沙箱运行测试过程中只是读取手机通讯录,并未出现恶意行为,但是该安装包在手机中实际运行时,会将读取到的手机通讯录上传到网络,进而使得给通讯录中的手机号发送骚扰短信,这样的恶意安装包在沙箱中是检测不出来的。
技术实现思路
有鉴于此,本专利技术提供了一种恶意安装包识别方法和装置,主要目的在于可以解决有些安装包在沙箱运行之后,很难判断出该安装包是否为恶意安装包,容易造成遗漏,给用户造成安全隐患的问题。依据本专利技术第一方面,提供了一种恶意安装包的识别方法,包括:获取待检测安装包经过沙箱处理后的特征序列;从所述特征序列中提取符合预定文字提取规则的文字信息;对所述文字信息进行前处理,得到符合预先配置的神经网络识别模型输入格式的待输入数据;通过将所述待输入数据输入到所述神经网络识别模型进行分析,确定所述待检测安装包是否为恶意安装包。依据本专利技术第二方面,提供了一种恶意安装包的识别装置,包括:获取单元,用于获取待检测安装包经过沙箱处理后的特征序列;提取单元,用于从所述特征序列中提取符合预定文字提取规则的文字信息;处理单元,用于对所述文字信息进行前处理,得到符合预先配置的神经网络识别模型输入格式的待输入数据;分析单元,用于通过将所述待输入数据输入到所述神经网络识别模型进行分析,确定所述待检测安装包是否为恶意安装包。依据本专利技术第三方面,提供了一种存储设备,其上存储有计算机程序,所述程序被处理器执行时实现第一方面所述的恶意安装包的识别方法。依据本专利技术第四方面,提供了一种恶意安装包的识别装置,所述装置包括存储设备和处理器,所述存储设备,用于存储计算机程序;所述处理器,用于执行所述计算机程序以实现第一方面所述的恶意安装包的识别方法。借由上述技术方案,本专利技术提供的一种恶意安装包的识别方法和装置,与目前基于安装包在沙箱中的运行情况判断安装包是否为恶意安装包相比,本专利技术将待检测安装包经过沙箱处理后的特征序列,提取特征序列中的文字信息,然后将该文字信息进行前处理,得到符合预先配置的神经网络识别模型输入格式的待输入数据,再将待输入数据输入到所述神经网络识别模型进行分析,确定所述待检测安装包是否为恶意安装包。这样,利用神经网络识别模型进行进一步的识别处理,将沙箱无法识别的恶意安装包识别出来,有效提高了识别恶意软件的准确率,避免了一些恶意安装包带来的危害,保证了用户使用安装包的安全性。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术的恶意安装包的识别方法的一个实施例的流程示意图;图2示出了本专利技术的恶意安装包的识别方法的另一个实施例的流程示意图;图3示出了本专利技术训练神经网络识别模型时的信息处理示意图;图4示出了本专利技术数据输入LSTM网络后的信息处理示意图;图5示出了本专利技术的恶意安装包的识别装置的一个实施例的结构示意图;图6示出了本专利技术的恶意安装包的识别装置的另一个实施例的结构示意图;图7示出了本专利技术的恶意安装包识别的实体装置结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种恶意安装包的识别方法,将安装包经过沙箱处理后的特征序列,利用经过学习训练后得到的神经网络识别模型进行进一步识别处理,判断该安装包是否是恶意安装包,有效提高了识别恶意安装包的准确率。当安装包经过沙箱处理之后,能够直接判断出该安装包是恶意安装包时,利用杀毒软件进行杀毒或删除处理;当安装包经过沙箱处理之后,无法确定该安装包是否是恶意软件时,采用本专利技术的以下各个实施例的技术方案对安装包进行进一步的识别判断。如图1所示,本实施例的恶意安装包的识别方法,步骤包括:步骤101,获取待检测安装包经过沙箱处理后的特征序列。在上述技术方案中,终端上一般都安装有杀毒软件,当安装包下载完成后,该杀毒软件就会将安装包在沙箱的虚拟环境中模拟运行,模拟运行时会调用底层的API(应用程序编程接口),每调用一个API就会形成一个该调用行为特征。一个安装包在沙箱中模拟运行会有多次调用API的行为,因此,一个安装包就会对应多个调用行为特征,将这些调用行为特征按照调用的时间顺序进行排列,形成特征序列。步骤102,从特征序列中提取符合预定文字提取规则的文字信息。在上述技术方案中,由于神经网络识别模型需要对文字信息进行处理,因此按照预定文字提取规则筛选特征序列中的文字信息,将特征序列中的其他信息进行剔除,并对所有文字信息进行整合。其中,该预定文字提取规则为提取特征序列中的中文文字和数字,若特征序列中有英文文字、日文文字、法文文字或其他外国文字信息,将外国文字信息翻译成中文后,再提取中文文字。步骤103,对文字信息进行前处理,得到符合预先配置的神经网络识别模型输入格式的待输入数据。在上述技术方案中,神经网络识别模型对文字信息不能进行处理,因此,需要将文字信息先进行前处理,按照神经网络识别模型预先配置的输入格式,对该文字信息进行转化处理,转化为与预先配置的输入格式相匹配的待输入数据。其中对文字信息进行前处理,具体包括:对文字信息进行分词处理,然后为分词处理后得到的各个分词匹配相应的词向量,对所有的词向量按照各个分词的顺序进行汇总,组成一个一维向量矩阵。由于神经网络识别模型的输入口是多维输入口,需要将该一维向量矩阵进行进一步处理,将其转换成一个多维向量矩阵,将该多维向量矩阵作为待输入数据。另外,本专利技术实施例全文中涉及的分词处理包括:利用条件随机场算法(CRF,ConditionRandomField)进行分词处理;或者利用最大本文档来自技高网...
一种恶意安装包的识别方法和装置

【技术保护点】
一种恶意安装包的识别方法,其特征在于,包括:获取待检测安装包经过沙箱处理后的特征序列;从所述特征序列中提取符合预定文字提取规则的文字信息;对所述文字信息进行前处理,得到符合预先配置的神经网络识别模型输入格式的待输入数据;通过将所述待输入数据输入到所述神经网络识别模型进行分析,确定所述待检测安装包是否为恶意安装包。

【技术特征摘要】
1.一种恶意安装包的识别方法,其特征在于,包括:获取待检测安装包经过沙箱处理后的特征序列;从所述特征序列中提取符合预定文字提取规则的文字信息;对所述文字信息进行前处理,得到符合预先配置的神经网络识别模型输入格式的待输入数据;通过将所述待输入数据输入到所述神经网络识别模型进行分析,确定所述待检测安装包是否为恶意安装包。2.根据权利要求1所述的方法,其特征在于,所述神经网络识别模型的获取步骤包括:获取训练安装包经过沙箱处理后的训练特征序列;从所述训练特征序列中提取符合预定文字提取规则的训练文字信息;对所述训练文字信息进行处理,得到训练输入数据;将所述训练输入数据输入到神经网络进行处理,得到训练函数;根据所述训练函数的各项数值对所述神经网络进行训练,获得神经网络识别模型。3.根据权利要求2所述的方法,其特征在于,所述神经网络包括卷积神经网络和长短期记忆网络,将所述训练输入数据输入到神经网络进行处理,得到训练函数,具体包括:将所述训练输入数据输入到卷积神经网络进行卷积处理,得到多维特征数据;将所述多维特征数据输入到长短期记忆网络进行处理,获得训练函数;根据所述训练函数的各项数值对所述神经网络进行训练,获得神经网络识别模型,具体包括:根据所述训练函数的各项数值对所述卷积神经网络和所述长短期记忆网络进行训练,获得卷积神经网络模型和长短期记忆网络模型;将所述卷积神经网络模型和长短期记忆网络模型进行组合得到神经网络识别模型。4.根据权利要求3所述的方法,其特征在于,将所述训练输入数据输入到卷积神经网络进行卷积处理,得到多维特征数据,具体包括:对所述训练文字信息进行分词处理,并为分词处理得到的分词匹配相应的分词向量,所述分词向量为一维输入矩阵;对所述分词向量进行格式转换,将一维输入矩阵转化为二维输入矩阵;将所述二维输入矩阵输入到卷积神经网络进行卷积处理,得到向量矩阵;提取所述向量矩阵中的第一维的向量,并将所述第一维的向量作为多维特征数据。5.根据权利...

【专利技术属性】
技术研发人员:郭祥周楠李强王冬
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1