文件的病毒检测方法及装置制造方法及图纸

技术编号:14157369 阅读:75 留言:0更新日期:2016-12-11 23:47
本申请公开了文件的病毒检测方法及装置。所述方法的一具体实施方式包括:从待检测文件中提取出特征信息,所述特征信息用于表征所述待检测文件的运行行为;对所述特征信息进行归一化处理,得到对应所述特征信息的归一化数据;将所述归一化数据转换为二进制数据,将所述二进制数据导入预先训练的病毒检测模型进行病毒检测得到病毒检测结果。该实现方式能够避免由于数量造成的病毒识别偏差,提高病毒识别的准确率,加快了病毒识别的速度。

【技术实现步骤摘要】

本申请涉及数据处理
,具体涉及病毒检测处理
,尤其涉及文件的病毒检测方法及装置
技术介绍
深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。将深度学习和神经网络结合起来用于对文件的病毒检测,能够对病毒文件进行准确识别。现有的通过深度学习结合神经网络的病毒检测方法还存在不足之处,例如,现有的通过深度学习结合神经网络的病毒检测方法在训练病毒检测模型时的样本数据量有限,这就直接导致病毒检测模型只能根据样本数据检测出的少量的病毒,也无法发挥深度学习神经网络的优势;同时,现有的深度学习神经网络没有针对具体的病毒特征进行优化,导致得到的病毒检测模型检测病毒的准确性不高。
技术实现思路
本申请提供了文件的病毒检测方法及装置,以解决
技术介绍
中提到的技术问题。第一方面,本申请提供了一种文件的病毒检测方法,所述方法包括:从待检测文件中提取出特征信息,所述特征信息用于表征所述待检测文件的运行行为;对所述特征信息进行归一化处理,得到对应所述特征信息的归一化数据;将所述归一化数据转换为二进制数据,将所述二进制数据导入预先训练的病毒检测模型进行病毒检测得到病毒检测结果。第二方面,本申请提供了一种文件的病毒检测装置,所述装置包括:特征信息提取单元,用于从待检测文件中提取出特征信息,所述特征信息用于表征所述待检测文件的运行行为;归一化数据获取单元,用于对所述特征信息进行归一化处理,得到对应所述特征信息的归一化数据;病毒检测单元,用于将所述归一化数据转换为二进制数据,将所述二进制数据导入预先训练的病毒检测模型进行病毒检测得到病毒检测结果。本申请提供的文件的病毒检测方法及装置,首先从待检测文件中提取出特征数据,根据特征数据确定待检测文件的运行行为;然后对特征数据进行归一化处理,能够避免由于数量造成的病毒识别偏差,提高病毒识别的准确率;之后将归一化数据转换为二进制数据,加快了病毒识别的速度。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2a是根据本申请的文件的病毒检测方法的一个实施例的流程图;图2b是根据本申请的建立病毒检测模型的过程的一个实施例的流程图;图3是根据本实施例的文件的病毒检测方法的应用场景的一个示意图;图4是对应图3的安卓系统文件的病毒检测方法中样本特征数据示意图;图5是对应图4的样本特征数据归一化后到数据示意图;图6是根据到文件的病毒检测装置的结构示意图;图7是根据本申请的服务器的一个实施例的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的文件的病毒检测方法或病毒检测装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送信息等。终端设备101、102、103上可以安装有各种客户端应用,例如输入法应用、文档管理类应用、搜索类应用、邮箱客户端、社交平台软件等,这些应用都包含多个文件。终端设备101、102、103可以是运行各种应用的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。服务器105可以是提供病毒检测的服务器,例如对终端设备101、102、103上的应用所包含的文件进行病毒检测的服务器或云服务器。服务器可以对接收到的文件进行分析和病毒检测等处理,并将病毒检测处理结果反馈给终端设备。需要说明的是,本申请实施例所提供的文件的病毒检测方法可以由终端设备101、102、103单独执行,或者也可以由终端设备101、102、103和服务器105共同执行。由于生成病毒检测模型的数据处理 量很大,所以,一般情况下,文件的病毒检测方法由服务器105执行。相应地,文件的病毒检测装置可以设置于终端设备101、102、103中,也可以设置于服务器105中。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。图2a示出了根据本申请的文件的病毒检测方法的一个实施例的方法流程200。上述的文件的病毒检测方法,包括以下步骤:步骤201,从待检测文件中提取出特征信息。在本实施例中,用户所使用的电子设备(例如图1所示的服务器)可以从本地或者远程地获取待检测文件。并从待检测文件中提取出特征信息。上述特征信息用于表征上述待检测文件的运行行为。病毒在文件中运行时,会具有区别于文件正常运行的数据行为;而当文件运行时存在非文件正常运行的数据行为时,不一定都是病毒运行行为。因此,当发现待检测文件中存在非文件正常运行的数据行为时,提取对应非文件正常运行的数据行为的特征信息。步骤202,对上述特征信息进行归一化处理,得到对应上述特征信息的归一化数据。特征信息对应非文件正常运行的数据行为,特征信息对应的数据信息通常都是不规则的数据,这些数据信息之间的数量级往往差别很大,如果直接对特征信息进行病毒识别,往往会忽略掉很多病毒信息。因此,需要对上述特征信息进行归一化处理(即,将特征信息的取值划归到0和1之间或-1和1之间),从而实现对不同数量级的特征信息进行相同的病毒检测。步骤203,将上述归一化数据转换为二进制数据,将上述二进制数据导入预先训练的病毒检测模型进行病毒检测得到病毒检测结果。归一化数据通常是十进制的数据形式,为了加快数据处理过程,需要将归一化数据从十进制转换为二进制,将二进制的归一化数据输入到预先训练的病毒检测模型进行病毒检测得到病毒检测结果。在本实施例的一些可选的实现方式中,本实施例方法还包括建立病毒检测模型的步骤,如图2b所示,建立病毒检测模型的步骤可以包 括以下步骤:步骤2031,获取样本数据,上述样本数据的数量大于设置值。要想得到精确的病毒检测模型,需要获得足够过的样本。本实施例的样本数据借助于大数据库,能够获取到107个或更多到样本数据,保证了样本数据能够覆盖各种可能到病毒文件。步骤2032,对上述样本数据进行病毒检测,得到对应上述样本数据的风险等级标签。获取到样本数据后,需要对样本数据进行病毒检本文档来自技高网...
文件的病毒检测方法及装置

【技术保护点】
一种文件的病毒检测方法,其特征在于,所述方法包括:从待检测文件中提取出特征信息,所述特征信息用于表征所述待检测文件的运行行为;对所述特征信息进行归一化处理,得到对应所述特征信息的归一化数据;将所述归一化数据转换为二进制数据,将所述二进制数据导入预先训练的病毒检测模型进行病毒检测得到病毒检测结果。

【技术特征摘要】
1.一种文件的病毒检测方法,其特征在于,所述方法包括:从待检测文件中提取出特征信息,所述特征信息用于表征所述待检测文件的运行行为;对所述特征信息进行归一化处理,得到对应所述特征信息的归一化数据;将所述归一化数据转换为二进制数据,将所述二进制数据导入预先训练的病毒检测模型进行病毒检测得到病毒检测结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括建立病毒检测模型的步骤,所述建立病毒检测模型的步骤包括:获取样本数据,所述样本数据的数量大于设置值;对所述样本数据进行病毒检测,得到对应所述样本数据的风险等级标签,所述风险等级标签用于表征样本数据为病毒数据的可能性;对所述样本数据进行归一化处理,得到对应所述样本数据的样本归一化数据,所述样本归一化数据包括所述风险等级标签;将所述样本归一化数据转换成二进制数据,并将所述二进制数据输入深度学习神经网络,得到多个预选病毒检测模型;通过设定指标对所述预选病毒检测模型进行打分排序,将得分最高的预选病毒检测模型作为最终的病毒检测模型。3.根据权利要求2所述的方法,其特征在于,所述对所述样本数据进行归一化处理,得到对应所述样本数据的样本归一化数据包括:获取所述样本归一化数据的分布曲线,其中所述分布曲线用于表征样本归一化数据在数据区间上的分布趋势;若所述分布曲线无法拟合成正态分布曲线,则在所述样本归一化数据对应的数据区间设置数据插入点,其中,所述数据插入点用于将所述数据区间平均分成设定个数据区间段。4.根据权利要求3所述的方法,其特征在于,所述对所述样本数据进行归一化处理,得到对应所述样本数据的样本归一化数据还包括:若所述数据区间段内的样本归一化数据的分布曲线无法拟合成正态分布曲线,则在所述数据区间上增加数据插入点,直到数据区间段内的样本归一化数据的分布曲线拟合成正态分布曲线。5.根据权利要求2所述的方法,其特征在于,在步骤对所述样本数据进行归一化处理,得到对应所述样本数据的样本归一化数据,和步骤将所述样本归一化数据转换成二进制数据之间还包括:按照所述风险等级标签对样本归一化数据进行随机排序。6.根据权利要求3所述的方法,其特征在于,所述将所述二进制数据输入深度学习神经网络,得到多个预选病毒检测模型包括:在深度学习神经网络的第一隐层和第二隐层分别设置relu函数和双曲正切函数作为激活函数。7.根据权利要求3所述的方法,其特征在于,所述将所述二进制数据输入深度学习神经网络,得到多个预选病毒检测模型包括:在深度学习神经网络设置残留层,通过所述残留层调整所述深度学习神经网络的输入输出关系,所述残留层用于通过深度学习神经网络的输入数据对深度学习神经网络的输出数据进行修正。8.一种文件的病毒检测装置...

【专利技术属性】
技术研发人员:刘金克吕钦侯柳平王磊周杰
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1