当前位置: 首页 > 专利查询>西兰克公司专利>正文

利用深度生成模型检测恶意软件制造技术

技术编号:31159718 阅读:20 留言:0更新日期:2021-12-04 10:23
本公开的实施例涉及利用深度生成模型检测恶意软件。特征从制品中被提取出使得向量可以被填充。该向量被然后输入到异常检测模型中,该异常检测模型包括用以生成第一得分的深度生成模型。该第一得分可以将制品表征为对于访问、执行、或继续执行是恶意的或良性的。此外,向量被输入到基于机器学习的分类模型中,以生成第二得分。该第二得分也可以将制品表征为对于访问、执行、或继续执行是恶意的或良性的。该第二得分可以基于第一得分被修改以得到最终得分。最终得分可以然后被提供给消费应用或过程。还描述了相关的装置、系统、技术和制品。品。品。

【技术实现步骤摘要】
利用深度生成模型检测恶意软件


[0001]本文描述的主题涉及用于使用深度生成模型表征可能为恶意的制品(artifact)的增强技术。

技术介绍

[0002]黑客们在通过开发恶意软件来访问各种计算系统的尝试方面变得越发老练,这些恶意软件被设计成欺骗或以其他方式绕过传统防病毒解决方案。特别地,对抗技术被采用,其中各种制品封装恶意软件被迭代地且自动地修改,直到当这种制品被防病毒软件不正确地分类为良性的时候为止。同时,恶意软件检测系统变得越发多模式(multimodal),在做出最终判定时会整合来自多个异构信息源的信息。

技术实现思路

[0003]在第一方面,制品被接收。此后,特征会被从制品中提取,使得向量可以被填充。该向量然后被输入到异常检测模型中,该异常检测模型包括用以生成第一得分的深度生成模型。该第一得分可以将该制品表征为对于访问、执行、或继续执行是恶意的或良性的。此外,该向量被输入到基于机器学习的分类模型中,以生成第二得分。该第二得分也可以将该制品表征为对于访问、执行、或继续执行是恶意的或良性的。第二得分然后基于第一得分被修改,以得到最终得分。然后,该最终得分可以被提供给消费应用或过程。
[0004]深度生成模型可以是基于似然度的模型。在一些变型中,该基于似然度的模型包括变分自编码器和/或归一化流。
[0005]异常检测模型可以形成模型集合的一部分,该模型集合包括从以下组中选择的至少一个机器学习模型,该组包括:逻辑回归模型、神经网络、卷积神经网络、递归神经网络、生成对抗网络、支持向量机、随机森林和/或贝叶斯模型。
[0006]在向量被输入异常检测模型和/或分类模型之前,使用特征减少操作,向量中的特征可以被减少。该特征减少操作可以包括以下一项或多项:随机投影、特征哈希、确定性主成分分析、或随机性主成分分析。
[0007]该修改可以包括组合第一得分和第二得分。
[0008]该修改可以包括当第一得分高于阈值时,覆写第二得分。在这种情况下,第二得分可以被基线得分或先前得分替换作为最终得分。
[0009]该修改可以包括将权重应用于第二得分,该权重是变化的,并且是基于第一得分的。
[0010]在一些变型中,多个不同向量被创建,这些向量依次被对应的分类模型和/或异常检测模型分析。被用于生成最终得分的分类模型的输出的权重可以是变化的,并且是基于(多个)第一得分的。
[0011]该修改可以包括将权重应用于第二得分,该第二得分是变化的且基于第一得分的,并且将加权的第二得分和基线得分组合。
[0012]该修改可以包括当第一得分高于阈值时,将向量传送给第二分类模型以用于分类,其中第二分类模型的输出被用于生成最终得分。相比于分类模型,第二分类模型可以是在计算上更密集的。第二分类模型被计算设备执行,计算设备也执行分类模型。备选地,第二分类模型可以被计算设备执行,该计算设备远离执行分类模型的计算设备。
[0013]本文也描述了存储指令的非暂态计算机程序产品(即物理实施的计算机程序产品),这些指令在由一个或多个计算系统中的一个或多个数据处理器执行时,使至少一个数据处理器执行本文的操作。类似地,还描述了计算机系统,其可以包括一个或多个数据处理器和存储器,该存储器被耦合到该一个或多个数据处理器。存储器可以暂时地或永久地存储指令,这些指令使至少一个处理器执行本文所描述的操作中的一个或多个操作。此外,方法可以由一个或多个数据处理器实现,该一个或多个数据处理器在单个计算系统内,或者在两个或更多个计算系统中分布。经由一个或多个连接,这种计算系统可以被连接,并且可以交换数据和/或命令或其他指令等,这些连接包括但不限于网络上的连接(例如,因特网、无线广域网、局域网、广域网、有线网络等),经由多个计算系统中的一个或多个计算系统之间的直接连接等。
[0014]本文描述的主题提供了许多技术优点。例如,与传统技术相比,当前主题提供了可能为恶意的制品的更精确的分类。
[0015]本文所描述的主题的一个或多个变型的细节在附图和下面的说明书中被阐述。根据说明书、附图和权利要求书,本文所描述的主题的其他特征和优点将是明显的。
附图说明
[0016]图1是图示了用于将制品表征为恶意的或良性的、基于计算机的工作流程图。
[0017]图2是图示了使用深度生成模型的恶意软件检测的过程流程图;以及
[0018]图3是图示了可以用于实现本文主题各方面的计算设备的示意图。
具体实施方式
[0019]本文主题涉及用于使用深度生成模型来检测恶意软件(例如,恶意代码等)的增强技术。一旦通过使用这种模型,恶意软件在文件中被检测到,校正动作就可以被采取,诸如阻止访问这样的文件、停止执行这样的文件、和/或隔离该文件等。
[0020]判别模型(discriminative model)估计概率p(y|x),其中y为响应(诸如标签),且x为特征向量。相比之下,生成模型估计p(x),其中x为特征的向量(注意,如需要,那些特征之一可以为标签y)。判别模型的经典示例包括回归和多层感知器。生成模型的经典示例包括指数族分布和混合模型。
[0021]相对于判别模型,生成模型的优点为它们允许针对新样本计算异常得分。对于判别模型,不论特征向量x是正常的或异常的都是没有意义的,因为该模型采取的x为给定的。相比之下,生成模型可以评估特征的样本(再次,如需要,则包括类标签)是否异常。
[0022]如本文所提供的,针对恶意软件检测产品,对异常的这些评估是无价的。如果文件的对应特征看似是典型的,而不是那些特征看似异常,那么人们将对机器学习(ML)系统的表征或其组件之一会更有信心。这里突出显示两种场景,其中这种“信任”的评估可以增强分类:当保护免受对抗攻击时,以及当将多个模型集成到单个得分中时。
[0023]在基于ML的防病毒产品上的对抗攻击可能涉及转变坏文件的特征,直到他们被该产品表征为“好”为止。如果攻击成功,则该文件可以通过那些仅使用了判别模型的基于ML的防病毒产品。然而,考虑这些产物可以产生看起来高度不寻常的特征的制造组合。例如,可以执行“字符串填充”攻击,通过该攻击将许多字符串附加到恶意文件的末尾,这些字符串通常是好(goodness)的指示(诸如与视频游戏相关的术语)。这产生了具有奇异特征组合的文件,并且该文件将会被高质量异常检测器标记。
[0024]现在考虑多模式恶意软件检测系统,其跨多个异构信息源整合信息。例如,在恶意用户检测的上下文中,可能需要组合来自各种模型(过程、网络、击键、鼠标、登录、文件、注册表等)的得分。在恶意软件检测的上下文中,可能需要组合来自静态(即,预执行等)模型和动态(即,后执行等)模型的得分。在这种示例中,来自多个分类器的得分必须被组合到最终判定中。当这样做时,根据每个分类器输入的异常水平(高异常导致低权重),该分类器的得分可以被加权。因为高异常得分暗示这些输入是偏离分布的,该策略是合理的,因此该策略对于分类器模型是固有地未知的。注意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的方法,包括:接收制品;从所述制品中提取特征并填充向量;将所述向量输入到异常检测模型中,所述异常检测模型包括用以生成第一得分的深度生成模型,所述第一得分将所述制品表征为对于访问、执行、或继续执行是恶意的或良性的;将所述向量输入到基于机器学习的分类模型中,以生成第二得分,所述第二得分将所述制品表征为对于访问、执行、或继续执行是恶意的或良性的;基于所述第一得分来修改所述第二得分,以得到最终得分;以及向消费应用或过程提供所述最终得分。2.根据权利要求1所述的方法,其中所述深度生成模型是基于似然度的模型。3.根据权利要求2所述的方法,其中所述基于似然度的模型包括变分自编码器。4.根据权利要求2所述的方法,其中所述基于似然度的模型包括归一化流。5.根据权利要求1所述的方法,其中所述异常检测模型形成模型集合的一部分,所述模型集合包括从组中选择的至少一个机器学习模型,所述组包括:逻辑回归模型、神经网络、卷积神经网络、递归神经网络、生成对抗网络、支持向量机、随机森林、或贝叶斯模型。6.根据权利要求1所述的方法,还包括:在所述向量被输入到所述异常检测模型之前,使用特征减少操作来减少所述向量中的特征。7.根据权利要求6所述的方法,其中所述特征减少操作包括随机投影或特征哈希。8.根据权利要求6所述的方法,其中所述特征减少操作包括确定性或随机性主成分分析。9.根据权利要求1所述的方法,其中所述修改包括:组合所述第一得分和所述第二得分。10.根据权利要求1所述的方法,其中所述修改包括:当所述第一得分高于阈值时,覆写所述第二得分。11.根据权利要求1所述的方法,还包括:用基线得分替换所述第二得分,作为所述最终得分。12.根据权利要求1所述的方法,其中所述修改包括:将权重应用于所述第二得分,所述权重是可变的并且基于所述第一得分。13.根据权利要求1所述的方法,其中存在多个向量并且存在多个分类模型,并且其中所述模型包括:基于所述第一得分来将变化的权重应用于所述多个分类模型中的每个分类模型。14.根据权利要求1所述...

【专利技术属性】
技术研发人员:M
申请(专利权)人:西兰克公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1