本申请公开了一种字典生成方法、域名检测方法、装置、设备及介质,包括:对收集到的域名集中的域名进行分词;以分词后得到的单词作为顶点,并根据域名中存在拼接关系的单词对相应的顶点进行连线,以生成所述域名集对应的连通子图集;确定所述连通子图集中每个连通子图的图形统计指标;基于所述图形统计指标确定每个所述连通子图的类别标签,并利用类别标签为DGA标签的所述连通子图构造字典,以通过所述字典确定待检测域名是否为DGA域名。本申请可以允许在第一时间利用黑客新产生的域名来构造域名检测字典,从而能够将黑客所使用的更换后的域名生成字典及时地纳入本申请所构造的域名检测字典,进而避免新产生的DGA域名的类型长期得不到有效的识别。型长期得不到有效的识别。型长期得不到有效的识别。
【技术实现步骤摘要】
字典生成方法、域名检测方法、装置、设备及介质
[0001]本申请涉及计算机
,特别涉及一种字典生成方法、域名检测方法、装置、设备及介质。
技术介绍
[0002]在DGA(即Domain Generation Algorithm,域名生成算法)家族的域名中,有一种类型的域名是以单词拼接方式生成的,它是归属于suppobox家族的域名。这种DGA域名的构造特点是由两个随机单词组成,如heavengarden.net、heavyneighbor.net等。这种类型的DGA域名很难从文法特征上与其他诸如facebook.com、stackexchange.com等真实合法域名进行区分。
[0003]为了检测DGA域名,现有所采用的检测手段是:利用预设的历史DGA域名构造用于检测域名类型的字典,然后利用上述域名检测字典去检测一个未知类型的域名是否为DGA域名。由于在构造上述域名检测字典之前,需要先确定出域名的类型,如果某个域名的类型未知,则不会利用它来构造上述域名检测字典。这直接导致了,如果黑客更换了用来生成DGA域名的字典,那么此时新产生的DGA域名很难通过上述域名检测字典来进行检测,导致域名类型不明,因此,人们也就不会利用当前黑客基于新的域名生成字典产生的DGA域名来构造域名检测字典,从而导致上述新产生的DGA域名的类型长期得不到有效识别,降低了上述手段的泛化能力。
技术实现思路
[0004]有鉴于此,本申请的目的在于提供一种字典生成方法、域名检测方法、装置、设备及介质,能够避免新产生的DGA域名的类型长期得不到有效识别。
[0005]其具体方案如下:
[0006]第一方面,本申请公开了一种字典生成方法,包括:
[0007]对收集到的域名集中的域名进行分词;
[0008]以分词后得到的单词作为顶点,并根据域名中存在拼接关系的单词对相应的顶点进行连线,以生成所述域名集对应的连通子图集;
[0009]确定所述连通子图集中每个连通子图的图形统计指标;
[0010]基于所述图形统计指标确定每个所述连通子图的类别标签,并利用类别标签为DGA标签的所述连通子图构造字典,以通过所述字典确定待检测域名是否为DGA域名。
[0011]可选的,所述对收集到的域名集中的域名进行分词之前,还包括:
[0012]收集与主机对应的域名集;
[0013]对所述域名集中的域名进行信息过滤,以保留所述域名集中的顶级域名和/或二级域名。
[0014]可选的,所述以分词后得到的单词作为顶点,并根据域名中存在拼接关系的单词对相应的顶点进行连线,以生成所述域名集对应的连通子图集,包括:
[0015]以分词后得到的单词为顶点,根据域名中存在拼接关系的单词对相应的顶点进行连线,得到初始连通子图集;
[0016]分别剔除所述初始连通子图集中每个初始连通子图的顶点度小于预设顶点度阈值的顶点,以得到所述域名集对应的连通子图集;其中,所述顶点度为顶点的连线数量。
[0017]可选的,所述确定所述连通子图集中每个连通子图的图形统计指标,包括:
[0018]确定所述连通子图集中每个连通子图的平均节点度、最大节点度、环个数、环点比以及顶点之间的平均最短距离中的任意一个或多个图形统计指标;
[0019]其中,所述平均节点度为连通子图中所有连线的数量与所有顶点的数量之间的比值;所述最大节点度为连通子图中具有最多连线的顶点的连线数量;所述环个数为连通子图中闭合回路的数量;所述环点比为连通子图中闭合回路的数量与顶点的数量的比值。
[0020]可选的,所述基于所述图形统计指标确定每个所述连通子图的类别标签,并利用类别标签为DGA标签的所述连通子图构造字典,包括:
[0021]利用所述连通子图、所述图形统计指标以及预设的基于所述图形统计指标的分类依据,训练决策树模型,以确定出每个所述连通子图的类别标签;
[0022]将所述决策树模型中类别标签为DGA标签的所述连通子图的顶点抽取出来作为字典内容,以得到所述字典。
[0023]第二方面,本申请公开了一种基于字典的域名检测方法,所述字典为利用前述字典生成方法生成的字典;其中,所述域名检测方法包括:
[0024]获取待检测域名;
[0025]对所述待检测域名进行分词,得到待检测单词;
[0026]搜索所述字典中是否存在所述待检测单词,并基于搜索结果判断所述待检测域名是否为DGA域名。
[0027]可选的,所述基于搜索结果判断所述待检测域名是否为DGA域名,包括:
[0028]若每个所述待检测单词均位于所述字典中,则判定所述待检测域名为DGA域名。
[0029]可选的,所述对所述待检测域名进行分词之前,还包括:
[0030]对所述待检测域名进行解析;
[0031]若解析失败,则启动所述对所述待检测域名进行分词的步骤;
[0032]若解析成功,则判定所述待检测域名为非DGA域名,并结束。
[0033]可选的,所述基于搜索结果判断所述待检测域名是否为DGA域名,包括:
[0034]若所述字典中不存在所述待检测单词,则判定所述待检测域名为非DGA域名;
[0035]若所述字典中存在所述待检测单词,则判断所述字典中的域名数量是否大于预设阈值,如果是则判定所述待检测域名为DGA域名。
[0036]第三方面,本申请公开了一种字典生成装置,包括:
[0037]域名分词模块,用于对收集到的域名集中的域名进行分词;
[0038]图形构建模块,用于以分词后得到的单词作为顶点,并根据域名中存在拼接关系的单词对相应的顶点进行连线,以生成所述域名集对应的连通子图集;
[0039]特征确定模块,用于确定所述连通子图集中每个连通子图的图形统计指标;
[0040]字典构造模块,用于基于所述图形统计指标确定每个所述连通子图的类别标签,并利用类别标签为DGA标签的所述连通子图构造字典,以通过所述字典确定待检测域名是
否为DGA域名。
[0041]第四方面,本申请公开了一种基于字典的域名检测装置,所述字典为前述字典生成装置输出的字典,所述域名检测装置包括:
[0042]域名获取模块,用于获取待检测域名;
[0043]域名分词模块,用于对所述待检测域名进行分词,得到待检测单词;
[0044]域名检测模块,用于搜索所述字典中是否存在所述待检测单词,并基于搜索结果判断所述待检测域名是否为DGA域名。
[0045]第五方面,本申请公开了一种电子设备,所述电子设备包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述方法。
[0046]第六方面,本申请公开了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述方法。
[0047]本申请在构造字典时,先对收集到的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种字典生成方法,其特征在于,包括:对收集到的域名集中的域名进行分词;以分词后得到的单词作为顶点,并根据域名中存在拼接关系的单词对相应的顶点进行连线,以生成所述域名集对应的连通子图集;确定所述连通子图集中每个连通子图的图形统计指标;基于所述图形统计指标确定每个所述连通子图的类别标签,并利用类别标签为DGA标签的所述连通子图构造字典,以通过所述字典确定待检测域名是否为DGA域名。2.根据权利要求1所述的字典生成方法,其特征在于,所述对收集到的域名集中的域名进行分词之前,还包括:收集与主机对应的域名集;对所述域名集中的域名进行信息过滤,以保留所述域名集中的顶级域名和/或二级域名。3.根据权利要求1所述的字典生成方法,其特征在于,所述以分词后得到的单词作为顶点,并根据域名中存在拼接关系的单词对相应的顶点进行连线,以生成所述域名集对应的连通子图集,包括:以分词后得到的单词为顶点,根据域名中存在拼接关系的单词对相应的顶点进行连线,得到初始连通子图集;分别剔除所述初始连通子图集中每个初始连通子图的顶点度小于预设顶点度阈值的顶点,以得到所述域名集对应的连通子图集;其中,所述顶点度为顶点的连线数量。4.根据权利要求1所述的字典生成方法,其特征在于,所述确定所述连通子图集中每个连通子图的图形统计指标,包括:确定所述连通子图集中每个连通子图的平均节点度、最大节点度、环个数、环点比以及顶点之间的平均最短距离中的任意一个或多个图形统计指标;其中,所述平均节点度为连通子图中所有连线的数量与所有顶点的数量之间的比值;所述最大节点度为连通子图中具有最多连线的顶点的连线数量;所述环个数为连通子图中闭合回路的数量;所述环点比为连通子图中闭合回路的数量与顶点的数量的比值。5.根据权利要求1至4任一项所述的字典生成方法,其特征在于,所述基于所述图形统计指标确定每个所述连通子图的类别标签,并利用类别标签为DGA标签的所述连通子图构造字典,包括:利用所述连通子图、所述图形统计指标以及预设的基于所述图形统计指标的分类依据,训练决策树模型,以确定出每个所述连通子图的类别标签;将所述决策树模型中类别标签为DGA标签的所述连通子图的顶点抽取出来作为字典内容,以得到所述字典。6.一种基于字典的域名检测方法,其特征在于,所述字典为利用权利要求1至5任一项所述方法生成的字典;其中,所述域名检测方...
【专利技术属性】
技术研发人员:雷昕,闫凡,古亮,
申请(专利权)人:深信服科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。