基于DNS流量特征的僵尸网络检测方法技术

技术编号：13595578 阅读：79 留言：0更新日期：2016-08-26 12:21

一种基于DNS流量特征的僵尸网络检测方法，包括：基于DNS流量特征的Domain‑Flux僵尸网络检测方法：将合法主域名和非法主域名组合起来形成目标集合；处理提取长度大于6的域名作为研究对象；分别计算域名熵值、构词法特征、语音特征和分组特征；放入随机森林分类器得到训练模型。基于Domain‑Flux僵尸网络检测方法的Fast‑Flux僵尸网络检测方法：将DNS服务器的原始数据进行处理；使用前面得到的训练模型对预处理的域名进行评估，获取DGA情况的打分；使用白名单、黑名单和灰名单对域名和IP进行评分；计算IP地址的时间特性；计算IP地址的稳定性；放入随机森林分类器得到训练模型SFF。本发明专利技术实验的准确率较高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种DNS域名技术和机器学习系分类算法。特别是涉及一种基于DNS流量特征的僵尸网络检测方法。
技术介绍
在目前的域名生成技术中，主要有：(1)Domain-Flux技术：Domain-Flux指不停的改变和分配多个域名到一个或多个IP的行为。(2)Fast-Flux技术：此技术有两种：Single-Flux域名技术和Double-Flux域名技术。Single-Flux域名技术可以类比Tor网络来看，在基于Single-Flux域名技术的僵尸网络中的每一个僵尸主机都是一个重定向节点，这样基于不同僵尸主机的重定向实现最优寻址的过程，一方面避免单一节点对整个僵尸网络的影响，另一方面也使得研究者难以循迹。Double-Flux相比于Single-Flux增加了一个可控的DNS服务层，控制者可以控制域名的修改和发布权限，而不是使用公用的域名提供商的解析服务。解析服务器是Double-Flux架构的一部分，然而解析服务器的地址也是不断变换的。分类算法在很多领域都有较广泛的应用，尤其是在数据挖掘领域，在数据挖掘领域，分类算法一般是通过概率论中的各种统计模型实现。其中常用的分类器有：(1)决策树：决策树算法是常用的分类和预测的方法技术。决策树算法是通过对一组无规则且无序的数据进行推理和演算，从已知实例数据中通过推演得出决策树分类的一些分类规则。(2)随机森林：随机森林实质上是一个包括多个决策树算法的分类器。随机森林通过构建决策树，得到决策树森林。随机森林中的各个决策树之间是没有关系的。一颗完整的决策树森林构建完成后，对于一个输入数据样本，在随机森林中的多...

【技术保护点】
一种基于DNS流量特征的Domain‑Flux僵尸网络检测方法，其特征在于，包括如下步骤：1)读取域名，包括读取合法域名，并提取合法主域名，以及读取DGA算法生成的非法域名，并抽取非法主域名，将合法主域名和非法主域名组合起来，形成目标集合；2)对获得的目标集合进行处理，提取处理后的每个域名的长度，并抽取长度大于6的域名作为研究对象；3)分别计算域名熵值、构词法特征、语音特征和分组特征，用来识别DGA算法生成的随机域名；4)将得到的域名熵值、构词法特征、语音特征和分组特征分为训练集和测试集，然后放入随机森林分类器得到训练模型mDGA。

【技术特征摘要】
1.一种基于DNS流量特征的Domain-Flux僵尸网络检测方法，其特征在于，包括如下步骤：1)读取域名，包括读取合法域名，并提取合法主域名，以及读取DGA算法生成的非法域名，并抽取非法主域名，将合法主域名和非法主域名组合起来，形成目标集合；2)对获得的目标集合进行处理，提取处理后的每个域名的长度，并抽取长度大于6的域名作为研究对象；3)分别计算域名熵值、构词法特征、语音特征和分组特征，用来识别DGA算法生成的随机域名；4)将得到的域名熵值、构词法特征、语音特征和分组特征分为训练集和测试集，然后放入随机森林分类器得到训练模型mDGA。2.根据权利要求1所述的基于DNS流量特征的僵尸网络检测方法，其特征在于，步骤2)所述的处理包括去除杂数据，并将数据用逗号分为序号部分和域名部分。3.根据权利要求1所述的基于DNS流量特征的僵尸网络检测方法，其特征在于，步骤3)所述的计算域名熵值是采用香农信息熵的方法计算域名熵，如下公式所示：E=-ΣiciLlogciL---(1)]]>其中，E为域名的香农信息熵，即字符串中不同字符出现的离散情况，L是字串的长度，Ci是字母i出现次数，字母i为变量代表的是字符串中出现的字母；所述的计算构词法特征，是采用N-gram的基本模型，用来评估一个句子出现的概率，设定一个域名表示为一个序列S＝w1w2w3...wn，则域名的概率p(S)，即，构词法特征表示为如下公式：p(S)=Πi=1np(wi|w1w2w3...wi-1)---(2)]]>其中wi表示第i个字母出现的概率，n为序列S的长度，字母i为变量代表的是字符串中出现的字母；所述的语音特征，是选用元音字母的个数和域名总长度的比例作为元音字母的统计特性，即语音特征，如下公式所示：E=-ΣidiLlogdiL---(3)]]>其中di表示元音字母出现的次数，L为字串的长度，E即为元音字母的熵；所述的分组特征，是提取每个域名按照数字和字母分割的部分数目。4.一种基于要求1所述的基于DNS流量特征的Domain-Flux僵尸网络检测方法的Fast-Flux僵尸网络检测方法，其特征在于，包括如下步骤：1)将DNS服务器的原始数据使用Passivedns工具处理，只保留DNS服务器返回的A记录，并对原始数据进行预处理；2)使用针对Domain-Flux僵尸网络检测方法中通过随机森林分类器得到的训练模型对预处理的域名进行评估，获取DGA情况的打分；3)使用白名单、黑名单和灰名单对域名和IP进行评分，然后再进行交叉评分得到域名的置信度，其中，所述的白名单表示具有安全性的服务器主站的域名和IP，所述...

【专利技术属性】
技术研发人员：喻梅，李鑫，于健，王建荣，赵越，雷霆，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人