基于特征工程和表示学习的机器行为识别方法技术

技术编号:30699406 阅读:30 留言:0更新日期:2021-11-06 09:35
基于特征工程和表示学习的机器行为识别方法,由三个步骤构成:步骤一,对大数据进行分析,通过时间、频次等多维度的信息,建立3σ模型,用于确定机器行为的访问时间频段,在机器行为的访问时间频段下,通过分组聚合等方式,归纳总结提取出基于机器行为的特征;步骤二,并通过查阅API文档、软件模拟复现、官方的RFC文档等方式对行为进行定义和命名,整合成一组完备的机器行为特征,完成基于特征工程机器行为识别工作;步骤三,对识别效果不佳的模型加入与其他行为存在交集的特征,去排除其他行为,以提高准确率。以提高准确率。以提高准确率。

【技术实现步骤摘要】
基于特征工程和表示学习的机器行为识别方法


[0001]本专利技术涉及HTTP协议中机器行为识别领域,特别涉及基于特征工程和表示学习的机器行为识别方法。

技术介绍

[0002]随者互联网技术的发展,大型软件、门户网站以及小程序的数量不断增加。由于上述程序软件大多数业务的网络数据交换基于HTTP协议,因此,基于HTTP协议的URL请求日志也呈现爆发式增长。同时,手机、平板电脑等新兴移动终端的增加也促使网络访问不再受限于传统的计算机终端,而是呈现出客户端的多元化趋势,这一改变也加速了多网络下HTTP协议的URL日志请求数量激增。由于终端性能逐渐增强,诸如自动化获取文本,统计记录及测试连接等机器行为也越发增长,因此,随之而来的请求日志数量也越来越大。就目前而言,该领域的分析多集中在URL的恶意攻击上,如DDOS攻击,SQL注入攻击等行为,对于本文所研究的机器行为分析还是空白。因此,为筛选出用户正常的点击访问网页行为,并对其进行下钻分析,本文提出一种方法,用来识别上述的机器行为。
[0003]在URL的机器行为分析领域,目前大部分的分析都是基于攻击行为发起的。人们通过计算单一时间粒度下的IP访问URL频次或者是通过查询D段下的IP数量访问URL的频次等设置阈值的方法来判定是否是DDOS攻击行为,而对于SQL攻击等行为,则是根据一些样本数据集通过特征工程的方法或者是表示学习的方法对样本进行标注,最终实现对于以上攻击行为的判定。并不存在一种方法去判定是否存在本文所述的机器行为。

技术实现思路

[0004]为解决上述现有技术存在的问题,本专利技术的目的在于提供基于特征工程和表示学习的机器行为识别方法。
[0005]为达到上述目的,本专利技术的技术方案为:
[0006]基于特征工程和表示学习的机器行为识别方法,由三个步骤构成:
[0007]步骤一,对大数据进行分析,通过时间、频次等多维度的信息,建立3σ模型,用于确定机器行为的访问时间频段,在机器行为的访问时间频段下,通过分组聚合等方式,归纳总结提取出基于机器行为的特征;
[0008]步骤二,并通过查阅API文档、软件模拟复现、官方的RFC文档等方式对行为进行定义和命名,整合成一组完备的机器行为特征,完成基于特征工程机器行为识别工作;
[0009]步骤三,对识别效果不佳的模型加入与其他行为存在交集的特征,去排除其他行为,以提高准确率。
[0010]进一步的,所述步骤一中,基于机器行为的特征具体包括:1、爬虫行为;2、Track

Peer服务器通信行为的URL参数特征;3、流量/埋点统计行为包含的URL参数特征;4、暴力域名解析行为包括的域名特征;5、测试行为特征。
[0011]进一步的,所述的五个行为及其所包含的特征组成了一个完备的知识库;其中对
于流量/埋点统计行为的规则中包含了Track

Peer服务器通信行为导致的效果不佳问题,加入了对于排除Track

Peer服务器通信行为参数的限制规则。
[0012]进一步的,所述爬虫行为具体包括:URL特征、源IP特征、UA特征。
[0013]进一步的,所述测试行为特征具体为URL特征。
[0014]进一步的,所述步骤一具体为:在海量的数据中,依靠spark等计算工具统计在以时间粒度为1秒的情况下单一IP的URL访问次数,并通过3σ模型分析在以时间粒度为1秒的情况下出现单一IP访问URL可能出现的机器行为日志时间段。将这部分日志进行多维度的统计,即通过URL、UserAgent、RequestLine、源IP、目标IP、源IP地理位置、目标IP地理位置、源IP端口号、目标IP端口号这部分数据进行分析;具体步骤如下:
[0015]设X为数据集、i为第i秒段、X
i
为第i秒段下URL的访问次数;μ为E(X)即每秒URL访问量的数学期望,σ为D(X)即在每秒URL访问量的方差;通过公式(1)计算
[0016][0017]由此得到关于时间

频次分布图;根据单侧置信区间公式,对于服从正态分布的秒段数据集X即X~N(μ,σ)对其中大于3σ的秒段认定可能存在机器行为;
[0018]对机器行为可能存在的X1、X2、X3......X
n
秒段进行下一步分析,分别对X1、X2、X3......X
n
秒段内的源IP、URL、UserAgent等数据进行数据聚合,由于数据量过于庞大,一般的数据分析软件如Python单机下内存受到限制,故无法处理上述超过100GB的数据;需应用Spark的Yarn

Cluster进行数据分析,如应用GroupByKey算子、ReduceByKey算子、SortBy算子对数据进行多维度分析;
[0019]应用数理统计的基本原理及基础的分析可知,单一源IP(即一位用户)无法在一秒内访问过多的目的URL;由此定位到机器行为可能出现的源IP,并通过UserAgent、URL字段进行统计和查询,对其中的共性特征进行下一步的下钻分析;得出以下关于机器行为的特征;
[0020]通过以上的分析步骤分析一批拦截日志得到以下的机器行为可能存在的区域并通过查阅API文档、软件模拟复现、检索官方的RFC文档等方式,提取到了以下几种机器行为的特征;
[0021]爬虫行为
[0022]大型搜索平台为满足用户搜索服务进行的页面预缓存行为;特征包括
[0023]a)访问域名下的robots.txt爬虫配置文件;
[0024]b)UserAgent标注{CompanyName}+{Spider/Bot/Crawl}+{CompanyURL};
[0025]c)源IP字段为特定的搜索引擎公司网段;
[0026]d)计算IP的活跃时长,对活跃IP进行判断;
[0027]Track

Peer服务器通信行为
[0028]一种用于P2P服务器通信的约定格式用于数据Track与Peer、Peer与Peer的消息传递;特征包括
[0029]a)参数info_hash:种子文件对应的hash值(20字节)
[0030]b)参数peer_id:随机标识符,表示自身的请求(20字节)
[0031]c)参数port:主机监听端口号,用与同其他peer的连接请求
[0032]d)参数uploaded:当前上传总量
[0033]e)参数downloaded:当前下载总量
[0034]f)参数left:剩余下载量,即总量

已下载量
[0035]g)参数compact:Track服务器反馈当前peer的方式
[0036]h)参数event:主机的下载状态
[0037]i)参数ip:可选,主机ip地址
[0038]j)参数numwant:可选,Track服务器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于特征工程和表示学习的机器行为识别方法,其特征在于,由三个步骤构成:步骤一,对大数据进行分析,通过时间、频次等多维度的信息,建立3σ模型,用于确定机器行为的访问时间频段,在机器行为的访问时间频段下,通过分组聚合等方式,归纳总结提取出基于机器行为的特征;步骤二,并通过查阅API文档、软件模拟复现、官方的RFC文档等方式对行为进行定义和命名,整合成一组完备的机器行为特征,完成基于特征工程机器行为识别工作;步骤三,对识别效果不佳的模型加入与其他行为存在交集的特征,去排除其他行为,以提高准确率。2.根据权利要求1所述方法,其特征在于,所述步骤一中,基于机器行为的特征具体包括:(1)、爬虫行为;(2)、Track

Peer服务器通信行为的URL参数特征;(3)、流量/埋点统计行为包含的URL参数特征;(4)、暴力域名解析行为包括的域名特征;(5)、测试行为特征。3.根据权利要求2所述方法,其特征在于,所述的五个行为及其所包含的特征组成了一个完备的知识库;其中对于流量/埋点统计行为的规则中包含了Track

Peer服务器通信行为导致的效果不佳问题,加入了对于排除Track

Peer服务器通信行为参数的限制规则。4.根据权利要求1所述方法,其特征在于,所述爬虫行为具体包括:URL特征、源IP特征、UA特征。5.根据权利要求1所述方法,其特征在于,所述测试行为特征具体为URL特征。6.根据权利要求1所述方法,其特征在于,所述步骤一具体为:在海量的数据中,依靠spark等计算工具统计在以时间粒度为1秒的情况下单一IP的URL访问次数,并通过3σ模型分析在以时间粒度为1秒的情况下出现单一IP访问URL可能出现的机器行为日志时间段。将这部分日志进行多维度的统计,即通过URL、UserAgent、RequestLine、源IP、目标IP、源IP地理位置、目标IP地理位置、源IP端口号、目标IP端口号这部分数据进行分析;具体步骤如下:设X为数据集、i为第i秒段、X
i
为第i秒段下URL的访问次数;μ为E(X)即每秒URL访问量的数学期望,σ为D(X)即在每秒URL访问量的方差;通过公式计算由此得到关于时间

频次分布图;根据单侧置信区间公式,对于服从正态分布的秒段数据集X即X~N(μ,σ)对其中大于3σ的秒段认定可能存在机器行为;对机器行为可能存在的X1、X2、X3......X
n
秒段进行下一步分析,分别对X1、X2、X3......X
n
秒段内的源IP、URL、UserAgent等数据进行数据聚合,由于数据量过于庞大,一般的数据分析软件如Python单机下内存受到限制,故无法处理上述超过100GB的数据;需应用Spark的Yarn

Cluster进行数据分析,如应用GroupByKey算子、ReduceByKey算子、SortBy算子对数据进行多维度分析;应用数理统计的基本原理及基础的分析可知,单一源IP(即一位用户)无法在一秒内访问过多的目的URL;由此定位到机器行为可能出现的源IP,并通过UserAgent、URL字段进行统计和查询,对其中的共性特征进行下一步的下钻分析;得出以下关于机器行为的特征;通过以上的分析步骤分析一批拦截日志得到以下的机器行为可能存在的区域并通过
查阅API文档、软件模拟复现、检索官方的RFC文档等方式,提取到了以下几种机器行为的特征;爬虫行为大型搜索平台为满足用户搜索服务进行的页面预缓存行为;特征包括a)访问域名下的robots.txt爬虫配置文件;b)UserAgent标注{CompanyName}+{Spider/Bot/Crawl}+{CompanyURL};c)源IP字段为特定的搜索引擎公司网段;d)计算IP的活跃时长,对活跃IP进行判断;Track

Peer服务器通信行为一种用于P2P服务器通信的约定格式用于数据Track与Peer、Peer与Peer的消息传递;特征包括a)参数info_hash:种子文件对应的hash值(20字节)b)参数peer_id:随机标识符,表示自身的请求(20字节)c)参数port:主机监听端口号,用与同其他peer的连接请求d)参数uploaded:当前上传总量e)参数downloaded:当前下载总量f)参数left:剩余下载量,即总量

已下载量g)参数compact:Track服务器反馈当前peer的方式h)参数event:主机的下载状态i)参数ip:可选,主机ip地址j)参数numwant:可选,Track服务器反馈peer的数量k)参数key:可选,随机标识符l)UserAgent包含torrent、player字样流量/埋点统计行为一种为实现用户行为统计、数据分析等为目的的第三方网站统计行为;特征包括a)参数含有上一跳地址b)参数含有目标域名的URLc)参数含有时间戳d)参数含有IP地址e)参数含有UserAgent字段f)参数含有系统名称g)参数含有屏幕尺寸h)参数含有用户动作i)参数含有目标域名在统计网站的编码IDj)URL存在特定的统计网站域名暴力域名解析行为以获取某一域名下的子域名,或某一级域名为目的的域名检索行为;多存在于DNS解析过程而少部分存在于URL表中;特征包括a)同一时间粒度下源IP访问次数多
b)同一源IP访问了同一域名下的不同子域名测试行为测试行为包括了特定软件的测试行为以及服务器的测试行为,由于测试行为是由机器触发并存在失败重连规则,因此会导致日志量的激增;测试行为包括代理服务器连接测试、谷歌浏览器内核测试行为、DNS服务商IP测试行为、服务器测试行为;

...

【专利技术属性】
技术研发人员:郭承禹潘进王磊刘洋张翠谢程利辛永辉
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1