一种异常文件访问行为监控方法和装置制造方法及图纸

技术编号:23558447 阅读:33 留言:0更新日期:2020-03-25 03:59
本发明专利技术一种异常文件访问行为监控方法,用以解决针对Linux服务器的异常文件删除、修改等行为的识别。该方法如下步骤:从历史日志中学习生成用户访问权限白名单;基于流式数据,通过多种系统日志关联分析,识别出流式数据中的文件访问行为;基于所述用户访问权限白名单过滤,识别异常删除、修改行为。该装置包含日志采集单元、离线训练单元和行为监控单元。与现有技术相比,本发明专利技术的有益效果是:1)可监控更加广泛的文件系统;2)通过机器学习算法生成白名单,过滤正常访问行为,减少误报率;3)基于流处理框架进行实时检测。

An abnormal file access behavior monitoring method and device

【技术实现步骤摘要】
一种异常文件访问行为监控方法和装置
本专利技术涉及日志大数据领域,尤其涉及一种异常文件访问行为监控方法和装置。
技术介绍
在操作系统运行过程中,用户的每次操作都会留下痕迹,这就是日志,每个日志文件由日志记录组成,其中每条日志记录对应一个单独发生的事件。日志系统是操作系统中一个非常重要的组成部分。它可以记录下用户产生的所有行为并按照规范格式表达出来。这种记录下来的信息,对于系统状态监控、系统安全审计和用户行为监控有着十分重要的意义。现有的基于日志的安全审计方法多是建立在日志记录完整的前提下,对多粒度的异常行为进行识别,具有极大的局限性,无法在攻击者实施攻击后删除或修改日志文件擦出攻击痕迹的情况下有效识别出攻击行为。因此,如何对文件系统进行监控,识别出非法删除修改行为是目前日志安全审计研究必须考虑的一个问题。在生产环境中,通常服务器集群的正常使用者会有一定的群组性特征,同一群组内的使用者具有相似业务背景,即具有相似访问行为。
技术实现思路
根据上述研究背景和问题,本专利技术提供了一种异常文件访问行为监控方法和装置,用于对服务器集群进行安全审计,过滤正常用户对文件的访问行为,准确识别出用户对文件的异常访问行为。一种异常文件访问行为监控方法具体步骤如下:步骤1、配置监控日志配置实时的记录用户操作命令及部分用户属性信息的日志记录,所记录的用户属性信息可自定义,范围包括但不限于:用户名,用户远端IP,操作发生时间,操作发生目录,操作目标文件,操作命令。步骤2、采集系统历史日志采集的系统日志包括但不限于:定制的监控文件访问行为的日志和定制的记录用户操作命令的日志。步骤3、计算用户相似度提取每个用户对不同文件的访问行为,定义用户的向量表示:n维向量,其中n为所有文件的总数,若用户访问过该文件,则相应位置置为1,反之,置为0。步骤4、获取用户访问权限优先级排序基于步骤3得到的相似度矩阵,以相似度为权重加权计算所有邻居用户对所有文件的访问系数并累加,作为当前用户文件访问权限优先级排序。其中访问系数定义如下:若用户访问过该文件,则系数为1,反之,系数为0。步骤5、提取用户访问权限白名单考虑到该名单应包含所有用户在历史数据中显式访问过的文件,该名单不应毫无根据的或一概而论的扩充所有用户的访问权限。基于上述事实情况,在生成白名单时,从用户文件访问权限优先级排序中选取包含历史数据中当前用户显式访问的所有日志文件的最小topN集合,作为该用户的访问权限列表,即该用户访问权限白名单。步骤6、实时监控系统日志基于SparkStreaming流处理框架接收流式日志数据,通过Spark的微批处理机制实现对系统日志的实时监控。步骤7、多源日志关联识别文件访问行为。通过多系统日志关联分析,识别流式日志数据中包含的文件访问行为,具体过程:基于流式数据,关联记录用户操作的日志和定制的监控日志,对于每条从监控日志中得到的记录,在记录用户操作的日志中查找满足以下条件的记录:监控日志中记录的时间戳比该条记录用户操作的日志中的记录的时间大,但是不超过一个很短的时间,这一时间阈值可根据系统实际情况自行调整并给出默认推荐值。可以认为在这一时间范围内的记录用户操作的日志中的日志记录可能存在与该条监控日志记录对应同一操作行为的记录。对比监控日志与记录用户操作的日志中记录的操作执行目录、操作命令与操作目标日志等信息,找到与监控日志记录相应的记录用户操作的日志中的记录。从上述两种日志中识别用户进行的文件删改操作。步骤8、白名单过滤将上述文件访问行为基于上述白名单进行过滤,过滤掉用户对权限内的文件进行访问的访问行为,得到最终异常文件访问行为。步骤9、提取输出结果信息并输出从最终异常文件访问行为日志中提取多维度输出信息,包括但不限于用户名、登录时的远端IP、操作命令、操作执行目录、操作目标文件及是否成功删除或修改等信息,最终输出或持久化到包括但不限于消息队列,数据库,文件系统或分布式文件系统。与现有技术相比,本专利技术的有益效果是:1)可监控更加广泛的文件系统。2)通过生成白名单,过滤正常访问行为,减少误报率。3)基于流处理框架进行实时检测。附图说明图1是本专利技术异常文件访问行为监控的流程图。图2是本专利技术异常文件访问行为装置的原理图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术一种异常文件访问行为监控方法,包括:步骤1、配置监控日志配置实时的记录用户操作命令及部分用户属性信息的日志记录,所记录的用户属性信息可自定义,范围包括但不限于:用户名,用户远端IP,操作发生时间,操作发生目录,操作目标文件,操作命令。步骤2、采集系统历史日志采集的系统日志包括但不限于:定制的监控文件访问行为的日志和定制的记录用户操作命令的日志,分别发送历史日志数据到数据库系统(HadoopDatabase,HBase)、发送实时日志数据到分布式发布订阅消息系统(Kafka)。步骤3、计算用户相似度从数据库系统(HadoopDatabase,HBase)获取历史日志数据提取每个用户对不同文件的访问行为,定义用户的向量表示:n维向量,其中n为所有文件的总数,若用户访问过该文件,则相应位置置为1,反之,置为0。计算所有用户两两之间的相似度,并生成相似度矩阵。距离度量根据需要可选择欧包括但不限于几里德距离、皮尔逊相关系数或Cosine相似度,计算原则:欧几里德距离(EuclideanDistance)当用欧几里德距离表示相似度,一般采用以下公式进行转换:距离越小,相似度越大。皮尔逊相关系数(PearsonCorrelationCoefficient)其中n为向量的维度,sx,sy是x和y的样品标准偏差。Cosine相似度(CosineSimilarity)其中x、y是两个不同用户的向量表示,xi和yi表示两个用户向量的第i维取值。步骤4、获取用户访问权限优先级排序基于步骤3得到的相似度矩阵,以相似度为权重加权计算所有邻居用户对所有文件的访问系数并累加,作为当前用户文件访问权限优先级排序。其中访问系数定义如下:若用户访问过该文件,则系数为1,反之,系数为0。步骤5、提取用户访问权限白名单考虑到该名单应包含所有用户在历史数据中显式访问过的文件,该名单不应毫无根据的或一概而论的扩充所有用户的访问权限。基于上述事实情况,在生成白名单时,从用户文件访问权限本文档来自技高网...

【技术保护点】
1.一种异常文件访问行为监控方法,其特征在于,包括:/n步骤1、配置监控日志/n配置实时的记录用户操作命令及部分用户属性信息的日志记录;/n配置监控日志访问行为的日志记录;/n步骤2、采集系统历史日志/n步骤3、计算用户相似度/n提取每个用户对不同文件的访问行为,定义用户的向量表示为n维向量,其中n为所有文件的总数,若用户访问过该文件,则相应位置置为1,反之,置为0,计算所有用户两两之间的相似度,根据需要选择距离度量,并生成相似度矩阵;/n步骤4、获取用户访问权限优先级排序/n基于步骤3得到的相似度矩阵,以相似度为权重加权计算所有邻居用户对所有文件的访问系数并累加,作为当前用户文件访问权限优先级排序,其中访问系数定义如下:若用户访问过该文件,则系数为1,反之,系数为0;/n步骤5、提取用户访问权限白名单/n在生成白名单时,从用户文件访问权限优先级排序中选取包含历史数据中当前用户显式访问的所有日志文件的最小top N集合,作为该用户的访问权限列表,即该用户访问权限白名单;/n步骤6、实时监控系统日志/n基于Spark Streaming流处理框架接收流式日志数据,通过Spark的微批处理机制实现对系统日志的实时监控;/n步骤7、多源日志关联识别文件访问行为/n通过多系统日志关联分析,识别流式日志数据中包含的文件访问行为;/n步骤8、白名单过滤/n将所述文件访问行为基于所述白名单进行过滤,过滤掉用户对权限内的文件进行访问的访问行为,得到最终异常文件访问行为;/n步骤9、提取输出结果信息并输出。/n...

【技术特征摘要】
1.一种异常文件访问行为监控方法,其特征在于,包括:
步骤1、配置监控日志
配置实时的记录用户操作命令及部分用户属性信息的日志记录;
配置监控日志访问行为的日志记录;
步骤2、采集系统历史日志
步骤3、计算用户相似度
提取每个用户对不同文件的访问行为,定义用户的向量表示为n维向量,其中n为所有文件的总数,若用户访问过该文件,则相应位置置为1,反之,置为0,计算所有用户两两之间的相似度,根据需要选择距离度量,并生成相似度矩阵;
步骤4、获取用户访问权限优先级排序
基于步骤3得到的相似度矩阵,以相似度为权重加权计算所有邻居用户对所有文件的访问系数并累加,作为当前用户文件访问权限优先级排序,其中访问系数定义如下:若用户访问过该文件,则系数为1,反之,系数为0;
步骤5、提取用户访问权限白名单
在生成白名单时,从用户文件访问权限优先级排序中选取包含历史数据中当前用户显式访问的所有日志文件的最小topN集合,作为该用户的访问权限列表,即该用户访问权限白名单;
步骤6、实时监控系统日志
基于SparkStreaming流处理框架接收流式日志数据,通过Spark的微批处理机制实现对系统日志的实时监控;
步骤7、多源日志关联识别文件访问行为
通过多系统日志关联分析,识别流式日志数据中包含的文件访问行为;
步骤8、白名单过滤
将所述文件访问行为基于所述白名单进行过滤,过滤掉用户对权限内的文件进行访问的访问行为,得到最终异常文件访问行为;
步骤9、提取输出结果信息并输出。


2.根据权利要求1所述异常文件访问行为监控方法,其特征在于,所述步骤1中,所记录的用户属性信息根据需求自定义,范围包括:用户名、用户远端IP、操作发生时间、操作发生目录、操作目标文件以及操作命令中的任意一种或几种;所述监控日志访问行为包括:利用audit审计工具,对指定的文件或文件目录进行监控,记录对指定文件或文件目录的修改行为。


3.根据权利要求1所述异常文件访问行为监控方法,其特征在于,所述步骤2中,采集的系统日志包括:定制的记录用户操作命令的日志和定制的监控文件访问行为的日志。


4.根据权利要求1所述异常文件访问行为监控方法,其特征在于,所述步骤3中,用户相似度计算选择的距离度量包括欧几里德距离、皮尔逊相关系数或Cosine相似度。


5.根据权利要求4所述异常文件访问行为监控方法,其特征在于,所述欧几里德距离(EuclideanDistance)计算方法如下



当用欧几里德距离表示相似度,则采用以下公式进行转换:



距离越小,相似度越大;
其中x、y是两个不同用户的向量表示,xi和yi表示两个用户向量的第i维取值;
所述皮尔逊相关系数(PearsonCorrelationCoefficient...

【专利技术属性】
技术研发人员:陶敬李忠义陈奕光王莞尔郝传洲詹旭娜常跃郑宁
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1