本发明专利技术公开了一种面向数据产权保护的反内爬访控方法,其通过对第三方软件加载访问接口和使用数据进行溯源,判断其内爬行为,并对第三方软件使用数据时的数据量、访问时长、访问频率进行检测,通过朴素贝叶斯算法获得其内爬数据权值、内爬时间权值、内爬频率权值,进一步获得其内爬权值,将内爬权值与安全权值进行比较,根据第三软件内爬行为风险大小做出针对性处理,并提供第三方监控和误报处理,保证了数据的安全性,提高对第三方软件的监控效率,具有较高的分类准确性和运算效率。
【技术实现步骤摘要】
本专利技术涉及软件分析
,特别涉及一种面向数据产权保护的反内爬访控方法。
技术介绍
信息资源高度的数字化,加剧了数据窃取、泄密等危害事件的发生,对数据产权的保护带来了一定的挑战,为了解决数据泄露问题,信息安全业内从不同的角度出发,提出了基于访问控制类、数据加密类、内容监控和过滤类、虚拟化类以及多种技术相结合的混合类数据泄密防护解决方案,但是数据泄漏事件仍屡禁不止,究其原因,现有的终端平台采用开放的体系架构,无法从根本上避免和杜绝一切可能的安全威胁,且现有的安全解决方案存在缺乏良好的平台及安全验证机制。访问控制类技术是对访问控制技术中权限管理方案的扩展,主要通过对客体访问权限的分配,对终端设备中数据的输入输出过程进行集中的控制和管理,并采取监控和审计机制,防止未经授权的数据外泄。控制类技术通常不对数据进行加/解密保护,而是通过监控数据在使用和传输过程中的合法性来控制数据。根据访问控制技术的发展进程,主要有自主访问控制机制、强制访问控制机制、基于角色的访问控制机制和基于属性的访问控制机制。此技术存在的不足时无法解决被动泄密问题,如存储磁盘丢失、移动终端或笔记本被盗等。而且,一旦访问控制机制被攻击者绕过,数据均将以明文的方式泄露。“爬虫”源于web系统中,是搜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个活互联网内容的镜像备份。通常将web系统的爬虫称为“外爬”。“内爬”是相对应于“外爬”而言的,“内爬”的主要目的是存储在磁盘上的数据(如数据库,文件等)下载到指定位置进行使用。例如对于某些应用内的数据库文件,该应用提供了数据库访问的接口,某些第三方应用却通过提供的接口获得数据并存入自己的数据中,这就会产生数据泄露及数据产权保护问题。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供一种面向数据产权保护的反内爬访控方法,通过对第三方软件加载访问接口和使用数据进行溯源,判断其内爬行为,并对第三方软件使用数据时的数据量、访问时长、访问频率进行检测,通过朴素贝叶斯算法获得其内爬数据权值、内爬时间权值、内爬频率权值,进一步获得其内爬权值,将内爬权值与安全权值进行比较,根据第三软件内爬行为风险大小做出针对性处理,并提供第三方监控和误报处理,保证了数据的安全性,提高对第三方软件的监控效率,具有较高的分类准确性和运算效率。为了实现上述专利技术目的,本专利技术提供了以下技术方案:1.一种面向数据产权保护的反内爬访控方法,包括以下步骤:A.建立数据访问模块,数据访问模块采用SDK驱动方式保护数据,将需要保护的数据放入模块中,第三方软件需要使用数据时,为其提供访问接口,使用访问接口需安装相应的驱动,在第三方软件使用数据时,对驱动安装状态进行检测,驱动未安装时,禁止数据使用;B.建立内爬行为检测模块,对第三方软件的数据使用行为进行检测,通过内爬行为特征库,对第三方软件行为进行判定;内爬行为特征库通过以下几个方面构建:(1)对使用数据进行驱动层次的追踪,分别在网络层和应用层设置监控代码,采用HOOK或进程回调的方式,对常见的数据操作函数进行监控,常见的应用层数据操作函数如下:WriteFile,OpenFile,CreateFile,CopyFile,DeleteFile ,lcreat,lwrite,LZRead,MoveFile,Send(网络层socket传输)等;数据经过模块时进行标注,对写入到本地或网络的数据进行数据溯源,如追踪到数据为模块内数据时,直接判定第三方软件进行内爬行为;(2)通过驱动层监控第三方软件数据访问量进行监控,根据设定的一个或多个数据阈值,获得内爬数据权值,数据访问量小的具有低内爬数据权值,数据访问量大的具有高内爬数据权值;(3)通过驱动层对第三方软件数据访问时间进行监控,根据设定的一个或多个时间阈值,与时间阈值比较获得内爬时间权值,数据访问时间短的具有低内爬时间权值,数据访问时间长的具有高内爬时间权值;(4)通过驱动层对第三方软件数据访问频率进行监控,根据设定的一个或多个频率阈值,与频率阈值比较获得内爬频率权值,数据访问频率低的具有低内爬频率权值,数据访问频率高的具有高内爬频率权值;C.当第三方软件通过内爬行为特征检测的第(1)步验证后,其行为内爬权值为内爬数据权值、内爬时间权值、内爬频率权值的最大值;D.依据内爬行为检测的结果,通过内爬行为处理模块对第三方软件进行处理,将有内爬行为的第三方软件加入黑名单,直接中断其访问数据,未有内爬行为的第三方软件将其内爬权值与安全权值比较,安全等级由低到高依次采取禁止再次访问、中断访问并提示、警告、正常运行等处理。进一步的,内爬行为检测中的内爬数据权值、内爬时间权值、内爬频率权值分别通过朴素贝叶斯分类算法获得,表现出较高的分类准确性和运算性能。本专利技术中,检测到第三方软件数据访问数据量后,与一个或多个数据阈值进行比较时,当数据访问量大于最大数据阈值时,则内爬数据权值为1,上述步骤C中,可直接忽略数据访问时间和数据访问频率,直接获得其内爬权值为1,则其第三方软件进行了内爬行为,当数据访问量低于最大数据阈值时,内爬数据权值通过朴素贝叶斯分类算法获得,内爬数据权值P(内爬|访问数据量)=P(访问数据量|内爬)×P(内爬)/P(访问数据量),其中P(访问数据量|内爬)表示统计样本中,内爬行为发生时的访问数据量在统计样本中所占比例,P(内爬)表示统计样本中内爬行为的概率,P(访问数据量)表示访问数据量在统计样本的所占比例。P(访问数据量|内爬)、P(内爬)、P(访问数据量)均可作为统计样本中的先验概率获得。根据多个数据阈值可划分出多个样本空间,根据数据访问量落入数据阈值的区域的不同,统计不同的样本空间,可以更精确地获得内爬数据权值。按照获取内爬数据权值的方式,获得内爬时间权值和内爬频率权值,进一步获得内爬权值,根据内爬权值与安全权值比较,即可分别第三方软件行为的内爬风险,根据风险大小,采取相应的反内爬策略。进一步的,数据访问模块还包括有第三方监控驱动方式,通过可信的第三方机构监控数据,第三方软件访问数据时,需要第三方监控进行审核,第三方监控审核通过后才能访问数据,进一步提高了检测效率。进一步的,第三方监控驱动方式采用黑名单匹配机制,每一个软件对应一个ID,将判断出具有内爬行为的第三方软件加入黑名单,下次该第三方软件再次申请使用时,第三方驱动根据黑名单匹配机制会直接判定该第三方软件具有内爬行为,直接禁止其访问数据,这样避免了进一步的验证,提高了效率。进一步的,本专利技术还包括有误报对应策略处理模块,当第三方软件被误监测到有内爬行为或内爬风险时,可以申请误报,如通过审核,依据其内爬风险的高低采取取消黑名单、解除禁止访问、停止警告等策略处理,防止第三方被误报后产生不必要的问题。进一步的,根据权利要求1所述的一种面向数据产权保护的反内爬访控方法,其特征在于,在设定频率阈值时,可对数据内容进行分类,频率较高的数据设置低权值,使用频率低的数据设置高权值,可以得到更精确的频率权值,分类效果更好。综上所述,本专利技术有益效果在于,对第三方软件内爬行为风险大小做出针对性处理,并提供第三方监控和误报处理,保证了数据的安全性,提高对第三方软件的本文档来自技高网...
【技术保护点】
一种面向数据产权保护的反内爬访控方法,其特征在于,包括以下步骤:A.建立数据访问模块,数据访问模块采用SDK驱动方式保护数据,将需要保护的数据放入模块中,第三方软件需要使用数据时,为其提供访问接口,使用访问接口需安装相应的驱动,在第三方软件使用数据时,对驱动安装状态进行检测,驱动未安装时,禁止数据使用;B.建立内爬行为检测模块,对第三方软件的数据使用行为进行检测,通过内爬行为特征库,对第三方软件行为进行判定;内爬行为特征库通过以下几个方面构建:(1)对使用数据进行驱动层次的追踪,分别在网络层和应用层设置监控代码,采用HOOK或进程回调的方式,对常见的数据操作函数进行监控,数据经过模块时进行标注,对写入到本地或网络的数据进行数据溯源,如追踪到数据为模块内数据时,直接判定第三方软件进行内爬行为;(2)通过驱动层监控第三方软件数据访问量进行监控,根据设定的一个或多个数据阈值,获得内爬数据权值,数据访问量小的具有低内爬数据权值,数据访问量大的具有高内爬数据权值;(3)通过驱动层对第三方软件数据访问时间进行监控,根据设定的一个或多个时间阈值,与时间阈值比较获得内爬时间权值,数据访问时间短的具有低内爬时间权值,数据访问时间长的具有高内爬时间权值;(4)通过驱动层对第三方软件数据访问频率进行监控,根据设定的一个或多个频率阈值,与频率阈值比较获得内爬频率权值,数据访问频率低的具有低内爬频率权值,数据访问频率高的具有高内爬频率权值;C.当第三方软件通过内爬行为特征检测的第(1)步验证后,其行为内爬权值为内爬数据权值、内爬时间权值、内爬频率权值的最大值;D.依据内爬行为检测的结果,通过内爬行为处理模块对第三方软件进行处理,将有内爬行为的第三方软件加入黑名单,直接中断其访问数据,未有内爬行为的第三方软件将其内爬权值与安全权值比较,安全等级由低到高依次采取禁止再次访问、中断访问并提示、警告、正常运行等处理。...
【技术特征摘要】
1.一种面向数据产权保护的反内爬访控方法,其特征在于,包括以下步骤:A.建立数据访问模块,数据访问模块采用SDK驱动方式保护数据,将需要保护的数据放入模块中,第三方软件需要使用数据时,为其提供访问接口,使用访问接口需安装相应的驱动,在第三方软件使用数据时,对驱动安装状态进行检测,驱动未安装时,禁止数据使用;B.建立内爬行为检测模块,对第三方软件的数据使用行为进行检测,通过内爬行为特征库,对第三方软件行为进行判定;内爬行为特征库通过以下几个方面构建:(1)对使用数据进行驱动层次的追踪,分别在网络层和应用层设置监控代码,采用HOOK或进程回调的方式,对常见的数据操作函数进行监控,数据经过模块时进行标注,对写入到本地或网络的数据进行数据溯源,如追踪到数据为模块内数据时,直接判定第三方软件进行内爬行为;(2)通过驱动层监控第三方软件数据访问量进行监控,根据设定的一个或多个数据阈值,获得内爬数据权值,数据访问量小的具有低内爬数据权值,数据访问量大的具有高内爬数据权值;(3)通过驱动层对第三方软件数据访问时间进行监控,根据设定的一个或多个时间阈值,与时间阈值比较获得内爬时间权值,数据访问时间短的具有低内爬时间权值,数据访问时间长的具有高内爬时间权值;(4)通过驱动层对第三方软件数据访问频率进行监控,根据设定的一个或多个频率阈值,与频率阈值比较获得内爬频率权值,数据访问频率低的具有低内爬频率权值,数据访问频率高的具有高内爬频率权值;C.当第三方软件通过内爬...
【专利技术属性】
技术研发人员:陈瑞霞,王贝贝,杨文浩,王贝,
申请(专利权)人:迅鳐成都科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。