本发明专利技术提供一种基于时空相关性分析的身份识别方法及系统,包括以下步骤:S1:实时流量分析模块通过分流设备,将网络流量接入到解析设备上;对流量数据进行分析,将解析的数据保存到数据库;S2:时间轴比对任务模块创建时间轴比对任务,将任务信息封装成文件,搬运给网页内容采集模块;S3:网页内容采集模块实时监控时间轴比对任务模块下发过来的文件,获取互联网应用的账号或者ID信息;S4:网页内容采集模块构建互联网应用模板,根据模板提取该账号的时间轴信息数据,将采集到的账号时间轴信息封装成文件,并下发给时间轴比对模块;S5:时间轴比对模块对于时间轴结果文件进行时间轴文件解析以及比对,根据匹配度进行真实身份关联。
An identification method and system based on spatiotemporal correlation analysis
【技术实现步骤摘要】
一种基于时空相关性分析的身份识别方法及系统
本专利技术涉及一种互联网应用
和网络安全的身份识别管理方法,特别是涉及一种基于时空相关性分析的身份识别方法及系统。
技术介绍
随着互联网的快速普及和各种网络应用的不断出现,网络安全事件不断发生,网路安全已成为国家安全的重要内容,如何从加密业务中提取情报,对规范网路应用、净化网路环境以及保护网路安全具有重大意义。传统网络安全和网络监管包括以下几种手段,一、开源情报,包括虚拟身份、威胁情报、潜在事件等;二、明文解析,包括DNS、LOT、GTP等协议解析;三、漏洞攻击,包括邮件、短信、APP漏洞等。但随着加密技术的发展,传统的网络安全监管手段和能力难以有效的对数据进行监控和识别,如何从加密数据中获取有效信息成了研究网络安全方面技术的难点。当前,色情类论坛和其它一些违法类网络应用主要采用HTTPS加密通讯,现有技术只能获取到访问者的IP和时间等信息,无法获取通讯内容,仅仅通过解析网络流量已经不能拿到有效信息来定位和识别用户身份,对于这类网络应用难以进行监管。
技术实现思路
针对互联网应用中难以对重点账号进行身份识别的现状,本专利技术提供了一种基于时空相关性分析的身份识别方法及系统,解决了通过将实时网路流量解析和网页内容采集到的时间轴进行比对的身份识别的问题,其技术方案如下所述:一种基于时空相关性分析的身份识别方法,包括以下步骤:S1:实时流量分析模块通过分流设备,将网络流量接入到解析设备上;使用解析程序对流量数据进行分析,通过网页爬取提取上网时间轴信息,将解析的数据保存到数据库;S2:时间轴比对任务模块创建时间轴比对任务,将任务信息封装成文件,搬运给网页内容采集模块;S3:网页内容采集模块实时监控时间轴比对任务模块下发过来的文件,获取互联网应用的账号或者ID信息;S4:网页内容采集模块构建互联网应用模板,根据模板提取该账号的时间轴信息数据,将采集到的账号时间轴信息封装成文件,并下发给时间轴比对模块;S5:时间轴比对模块对于时间轴结果文件进行时间轴文件解析以及比对,根据匹配度进行真实身份关联。进一步的,在步骤S2中,包括以下几个步骤:S21:时间轴比对任务模块初始化,对任务结果文件目录进行监听,对目录下有改动的文件进行读取;S22:时间轴比对任务模块创建时间轴比对任务,填写网络论坛的账号信息并存入数据库;S23:时间轴比对任务模块封装任务,发布任务文件,内容包括任务id和网络论坛的账号信息。进一步的,在步骤S3中,包括以下几个步骤:S31:网页内容采集模块初始化,对任务文件目录进行监听,对目录下有改动的文件进行读取;S32:网页内容采集模块获取新的任务文件,创建任务线程,解析任务内容,获取网络应用类型和账号等信息;S33:通过无头浏览器访问网络论坛,用预先申请号的账号登录网络论坛。进一步的,在步骤S4中,包括以下几个步骤:S41:通过无头浏览器访问该任务中账号的首页地址,对页面内容进行爬取;S42:解析采集下来的页面内容,提取包括发布内容和时间点在内的信息;S43:将提取到的信息封装成任务结果文件,发布给时间轴比对模块。进一步的,步骤S5中,包括以下几个步骤:S51:时间轴比对模块获取结果文件并进行解析,将时间轴信息存入数据库;S52:开始进行任务比对,根据结果文件采集到的时间轴信息去数据库中查询捷信模块解析得到的数据,如果查询到,则将手机号提取出来,该手机号有可能与任务中的账号有关联,将手机号存入数据库;S53:比对任务完成以后,统计手机号出现的次数,次数越多说明手机号和任务中的账号关联度越高,将手机号举荐出来;S54:关联真实身份库,通过手机号获取到用户姓名和身份证号等信息。进一步的,步骤S4中,所述互联网应用模板是指包括网页文档对象模型的整体结构和提取的属性名称。其中,步骤S52的操作之前,解析模块已经将手机号和相关操作时间点存入数据库。一种基于时空相关性分析的身份识别系统,包括以下模块:1)实时流量分析模块:通过分流设备,将境内流量接入到解析设备,通过机器学习算法构建分类模型,提取时间轴数据,将解析到的数据存入到数据库中;2)网页内容采集模块:根据账号或者ID对互联网应用的内容进行采集,通过采集模板将内容中的时间轴信息提取出来,并封装成文件;3)时间轴比对任务模块:创建时间轴比对任务,封装任务,发送任务文件到网页内容采集模块;4)时间轴比对模块:将网页内容采集模块采集到的时间轴信息和实时流量分析到的时间轴信息进行比对,举荐出互联网应用账号或ID的真实身份信息并进行验真。实时流量分析模块包括依次相连接的流量接入子模块、数据解析子模块和数据入库子模块。所述基于时空相关性分析的身份识别方法能够有效的对境内单个或多个网络论坛虚拟身份目标进行快速的真实身份(姓名、电话、证件信息等)分析及举荐,且具有隐蔽性,该操作不会被网络用户发现。附图说明图1是本专利技术中对于实时数据流的解析流程图;图2是本专利技术中的时间轴比对任务流程图。具体实施方式本专利技术提供了一种基于时空相关性分析的身份识别方法及系统,所述基于时空相关性分析的身份识别系统包括以下三个模块:1、实时流量分析模块:包括依次相连接的流量接入子模块、数据解析子模块和数据入库子模块。如图1所示,接入分流设备,用户相关操作都将被获取,如登录色情类网络论坛、发布信息等,所述流量接入子模块用于接入网络用户访问色情类网络的实时流量数据,发送到解析设备上;通过解析设备的数据解析子模块进行解析,采用机器学习算法构建分类模型,使用解析程序对流量数据进行分析,提取上网时间轴信息,即分析用户的上网类型和时间点,获取到手机号或者上网账号的时间轴数据;最后将解析的数据通过数据入库子模块保存到数据库。其中实时流量分析模块包括以下功能:A1.流量接入:通过分流设备,将境内流量接入到我方的解析设备;A2.数据解析:通过机器学习算法构建分类模型(按照网络会话对数据包进行分组;提取数据包应用层加密内容长度,按照对应会话组构建列表,每个会话对应一个长度列表,列表构建顺序对应会话的数据流顺序;长度数值有正负区分,区分依据具有流量的交互模式;对长度列表按照滑动窗口的方式进行切分提取等长的数组,数值为长度值,并按照数组的正负号组合类型进行区分,构建完整数据集;完整数据集分别通过pearson相关系数和余弦相似度的方式进行分类,对相似度满足一定阈值的数据,认为该类数据为一组相似数据),提取时间轴数据;A3.数据入库:将解析到的数据存入到数据库中。2、网页内容采集模块:根据账号或者ID对互联网应用的内容进行采集,通过网页爬取将内容中的时间轴信息提取出来,并封装成文件。其中网页内容采集模块包括以下功能:B本文档来自技高网...
【技术保护点】
1.一种基于时空相关性分析的身份识别方法,包括以下步骤:/nS1:实时流量分析模块通过分流设备,将网络流量接入到解析设备上;使用解析程序对流量数据进行分析,通过网页爬取提取上网时间轴信息,将解析的数据保存到数据库;/nS2:时间轴比对任务模块创建时间轴比对任务,将任务信息封装成文件,搬运给网页内容采集模块;/nS3:网页内容采集模块实时监控时间轴比对任务模块下发过来的文件,获取互联网应用的账号或者ID信息;/nS4:网页内容采集模块构建互联网应用模板,根据模板提取该账号的时间轴信息数据,将采集到的账号时间轴信息封装成文件,并下发给时间轴比对模块;/nS5:时间轴比对模块对于时间轴结果文件进行时间轴文件解析以及比对,根据匹配度进行真实身份关联。/n
【技术特征摘要】
1.一种基于时空相关性分析的身份识别方法,包括以下步骤:
S1:实时流量分析模块通过分流设备,将网络流量接入到解析设备上;使用解析程序对流量数据进行分析,通过网页爬取提取上网时间轴信息,将解析的数据保存到数据库;
S2:时间轴比对任务模块创建时间轴比对任务,将任务信息封装成文件,搬运给网页内容采集模块;
S3:网页内容采集模块实时监控时间轴比对任务模块下发过来的文件,获取互联网应用的账号或者ID信息;
S4:网页内容采集模块构建互联网应用模板,根据模板提取该账号的时间轴信息数据,将采集到的账号时间轴信息封装成文件,并下发给时间轴比对模块;
S5:时间轴比对模块对于时间轴结果文件进行时间轴文件解析以及比对,根据匹配度进行真实身份关联。
2.根据权利要求1所述的基于时空相关性分析的身份识别方法,其特征在于:在步骤S2中,包括以下几个步骤:
S21:时间轴比对任务模块初始化,对任务结果文件目录进行监听,对目录下有改动的文件进行读取;
S22:时间轴比对任务模块创建时间轴比对任务,填写网络论坛的账号信息并存入数据库;
S23:时间轴比对任务模块封装任务,发布任务文件,内容包括任务id和网络论坛的账号信息。
3.根据权利要求1所述的基于时空相关性分析的身份识别方法,其特征在于:在步骤S3中,包括以下几个步骤:
S31:网页内容采集模块初始化,对任务文件目录进行监听,对目录下有改动的文件进行读取;
S32:网页内容采集模块获取新的任务文件,创建任务线程,解析任务内容,获取网络应用类型和账号等信息;
S33:通过无头浏览器访问网络论坛,用预先申请号的账号登录网络论坛。
4.根据权利要求1所述的基于时空相关性分析的身份识别方法,其特征在于:在步骤S4中,包括以下几个步骤:
S41:通过无头浏览器访问该任务中账号的首页地址,对页面内容进行爬取;
S42:解析采集下来的页面内容,提取包括发布内容和时间点在内的信息;
S...
【专利技术属性】
技术研发人员:付君辉,李宏伟,代宏伟,
申请(专利权)人:北京中安智达科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。