【技术实现步骤摘要】
本专利技术涉及一种可用于Web会话合并的关键Cookies识别方法,属于Web日志预处理领域。
技术介绍
Web日志挖掘是指将关联规则、聚类分析、预测等挖掘技术应用于Web服务器日志文件,以发现隐藏在其中的用户访问Web页面的模式。Web日志预处理是在Web日志挖掘前,对Web日志进行清理、过滤以及重新组合的过程。Web日志挖掘的数据预处理部分结果的准确性直接影响了Web日志挖掘的效率与准确性。识别用户会话是Web日志预处理中最重要的部分。有时候,单纯的依靠URL(英文全称为Uniform Resource Locator)识别的用户会话并不全面。这个时候需要依靠Cookie中的信息判断若干不完整的用户会话是否属于同一个用户。换句话说,就是将识别出来的不完整的用户会话进行合并。会话合并是将识别出的不完整的会话中所有的Cookies项都取出来比较。每一个用户会话都拥有很多网站,每个网站都有很多Cookies项。Cookie是指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常这些Cookies是经过加密)。基于HTTP的请求模式,Cookie的存储形式为name=value。这里的name是网站自定义的。这里的value是网站根据自身信息和用户信息给定的。由此可知,各个网站的各个不同的Cookie项的含义各不相同。CookiePicker是自动利用Cookie信息来帮 ...
【技术保护点】
一种用于Web会话聚合的关键Cookies识别方法,其特征在于,步骤为:步骤1、获取Web日志文件,提取出Web日志文件中每条记录的站点名称Site;步骤2、以站点名称Site为分组依据将Web日志文件中的所有记录分组,使得同一站点名称Site的记录都合并到一个组,并建立其与相应站点名称Site的对应关系,第i个站点名称Sitei对应记录组List[Record]i;步骤3、在步骤2得到的各个记录组中提取所有包含用户信息的Cookie项的名称,并保存至不同的用户信息Cookie项名称列表,第i个站点名称Sitei对应用户信息Cookie项名称列表list[user‑Cookies]i;步骤4、在步骤2得到的各个记录组中提取所有包含浏览网站的终端信息的Cookie项的名称,并保存至不同的终端信息Cookie项名称列表,第i个站点名称Sitei对应终端信息Cookie项名称列表list[terminal‑Cookies]i;步骤5、将步骤3得到的各用户信息Cookie项名称列表与步骤4得到的各终端信息Cookie项名称列表以站点名称Site作为等值连接的条件进行连接操作,得到各个站点名称S ...
【技术特征摘要】
1.一种用于Web会话聚合的关键Cookies识别方法,其特征在于,步骤为:
步骤1、获取Web日志文件,提取出Web日志文件中每条记录的站点名称
Site;
步骤2、以站点名称Site为分组依据将Web日志文件中的所有记录分组,使
得同一站点名称Site的记录都合并到一个组,并建立其与相应站点名称Site的对
应关系,第i个站点名称Sitei对应记录组List[Record]i;
步骤3、在步骤2得到的各个记录组中提取所有包含用户信息的Cookie项
的名称,并保存至不同的用户信息Cookie项名称列表,第i个站点名称Sitei对
应用户信息Cookie项名称列表list[user-Cookies]i;
步骤4、在步骤2得到的各个记录组中提取所有包含浏览网站的终端信息的
Cookie项的名称,并保存至不同的终端信息Cookie项名称列表,第i个站点名
称Sitei对应终端信息Cookie项名称列表list[terminal...
【专利技术属性】
技术研发人员:陈德华,沈昌干,潘乔,罗昕,
申请(专利权)人:东华大学,上海云屹信息技术有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。