一种用于Web会话聚合的关键Cookies识别方法技术

技术编号：10255374 阅读：158 留言：0更新日期：2014-07-24 21:48

通过Cookie识别进行会话合并是Web日志预处理的关键步骤，直接影响后续的Web日志的挖掘。针对传统的会话合并存在的效率不高、准确率不高的问题，本发明专利技术提出了一种用于Web会话聚合的关键Cookies识别方法。该方法用于识别用户相关的user-Cookies和用户浏览网站终端的terminal-Cookies。该方法不仅结合的前人提出的CookiePicker系统实现了识别user-Cookies，并且利用top-k的思想识别terminal-Cookies。最终将两者结合起来形成最终的key-Cookies。本方法的优点是可以快速地识别出用户相关的Cookie信息，从而很好地应用于会话合并。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种可用于Web会话合并的关键Cookies识别方法，属于Web日志预处理领域。
技术介绍
Web日志挖掘是指将关联规则、聚类分析、预测等挖掘技术应用于Web服务器日志文件，以发现隐藏在其中的用户访问Web页面的模式。Web日志预处理是在Web日志挖掘前，对Web日志进行清理、过滤以及重新组合的过程。Web日志挖掘的数据预处理部分结果的准确性直接影响了Web日志挖掘的效率与准确性。识别用户会话是Web日志预处理中最重要的部分。有时候，单纯的依靠URL(英文全称为Uniform Resource Locator)识别的用户会话并不全面。这个时候需要依靠Cookie中的信息判断若干不完整的用户会话是否属于同一个用户。换句话说，就是将识别出来的不完整的用户会话进行合并。会话合并是将识别出的不完整的会话中所有的Cookies项都取出来比较。每一个用户会话都拥有很多网站，每个网站都有很多Cookies项。Cookie是指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常这些Cookies是经过加密)。基于HTTP的请求模式，Cookie的存储形式为name＝value。这里的name是网站自定义的。这里的value是网站根据自身信息和用户信息给定的。由此可知，各个网站的各个不同的Cookie项的含义各不相同。CookiePicker是自动利用Cookie信息来帮...
一种用于Web会话聚合的关键Cookies识别方法

【技术保护点】
一种用于Web会话聚合的关键Cookies识别方法，其特征在于，步骤为：步骤1、获取Web日志文件，提取出Web日志文件中每条记录的站点名称Site；步骤2、以站点名称Site为分组依据将Web日志文件中的所有记录分组，使得同一站点名称Site的记录都合并到一个组，并建立其与相应站点名称Site的对应关系，第i个站点名称Sitei对应记录组List[Record]i；步骤3、在步骤2得到的各个记录组中提取所有包含用户信息的Cookie项的名称，并保存至不同的用户信息Cookie项名称列表，第i个站点名称Sitei对应用户信息Cookie项名称列表list[user‑Cookies]i；步骤4、在步骤2得到的各个记录组中提取所有包含浏览网站的终端信息的Cookie项的名称，并保存至不同的终端信息Cookie项名称列表，第i个站点名称Sitei对应终端信息Cookie项名称列表list[terminal‑Cookies]i；步骤5、将步骤3得到的各用户信息Cookie项名称列表与步骤4得到的各终端信息Cookie项名称列表以站点名称Site作为等值连接的条件进行连接操作，得到各个站点名称S...

【技术特征摘要】
1.一种用于Web会话聚合的关键Cookies识别方法，其特征在于，步骤为：
步骤1、获取Web日志文件，提取出Web日志文件中每条记录的站点名称
Site；
步骤2、以站点名称Site为分组依据将Web日志文件中的所有记录分组，使
得同一站点名称Site的记录都合并到一个组，并建立其与相应站点名称Site的对
应关系，第i个站点名称Sitei对应记录组List[Record]i；
步骤3、在步骤2得到的各个记录组中提取所有包含用户信息的Cookie项
的名称，并保存至不同的用户信息Cookie项名称列表，第i个站点名称Sitei对
应用户信息Cookie项名称列表list[user-Cookies]i；
步骤4、在步骤2得到的各个记录组中提取所有包含浏览网站的终端信息的
Cookie项的名称，并保存至不同的终端信息Cookie项名称列表，第i个站点名
称Sitei对应终端信息Cookie项名称列表list[terminal...

【专利技术属性】
技术研发人员：陈德华，沈昌干，潘乔，罗昕，
申请(专利权)人：东华大学，上海云屹信息技术有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人