一种客户网络行为数据重构方法及装置制造方法及图纸

技术编号:5201074 阅读:211 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种客户网络行为数据重构方法及装置,该方法包括:将客户网络行为数据分为客户主动行为数据和客户被动行为数据;从客户的主动行为数据中提取客户的行为信息并保存到行为信息事实表中;从客户的主动行为数据和被动行为数据中提取客户的位置信息,并利用所述位置信息得到第一有向序列图;所述第一有向序列图中的点表示小区,以第一小区为起点,以第二小区为终点的边表示用户从第一小区移动到第二小区;基于图论对所述第一有向序列图进行分析处理,删除所述第一有向序列图中冗余数据对应的冗余的边和/或点,得到第二有向序列图;将所述第二有向序列图记录的位置信息保存到客户位置信息事实表。本发明专利技术压缩了数据的存储空间,提高了数据的质量。

【技术实现步骤摘要】

本专利技术涉及数据业务
,特别是一种客户网络行为数据重构方法及装置
技术介绍
目前,各个运营商的小区短信系统覆盖的MSC(Mobile Switch Center,移动交换中心)/MGW(Media Gateway,媒体网关)非常多。小区短信系统主要在移动通信运营商现有的网络基础上,收集指定热点小区客户活动的信息。小区短信系统采集的数据是基于移动客户和移动局间传输的信令信息分析得到的,不管客户是否使用移动业务,都能够提供客户全天的网络行为信息,比BOSS话单等数据具备更全面的客户行为信息。利用小区短信系统采集的客户网络行为信息,结合地理分布数据,可以提取客户的相关特征,经过多维度的分析处理,还可以挖掘出许多有价值的客户信息,如客户属性、客户流动性、人口密度、客户日常生活轨迹等等。这些客户信息具备很大的应用价值,可以为精确营销支撑、商业信息精确推送、公共应急预报发布等提供准确的客户数据。然而现有的小区短信系统采集的客户网络行为数据的数据量很大,可能达到数亿条数据,这么庞大的数据量不仅需要耗费大量的存储空间,而且原始数据中存在的冗余数据和异常数据将会影响数据挖掘分析的准确性。
技术实现思路
本专利技术的目的是提供一种客户网络行为数据重构方法及装置,降低小区短信系统采集的客户网络行为数据所耗费的存储空间,并提高数据的整体质量。为了实现上述目的,本专利技术实施例提供了一种客户网络行为数据重构方法,包括:将客户网络行为数据分为客户主动行为数据和客户被动行为数据;从客户的主动行为数据中提取客户的行为信息并保存到行为信息事实表中;从客户的主动行为数据和被动行为数据中提取客户的位置信息,并利用所述位置信息得到第一有向序列图;所述第一有向序列图中的点表示小区,以第一小区为起点,以第二小区为终点的边表示用户从第一小区移动到第二小区;基于图论对所述第一有向序列图进行分析处理,删除所述第一有向序列图中冗余数据对应的冗余的边和/或点,得到第二有向序列图;将所述第二有向序列图记录的位置信息保存到客户位置信息事实表。上述的客户网络行为数据重构方法,其中,所述客户网络行为数据为:从小区短信系统接口采集到的原始客户网络行为数据;或对所述原始客户网络行为数据进行数据清洗得到的数据。上述的客户网络行为数据重构方法,其中,所述冗余数据为异常位置更新行为数据、乒乓切换数据或循环走动数据。-->上述的客户网络行为数据重构方法,其中,基于图论对所述第一有向序列图进行分析处理,删除所述第一有向序列图中冗余数据对应的冗余的边和/或点,得到第二有向序列图具体为:清除第一有向序列图中所有从自身到自身的有向序列边,得到所述第二有向序列图。上述的客户网络行为数据重构方法,其中,基于图论对所述第一有向序列图进行分析处理,删除所述第一有向序列图中冗余数据对应的冗余的边和/或点,得到第二有向序列图具体为:根据所述第一有向序列图中获取所有的目标集,所述目标集中任意两个相邻的点之间都可能存在乒乓切换;对于每一个目标集,计算其中的每个点的总度数;在目标集中的任意一个点的总度数大于预设阈值时,保留目标集中总度数最大的点,并将所述第一有向序列图中连接到目标集的边都连接到总度数最大的点上,所有从目标集出去的边都改为从总度数最大的点出去,得到所述第二有向序列图。上述的客户网络行为数据重构方法,其中,基于图论对所述第一有向序列图进行分析处理,删除所述第一有向序列图中冗余数据对应的冗余的边和/或点,得到第二有向序列图具体为:根据所述第一有向序列图中获取由有向回路组成的第一集合;从所述第一集合中删除部分有向回路,得到第二集合,被删除的有向回路的点集为其他有向回路的真子集,或者被删除的有向回路的点集与其他有向回路的点集的交集不是空集,且被删除的有向回路包括的点的数量较小,或者被删除的有向回路的点集与其他有向回路的点集的交集不是空集,且被删除的有向回路较晚出现;从第一有向序列图中删除第二集合中的有向回路所对应的边,并删除孤立点,得到所述第二有向序列图。上述的客户网络行为数据重构方法,其中,行为信息事实表和客户位置信息事实表利用时段记录时间信息。为了实现上述目的,本专利技术实施例还提供了一种户网络行为数据重构装置,其特征在于,包括:划分模块,用于将客户网络行为数据分为客户主动行为数据和客户被动行为数据;行为信息提取及保存模块,用于从客户的主动行为数据中提取客户的行为信息并保存到行为信息事实表中;第一图构建模块,用于从客户的主动行为数据和被动行为数据中提取客户的位置信息,并利用所述位置信息得到第一有向序列图;所述第一有向序列图中的点表示小区,以第一小区为起点,以第二小区为终点的边表示用户从第一小区移动到第二小区;第二图构建模块,用于基于图论对所述第一有向序列图进行分析处理,删除所述第一有向序列图中冗余数据对应的冗余的边和/或点,得到第二有向序列图;位置信息保存模块,将将所述第二有向序列图记录的位置信息保存到客户位置信息事实表。-->上述的客户网络行为数据重构装置,其中,所述客户网络行为数据为:从小区短信系统接口采集到的原始客户网络行为数据;或对所述原始客户网络行为数据进行数据清洗得到的数据。上述的客户网络行为数据重构装置,其中,所述冗余数据为异常位置更新行为数据、乒乓切换数据或循环走动数据。上述的客户网络行为数据重构装置,其中,第二图构建模块具体包括:用于清除第一有向序列图中所有从自身到自身的有向序列边,得到所述第二有向序列图的单元。上述的客户网络行为数据重构装置,其中,第二图构建模块具体包括:用于根据所述第一有向序列图中获取所有的目标集的单元,所述目标集中任意两个相邻的点之间都可能存在乒乓切换;用于对每一个目标集,计算其中的每个点的总度数的单元;用于在目标集中的任意一个点的总度数大于预设阈值时,保留所述目标集中总度数最大的点,并将所述第一有向序列图中连接到目标集的边都连接到总度数最大的点上,所有从目标集出去的边都改为从总度数最大的点出去,得到所述第二有向序列图的单元。上述的客户网络行为数据重构装置,其中,第二图构建模块具体包括:用于根据所述第一有向序列图中获取由有向回路组成的第一集合的单元;用于从所述第一集合中删除部分有向回路,得到第二集合的单元,被删除的有向回路的点集为其他有向回路的真子集,或者被删除的有向回路的点集与其他有向回路的点集的交集不是空集,且被删除的有向回路包括的点的数量较小,或者被删除的有向回路的点集与其他有向回路的点集的交集不是空集,且被删除的有向回路较晚出现;用于从第一有向序列图中删除第二集合中的有向回路所对应的边,并删除孤立点,得到所述第二有向序列图的单元。上述的客户网络行为数据重构装置,其中,行为信息事实表和客户位置信息事实表利用时段记录时间信息。本专利技术实施例具有以下的有益效果:本专利技术实施例中,将客户网络行为数据划分为客户主动行为数据和客户被动行为数据,并基于图论进行客户网络行为数据重构,从客户网络行为数据中分析提取出客户的行为信息和位置信息,在保证数据符合业务要求的前提下,不仅大幅度压缩了数据的存储空间,而且提高了数据的整体质量,在此基础上构建了一个面向客户网络行为分析主题的、数据占用存储空间少而数据质量高的数据集市。附图说明图1为本专利技术实施例的客本文档来自技高网...
一种客户网络行为数据重构方法及装置

【技术保护点】
一种客户网络行为数据重构方法,其特征在于,包括:  将客户网络行为数据分为客户主动行为数据和客户被动行为数据;  从客户的主动行为数据中提取客户的行为信息并保存到行为信息事实表中;  从客户的主动行为数据和被动行为数据中提取客户的位置信息,并利用所述位置信息得到第一有向序列图;  所述第一有向序列图中的点表示小区,以第一小区为起点,以第二小区为终点的边表示用户从第一小区移动到第二小区;  基于图论对所述第一有向序列图进行分析处理,删除所述第一有向序列图中冗余数据对应的冗余的边和/或点,得到第二有向序列图;  将所述第二有向序列图记录的位置信息保存到客户位置信息事实表。

【技术特征摘要】
1.一种客户网络行为数据重构方法,其特征在于,包括:将客户网络行为数据分为客户主动行为数据和客户被动行为数据;从客户的主动行为数据中提取客户的行为信息并保存到行为信息事实表中;从客户的主动行为数据和被动行为数据中提取客户的位置信息,并利用所述位置信息得到第一有向序列图;所述第一有向序列图中的点表示小区,以第一小区为起点,以第二小区为终点的边表示用户从第一小区移动到第二小区;基于图论对所述第一有向序列图进行分析处理,删除所述第一有向序列图中冗余数据对应的冗余的边和/或点,得到第二有向序列图;将所述第二有向序列图记录的位置信息保存到客户位置信息事实表。2.根据权利要求1所述的客户网络行为数据重构方法,其特征在于,所述客户网络行为数据为:从小区短信系统接口采集到的原始客户网络行为数据;或对所述原始客户网络行为数据进行数据清洗得到的数据。3.根据权利要求1或2所述的客户网络行为数据重构方法,其特征在于,所述冗余数据为异常位置更新行为数据、乒乓切换数据或循环走动数据。4.根据权利要求3所述的客户网络行为数据重构方法,其特征在于,基于图论对所述第一有向序列图进行分析处理,删除所述第一有向序列图中冗余数据对应的冗余的边和/或点,得到第二有向序列图具体为:清除第一有向序列图中所有从自身到自身的有向序列边,得到所述第二有向序列图。5.根据权利要求3所述的客户网络行为数据重构方法,其特征在于,基于图论对所述第一有向序列图进行分析处理,删除所述第一有向序列图中冗余数据对应的冗余的边和/或点,得到第二有向序列图具体为:根据所述第一有向序列图中获取所有的目标集,所述目标集中任意两个相邻的点之间都可能存在乒乓切换;对于每一个目标集,计算其中的每个点的总度数;在目标集中的任意一个点的总度数大于预设阈值时,保留目标集中总度数最大的点,并将所述第一有向序列图中连接到目标集的边都连接到总度数最大的点上,所有从目标集出去的边都改为从总度数最大的点出去,得到所述第二有向序列图。6.根据权利要求3所述的客户网络行为数据重构方法,其特征在于,基于图论对所述第一有向序列图进行分析处理,删除所述第一有向序列图中冗余数据对应的冗余的边和/或点,得到第二有向序列图具体为:根据所述第一有向序列图中获取由有向回路组成的第一集合;从所述第一集合中删除部分有向回路,得到第二集合,被删除的有向回路的点集为其他有向回路的真子集,或者被删除的有向回路的点集与其他有向回路的点集的交集不是空集,且被删除的有向回路包括的点的数量较小,或者被删除的有向回路的点集与其他有向回路的点集的交集不是空集,且被删除的有向回路较晚出现;从第一有向序列图中删除第二集合中的有向回路所对应的边,并删除孤立点,得到所述第二有向序列图。7.根据权利要求1或2所述的客户网络行为数据重构方法,其特征在于...

【专利技术属性】
技术研发人员:肖萍何莹王永雄周旋新彭宏马千里林古立
申请(专利权)人:中国移动通信集团广东有限公司华南理工大学
类型:发明
国别省市:81[中国|广州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1