【技术实现步骤摘要】
本专利技术涉及一种构建用户画像的系统。
技术介绍
用户画像,即用户信息标签化,就是通过收集与分析用户社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户全貌是支撑个性化推荐、自动化营销等大数据应用的基本方式。用户画像为公司或企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。然而,现有的用户画像构建的方法中,对用户上网数据分析不全面、不准确,从而导致构建的用户画像不能很好的体现用户全貌,无法满足广告运营商或者企业找到精准用户的需求。
技术实现思路
本专利技术主要解决的技术问题是提供一种构建用户画像的系统,通过该系统能够构建全息多维度的用户画像。为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种构建用户画像的系统,所述构建用户画像的系统包括数据采集模块、数据预处理模块、数据分析模块、数据应用模块以及数据业务模块,其中:所述数据采集模块用于采集所述用户互联网上网日志数据;所述数据预处理模块用于对所述用户互联网上网日志数据进行预处理;所述数据分析模块用于对预处理后的所述互联网上网日志数据进行特征提取,得到所述用户的属性特征;所述数据应用模块用于基于已建立的多维特征库训练的标签分类,根据所述用户的属性特征在所述多维特征库中进行匹配,得到所述用户的多维度属性标签,所述多维度属性标签至少包括所述用户的基本属性标签、社会属性标签、上网行为属性标签、行为习惯属性标签以及兴趣特征属性标签;所述数据业务模块用于根据所述多维度属性标签构建所述用户画像。其中,所述数据分析模块用于分别通过离线和在线方 ...
【技术保护点】
一种构建用户画像的系统,其特征在于,所述构建用户画像的系统包括数据采集模块、数据预处理模块、数据分析模块、数据应用模块以及数据业务模块,其中:所述数据采集模块用于采集所述用户互联网上网日志数据;所述数据预处理模块用于对所述用户互联网上网日志数据进行预处理;所述数据分析模块用于对预处理后的所述互联网上网日志数据进行特征提取,得到所述用户的属性特征;所述数据应用模块用于基于已建立的多维特征库训练的标签分类,根据所述用户的属性特征在所述多维特征库中进行匹配,得到所述用户的多维度属性标签,所述多维度属性标签至少包括所述用户的基本属性标签、社会属性标签、上网行为属性标签、行为习惯属性标签以及兴趣特征属性标签;所述数据业务模块用于根据所述多维度属性标签构建所述用户画像。
【技术特征摘要】
1.一种构建用户画像的系统,其特征在于,所述构建用户画像的系统包括数据采集模块、数据预处理模块、数据分析模块、数据应用模块以及数据业务模块,其中:所述数据采集模块用于采集所述用户互联网上网日志数据;所述数据预处理模块用于对所述用户互联网上网日志数据进行预处理;所述数据分析模块用于对预处理后的所述互联网上网日志数据进行特征提取,得到所述用户的属性特征;所述数据应用模块用于基于已建立的多维特征库训练的标签分类,根据所述用户的属性特征在所述多维特征库中进行匹配,得到所述用户的多维度属性标签,所述多维度属性标签至少包括所述用户的基本属性标签、社会属性标签、上网行为属性标签、行为习惯属性标签以及兴趣特征属性标签;所述数据业务模块用于根据所述多维度属性标签构建所述用户画像。2.根据权利要求1所述的系统,其特征在于,所述数据分析模块用于分别通过离线和在线方式对预处理后的所述互联网上网日志数据进行分析处理,得到所述用户的属性特征。3.根据权利要求1所述的系统,其特征在于,所述数据分析模块包括加载单元以及离线分析单元,其中:所述加载单元用于将预处理后的所述互联网上网日志数据加载到数据存储平台中;所述离线分析单元用于结合数据存储平台中存储的历史数据,基于Hadoop开源映射/化简计算框架,对所述预处理后的所述互联网上网日志数据进行离线分析处理,得到所述用户的属性特征。4.根据权利要求1所述的系统,其特征在于,所述数据分析模块包括分布单元以及在线分析单元,其中:所述分布单元用于将预处理后的所述互联网上网日志数据均匀分布到卡夫卡集群;所述在线分析单元用于通过Spark核心流计算平台实时从所述卡夫卡集群拉取数据并进行实时流计算分析处理,得到所述用户的属性特征。5.根据权利要求1所述的系统,其特征在于,所述已建立的多维特征库包括运营商基础信息库、终端类型基础库、应用程序分类库、统一资源定位符URL分类库、访问网站及行为规律统计特征库、上网内容聚类结果库、用户群体分类库、命名实体识别内容提取库、动态标签分类管理库、互联网网站特征库、历史用户兴趣关注点库以及终端移动轨迹变化库中的至少一种。6.根据权利要求5所述的系统,其特征在于,所述数据分析模块还用于构建所述多维特征库,其中,所述数据分析模块通过以下方式构建所述多维特征库:通过外围系统或呼叫详细记录话单日志数据的接入,对所有用户的国际用户识别码、所属运营商、网络类型、归属地、漫游地、位置中的至少一种基础信息进行提取分析,累积得到所述运营商基础信息库;或通过获取所有用户互联网上网日志数据,对所述所有用户互联网上网日志数据中的移动终端国际身份码、终端型号、品牌类型、终端操作系统中的至少一种相关信息进行提取分析,累积得到所述终端类型基础库;或通过获取所有用户互联网上网日志数据,过滤掉无效URL,针对有效的URL建立所述有效URL所属网站的所述URL分类库;或通过获取所有用户的互联网上网日志数据,从所述所有用户的互联网上网日志数据中提取应用程序...
【专利技术属性】
技术研发人员:吴震,王博,常为领,王洋,王永建,薛晨,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。