一种构建用户画像的系统技术方案

技术编号:14828532 阅读:63 留言:0更新日期:2017-03-16 15:00
本发明专利技术公开了一种构建用户画像的系统。其中,构建用户画像的系统通过数据采集模块用于采集用户互联网上网日志数据,数据预处理模块用于对用户互联网上网日志数据进行预处理,数据分析模块用于对预处理后的互联网上网日志数据进行特征提取,得到用户的属性特征,数据应用模块用于基于已建立的多维特征库训练的标签分类,根据用户的属性特征在多维特征库中进行匹配,得到用户的多维度属性标签,数据业务模块用于根据所述多维度属性标签构建所述用户画像。通过本发明专利技术提供的系统,能够构建出全息的多维度用户画像,从而能够满足运营商/企业/公司快速精准广告投放和用户群体的消费行为的推荐。

【技术实现步骤摘要】

本专利技术涉及一种构建用户画像的系统
技术介绍
用户画像,即用户信息标签化,就是通过收集与分析用户社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户全貌是支撑个性化推荐、自动化营销等大数据应用的基本方式。用户画像为公司或企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。然而,现有的用户画像构建的方法中,对用户上网数据分析不全面、不准确,从而导致构建的用户画像不能很好的体现用户全貌,无法满足广告运营商或者企业找到精准用户的需求。
技术实现思路
本专利技术主要解决的技术问题是提供一种构建用户画像的系统,通过该系统能够构建全息多维度的用户画像。为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种构建用户画像的系统,所述构建用户画像的系统包括数据采集模块、数据预处理模块、数据分析模块、数据应用模块以及数据业务模块,其中:所述数据采集模块用于采集所述用户互联网上网日志数据;所述数据预处理模块用于对所述用户互联网上网日志数据进行预处理;所述数据分析模块用于对预处理后的所述互联网上网日志数据进行特征提取,得到所述用户的属性特征;所述数据应用模块用于基于已建立的多维特征库训练的标签分类,根据所述用户的属性特征在所述多维特征库中进行匹配,得到所述用户的多维度属性标签,所述多维度属性标签至少包括所述用户的基本属性标签、社会属性标签、上网行为属性标签、行为习惯属性标签以及兴趣特征属性标签;所述数据业务模块用于根据所述多维度属性标签构建所述用户画像。其中,所述数据分析模块用于分别通过离线和在线方式对预处理后的所述互联网上网日志数据进行分析处理,得到所述用户的属性特征。其中,所述数据分析模块包括加载单元以及离线分析单元,其中:所述加载单元用于将预处理后的所述互联网上网日志数据加载到数据存储平台中;所述离线分析单元用于结合数据存储平台中存储的历史数据,基于Hadoop开源映射/化简计算框架,对所述预处理后的所述互联网上网日志数据进行离线分析处理,得到所述用户的属性特征。其中,所述数据分析模块包括分布单元以及在线分析单元,其中:所述分布单元用于将预处理后的所述互联网上网日志数据均匀分布到卡夫卡集群;所述在线分析单元用于通过Spark核心流计算平台实时从所述卡夫卡集群拉取数据并进行实时流计算分析处理,得到所述用户的属性特征。其中,所述已建立的多维特征库包括运营商基础信息库、终端类型基础库、应用程序分类库、统一资源定位符URL分类库、访问网站及行为规律统计特征库、上网内容聚类结果库、用户群体分类库、命名实体识别内容提取库、动态标签分类管理库、互联网网站特征库、历史用户兴趣关注点库以及终端移动轨迹变化库中的至少一种。其中,所述数据分析模块还用于构建所述多维特征库,其中,所述数据分析模块通过以下方式构建所述多维特征库:通过外围系统或呼叫详细记录话单日志数据的接入,对所有用户的国际用户识别码、所属运营商、网络类型、归属地、漫游地、位置中的至少一种基础信息进行提取分析,累积得到所述运营商基础信息库;或通过获取所有用户互联网上网日志数据,对所述所有用户互联网上网日志数据中的移动终端国际身份码、终端型号、品牌类型、终端操作系统中的至少一种相关信息进行提取分析,累积得到所述终端类型基础库;或通过获取所有用户互联网上网日志数据,过滤掉无效URL,针对有效的URL建立所述有效URL所属网站的所述URL分类库;或通过获取所有用户的互联网上网日志数据,从所述所有用户的互联网上网日志数据中提取应用程序类型,通过人工和自动相结合的方式定期对所述应用程序类型进行分类、统计,以形成所述应用程序分类库;或通过获取所有用户的互联网上网日志数据,针对每个用户的上网情况,对用户的常去访问网站以及行为进行累积统计,形成所述访问网站和行为规律统计特征库;或通过获取所有用户的互联网上网日志数据,针对每个用户的上网产生的日志情况,对所述每个用户常在日志中产生的用户内容形成基于用户内容的特征聚类,产生所述上网内容聚类结果库;或通过获取所有用户的互联网上网日志数据,对具有相同特征标签或相同属性或相同业务特征的用户进行聚类合并,形成所述用户群体分类库;或通过结合离线存储所有用户的互联网上网日志数据,对所有用户的上网行为进行分析,对产生的行为进行统计,进而对用户关注内容进行聚类分析以形成所述历史用户兴趣关注点库;或通过对所有用户的互联网上网日志数据中导航地图类应用程序进行分析,得到用户移动变化的经纬度位置信息,将所述经纬度信息与地理信息系统展示结合,得到用户的移动轨迹,同时对用户位置停留时间进行统计,从而得到每个用户常去地区,对所有用户常去地区进行汇总从而形成所述终端移动轨迹变化库;或根据所有用户的互联网上网日志数据,通过主流的命名实体识别算法及训练样本集,对上网内容中具有特定意义的实体进行提取,建立所述命名实体识别内容提取库;或预先根据互联网网站的分类标准,根据所有用户的互联网上网日志,对所述所有用户的互联网上网日志中的互联网网站进行特征收集,构建所述互联网网站特征库;或基于每个特征库训练的标签分类,将所有特征库训练的标签分类进行汇总归并,建立用户偏好的所述动态标签分类管理库。其中,所述用户的基本属性标签包括用户名、用户标识、性别、民族、国籍、年龄区间段、学历、职业、收入水平、用户终端、国际用户识别码、国际移动终端标识码、所属运营商、网络类型、归属地、漫游地、位置、终端品牌类型、终端型号、终端操作系统以及终端安装的应用程序中的至少一种;所述社会属性标签包括行业、职业、工作地点、居住地点、银行卡、会员卡以及交通工具中的至少一种;所述上网行为属性标签包括浏览、搜索、下载、购买以及评论中的至少一种;所述行为习惯属性标签包括日均上网时间、常登录网站以及常用应用程序中的至少一种;所述兴趣特征属性标签包括体育、音乐、社交、资讯、购物、休闲、旅游、游戏以及投资理财中的至少一种。其中,所述数据应用模块还用于在所述已建立的多维特征库中找不到与所述用户的属性特征匹配的多维度属性标签时,将所述用户的属性特征以及对应的多维度属性标签添加到所述多维特征库中。其中,所述数据采集模块用于实时采集所述用户互联网上网日志数据,以对所述用户的多维度属性标签进行更新。其中,所述互联网上网日志数据为移动互联网上网日志数据。本专利技术的有益效果是:区别于现有技术的情况,本专利技术提供的构建用户画像的系统,该构建用户画像的系统包括数据采集模块、数据预处理模块、数据分析模块、数据应用模块以及数据业务模块,其中:数据采集模块用于采集用户互联网上网日志数据,数据预处理模块用于对用户互联网上网日志数据进行预处理,数据分析模块用于对预处理后的互联网上网日志数据进行特征提取,得到用户的属性特征,数据应用模块用于基于已建立的多维特征库训练的标签分类,根据用户的属性特征在多维特征库中进行匹配,得到用户的多维度属性标签,数据业务模块用于根据所述多维度属性标签构建所述用户画像。通过本专利技术提供的系统,能够对用户的上网数据进行全面、准确的分析从而确定用户的多维度属性标签,从而根据多维度属性标签构建用户画像,能够构建出全息的多维度用户画像,从本文档来自技高网...
一种构建用户画像的系统

【技术保护点】
一种构建用户画像的系统,其特征在于,所述构建用户画像的系统包括数据采集模块、数据预处理模块、数据分析模块、数据应用模块以及数据业务模块,其中:所述数据采集模块用于采集所述用户互联网上网日志数据;所述数据预处理模块用于对所述用户互联网上网日志数据进行预处理;所述数据分析模块用于对预处理后的所述互联网上网日志数据进行特征提取,得到所述用户的属性特征;所述数据应用模块用于基于已建立的多维特征库训练的标签分类,根据所述用户的属性特征在所述多维特征库中进行匹配,得到所述用户的多维度属性标签,所述多维度属性标签至少包括所述用户的基本属性标签、社会属性标签、上网行为属性标签、行为习惯属性标签以及兴趣特征属性标签;所述数据业务模块用于根据所述多维度属性标签构建所述用户画像。

【技术特征摘要】
1.一种构建用户画像的系统,其特征在于,所述构建用户画像的系统包括数据采集模块、数据预处理模块、数据分析模块、数据应用模块以及数据业务模块,其中:所述数据采集模块用于采集所述用户互联网上网日志数据;所述数据预处理模块用于对所述用户互联网上网日志数据进行预处理;所述数据分析模块用于对预处理后的所述互联网上网日志数据进行特征提取,得到所述用户的属性特征;所述数据应用模块用于基于已建立的多维特征库训练的标签分类,根据所述用户的属性特征在所述多维特征库中进行匹配,得到所述用户的多维度属性标签,所述多维度属性标签至少包括所述用户的基本属性标签、社会属性标签、上网行为属性标签、行为习惯属性标签以及兴趣特征属性标签;所述数据业务模块用于根据所述多维度属性标签构建所述用户画像。2.根据权利要求1所述的系统,其特征在于,所述数据分析模块用于分别通过离线和在线方式对预处理后的所述互联网上网日志数据进行分析处理,得到所述用户的属性特征。3.根据权利要求1所述的系统,其特征在于,所述数据分析模块包括加载单元以及离线分析单元,其中:所述加载单元用于将预处理后的所述互联网上网日志数据加载到数据存储平台中;所述离线分析单元用于结合数据存储平台中存储的历史数据,基于Hadoop开源映射/化简计算框架,对所述预处理后的所述互联网上网日志数据进行离线分析处理,得到所述用户的属性特征。4.根据权利要求1所述的系统,其特征在于,所述数据分析模块包括分布单元以及在线分析单元,其中:所述分布单元用于将预处理后的所述互联网上网日志数据均匀分布到卡夫卡集群;所述在线分析单元用于通过Spark核心流计算平台实时从所述卡夫卡集群拉取数据并进行实时流计算分析处理,得到所述用户的属性特征。5.根据权利要求1所述的系统,其特征在于,所述已建立的多维特征库包括运营商基础信息库、终端类型基础库、应用程序分类库、统一资源定位符URL分类库、访问网站及行为规律统计特征库、上网内容聚类结果库、用户群体分类库、命名实体识别内容提取库、动态标签分类管理库、互联网网站特征库、历史用户兴趣关注点库以及终端移动轨迹变化库中的至少一种。6.根据权利要求5所述的系统,其特征在于,所述数据分析模块还用于构建所述多维特征库,其中,所述数据分析模块通过以下方式构建所述多维特征库:通过外围系统或呼叫详细记录话单日志数据的接入,对所有用户的国际用户识别码、所属运营商、网络类型、归属地、漫游地、位置中的至少一种基础信息进行提取分析,累积得到所述运营商基础信息库;或通过获取所有用户互联网上网日志数据,对所述所有用户互联网上网日志数据中的移动终端国际身份码、终端型号、品牌类型、终端操作系统中的至少一种相关信息进行提取分析,累积得到所述终端类型基础库;或通过获取所有用户互联网上网日志数据,过滤掉无效URL,针对有效的URL建立所述有效URL所属网站的所述URL分类库;或通过获取所有用户的互联网上网日志数据,从所述所有用户的互联网上网日志数据中提取应用程序...

【专利技术属性】
技术研发人员:吴震王博常为领王洋王永建薛晨
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1