一种评估用户画像数据的方法及系统技术方案

技术编号:17408320 阅读:36 留言:0更新日期:2018-03-07 05:43
本申请公开了一种评估用户画像数据的方法和系统。该方法获取用户画像数据集在至少一个第一维度上的分布信息;根据所述分布信息从样本数据集中提取出评估数据集;其中,所述评估数据集中的数据在所述至少一个第一维度上的分布与所述分布信息描述的分布一致;利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度。

A method and system for evaluating user's portrait data

The present application discloses a method and system for evaluating the user's portrait data. The method of obtaining the user image data set distribution information of at least one of the first dimension; according to the distribution of information extracted from the evaluation data set from sample data; among them, the evaluation of distribution is consistent data set of data in the at least one first dimension and the distribution of information description; the accuracy of the evaluation data set second dimensions of the data obtained by the user portrait dataset of the second dimensions of the.

【技术实现步骤摘要】
一种评估用户画像数据的方法及系统
本申请涉及数据挖掘领域,特别地,涉及一种评估用户画像数据的方法及系统。
技术介绍
相比传统的线下会员管理、问卷调查等,大数据技术使得企业能够通过互联网更便利地获取用户多方面的信息,更精准地了解用户的行为习惯、消费习惯等。通过大数据挖掘得出的用户画像可以应用在企业的精准营销和定向市场推广活动中。用户画像(UserPersona)是通过将收集到的用户信息分类并进行标签化,从而抽象得出的用户模型。用户画像可以包括用户各方面的信息所属的分类,例如,一个用户的用户画像可以包括女性、北京、80后、白领、爱看美剧、有孩子、喜欢兰蔻,等。
技术实现思路
本申请实施例提供了一种评估用户画像数据的方法和系统,可以利用样本数据对用户画像数据的准确度进行评估。本申请实施例的一种评估用户画像数据的方法包括:获取用户画像数据集在至少一个第一维度上的分布信息;根据所述分布信息从样本数据集中提取出评估数据集;其中,所述评估数据集中的数据在所述至少一个第一维度上的分布与所述分布信息描述的分布一致;利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度。本申请实施例的一种评估用户画像数据的系统包括:分布获取模块,用于获取用户画像数据集在至少一个第一维度上的分布信息;样本提取模块,用于根据所述分布信息从样本数据集中提取出评估数据集;其中,所述评估数据集中的数据在所述至少一个第一维度上的分布与所述分布信息描述的分布一致;评估模块,用于利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度。本申请各实施例从样本数据集中选取与用户画像数据分布一致的评估数据,能够使得提取的评估数据对用户画像数据具有代表性,从而使评估结果更加客观、准确。附图说明图1为一种对用户画像数据进行评估的方法的流程图;图2为一种从样本数据集中提取评估数据集的方法流程图;图3为一种评估用户画像数据集中数据准确度的方法流程图;图4为本专利技术实施例的评估用户画像数据的系统示意图。具体实施方式各实施例提供了一种对用户画像数据进行评估的方法,根据用户画像数据在某个或某些维度上的分布情况对样本数据进行筛选,从而得到与用户画像数据分布一致的评估数据。图1为一种对用户画像数据进行评估的方法的流程图。如图1所示,该方法10可以包括以下步骤。步骤S11,获取用户画像数据集在至少一个第一维度上的分布信息。步骤S12,根据所述分布信息从样本数据集中提取出评估数据集;其中,所述评估数据集中的数据在所述至少一个第一维度上的分布与所述分布信息描述的分布一致。步骤S13,利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度。本文中,用户画像数据集是指多个用户的画像数据的集合。其中,一个用户的画像数据包括该用户的多个维度的信息,例如用户标识、年龄、性别、出生地、所在地、学历、职业、爱好、收入情况,等。用户画像数据集可以是由某个网络服务提供者(例如,即时通信服务、社交网络服务、网络支付服务、在线购物服务,等)其用户的用户信息中提取出的用户画像数据形成的集合。用户信息可以是用户注册网络服务时填写的注册资料,或者服务提供者采集的用户行为,等。用户标识可以是用户的身份标识、联系方式信息(如电话号码、邮箱地址,等)、用户在网络服务提供者的服务器中注册的用户账号(如即时通信账号、社交账号、网络支付服务账号、购物网站账号,等),等。本文中,样本数据集是指作为样本的多个用户的数据的集合。样本数据集中的用户数据可以与用户画像数据集中的数据来源不同。例如,样本数据集可以通过委托调研公司进行用户调研,从而采集到的用户数据,或者通过调查问卷得到的用户数据,或者企业客户关系管理系统(CRM)中的数据,等。评估数据集是根据用户画像数据集在第一维度上的分布情况从样本数据集中抽取的用户数据的集合。一些例子中,评估数据集中用户数据与用户画像数据集中的用户画像数据在第一维度上具有相同的分布。维度是指用户的某一属性,例如年龄、性别、出生地、所在地、学历、职业、爱好、收入情况,等。例如,假设选取年龄、性别、所在地作为第一维度时,则根据用户画像数据集中的数据在年龄、性别、所在地的分布情况从样本数据集中提取用户数据,形成在年龄、性别、所在地这些维度上分布情况一致的评估数据集。各实施例通过从样本数据集中选取与用户画像数据分布一致的评估数据,能够使得提取的评估数据对用户画像数据具有代表性,从而使评估结果更加客观、准确。为了保证筛选出的评估数据具有代表性,一些例子采用分层抽样和协调抽样的方法来从样本数据集中抽取评估数据。图2为一种从样本数据集中提取评估数据集的方法流程图。如图2所示,该方法20可以包括以下步骤。步骤S21,将用户画像数据集中各用户的数据根据其在所述至少一个第一维度上的值分入多个画像数据组。其中,所述多个画像数据组对应不同的取值范围。一些例子中,可以将各个第一维度的取值范围分成多段,利用各第一维度的各分段的不同组合确定多个层,每层对应各第一维度的不同取值范围。分层的总数等于各第一维度分段数的乘积。例如,当第一维度为性别时,可以确定两层,分别对应性别的不同值,即男、女;当第一维度为性别和年龄时,假设性别分两段(男、女),年龄分3段(20岁以下、20岁到50岁、50岁以上),则可以分6层,每层对应不同的性别和年龄段的组合,即,20岁以下的男性、20岁到50岁的男性、50岁以上的男性、20岁以下的女性、20岁到50岁的女性、50岁以上的女性。各实施例中,分层的数目可以根据实际需要的估计精度、抽样成本、抽样难度、计算复杂度等因素来确定。确定分层后,就可以依据各层对应的取值范围将用户画像数据集中各用户的画像数据按照其第一维度的值分入多个画像数据组,每个画像数据组对应一个分层。步骤S22,根据各画像数据组中的用户信息得到所述分布信息,所述分布信息描述各用户在所述至少一个第一维度的各种取值范围上的分布。步骤S23,将所述样本数据集中各用户的数据根据其在所述至少一个第一维度上的值分入多个评估数据组。其中,所述多个评估数据组对应不同的取值范围。一些例子中,可以依据与对用户画像数据分组的相同的分层方式将样本数据集中的用户数据进行分组。此时,各画像数据组与各评估数据组为一一对应的关系,具有对应关系的画像数据组与评估数据组具有相同或相对应的取值范围。相对应的取值范围是指取值范围或者其中数值的表达方式不同,它们之间是可以依据某种规则相互转化的。另一些例子中,对样本数据集中的数据进行分组也可以采用与画像数据分组不同的分层方法。此时,画像数据组与评估数据组可以有一对多或者多对一的关系,其数值范围可以是包含和被包含的关系。步骤S24,根据所述分布信息从各评估数据组中抽取用户的数据,利用抽取出的用户的数据组成所述评估数据集。一些例子中,所述分布信息描述所述至少一个第一维度的各种取值范围上分布的用户数目。步骤S24可以包括:根据所述各种取值范围上分布的用户数目和各评估数据组中用户的数目确定抽样比例;根据所述各种取值范围上分布的用户数目与所述抽样比例确定需要从各取值范围对应的评估数据组中抽取的用户的数目。一些例子中,需要从各取值范围对应本文档来自技高网...
一种评估用户画像数据的方法及系统

【技术保护点】
一种评估用户画像数据的方法,其特征在于,包括:获取用户画像数据集在至少一个第一维度上的分布信息;根据所述分布信息从样本数据集中提取出评估数据集;其中,所述评估数据集中的数据在所述至少一个第一维度上的分布与所述分布信息描述的分布一致;利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度。

【技术特征摘要】
1.一种评估用户画像数据的方法,其特征在于,包括:获取用户画像数据集在至少一个第一维度上的分布信息;根据所述分布信息从样本数据集中提取出评估数据集;其中,所述评估数据集中的数据在所述至少一个第一维度上的分布与所述分布信息描述的分布一致;利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度。2.根据权利要求1所述的方法,其特征在于,获取用户画像数据集在至少一个第一维度上的分布信息包括:将所述用户画像数据集中各用户的数据根据其在所述至少一个第一维度上的值分入多个画像数据组,其中,所述多个画像数据组对应不同的取值范围;根据各画像数据组中的用户信息得到所述分布信息,所述分布信息描述各用户在所述至少一个第一维度的各种取值范围上的分布。3.根据权利要求2所述的方法,其特征在于,所述根据所述分布信息从样本数据集中提取出评估数据集包括:将所述样本数据集中各用户的数据根据其在所述至少一个第一维度上的值分入多个评估数据组,其中,所述多个评估数据组对应不同的取值范围,所述各评估数据组与所述各画像数据组为一一对应的关系,具有对应关系的画像数据组与评估数据组具有相同或相对应的取值范围;根据所述分布信息从各评估数据组中抽取用户的数据,利用抽取出的用户的数据组成所述评估数据集。4.根据权利要求3所述的方法,其特征在于,所述分布信息描述所述至少一个第一维度的各种取值范围上分布的用户数目;根据所述分布信息从各评估数据组中抽取用户的数据包括:根据所述各种取值范围上分布的用户数目和各评估数据组中用户的数目确定抽样比例;根据所述各种取值范围上分布的用户数目与所述抽样比例确定需要从各取值范围对应的评估数据组中抽取的用户的数目。5.根据权利要求4所述的方法,其特征在于,所述抽样比例为以下值中的一个:各评估数据组中用户数目与其对应的画像数据组中用户数目的比值按大小排列后处于预设位置的第一比值;或预设的期望抽样数目与所述用户画像数据集中用户数目的比值与所述第一比值中较小的值。6.根据权利要求4所述的方法,其特征在于,所述根据所述各种取值范围上分布的用户数目与所述抽样比例确定需要从各取值范围对应的评估数据组中抽取的用户的数目包括:所述需要从各取值范围对应的评估数据组中抽取的用户的数目等于各评估数据组对应的画像数据组中的用户数目与所述抽样比例的乘积。7.根据权利要求1所述的方法,其特征在于,利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度包括:从所述用户画像数据集中选取与所述评估数据集中每个用户的用户标识相同的用户的画像数据,利用每个用户的画像数据与该用户在评估数据集中的评估数据形成该用户对应的样本对;根据各样本对中画像数据与评估数据在所述第二维度上的差异获得所述用户画像数据集中所述第二维度上的数据的准确度。8.根据权利要求7所述的方法,其特征在于,所述各样本对中画像数据与评估数据在所述第二维度上的差异包括以下中的一个:在所述第二维度上所述画像数据的平均值与所述评估数据的平均值之间的差异;在所述第二维度上所述画像数据的方差与所述评估数据的方差之间的差异;在所述第二维度上所述画像数据的各种取值所占比率与所述评估数据的各种取值所占比率之间的差异;所述各样本对中各用户的所述画像数据在所述第二维度上的数据组成的第一数据组与各用户的所述评估数据在所述第二维度上的数据组成的第二数据组之间的差异。9.根据权利要求8所述的...

【专利技术属性】
技术研发人员:尹红军张纪红肖磊
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1