The present application discloses a method and system for evaluating the user's portrait data. The method of obtaining the user image data set distribution information of at least one of the first dimension; according to the distribution of information extracted from the evaluation data set from sample data; among them, the evaluation of distribution is consistent data set of data in the at least one first dimension and the distribution of information description; the accuracy of the evaluation data set second dimensions of the data obtained by the user portrait dataset of the second dimensions of the.
【技术实现步骤摘要】
一种评估用户画像数据的方法及系统
本申请涉及数据挖掘领域,特别地,涉及一种评估用户画像数据的方法及系统。
技术介绍
相比传统的线下会员管理、问卷调查等,大数据技术使得企业能够通过互联网更便利地获取用户多方面的信息,更精准地了解用户的行为习惯、消费习惯等。通过大数据挖掘得出的用户画像可以应用在企业的精准营销和定向市场推广活动中。用户画像(UserPersona)是通过将收集到的用户信息分类并进行标签化,从而抽象得出的用户模型。用户画像可以包括用户各方面的信息所属的分类,例如,一个用户的用户画像可以包括女性、北京、80后、白领、爱看美剧、有孩子、喜欢兰蔻,等。
技术实现思路
本申请实施例提供了一种评估用户画像数据的方法和系统,可以利用样本数据对用户画像数据的准确度进行评估。本申请实施例的一种评估用户画像数据的方法包括:获取用户画像数据集在至少一个第一维度上的分布信息;根据所述分布信息从样本数据集中提取出评估数据集;其中,所述评估数据集中的数据在所述至少一个第一维度上的分布与所述分布信息描述的分布一致;利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度。本申请实施例的一种评估用户画像数据的系统包括:分布获取模块,用于获取用户画像数据集在至少一个第一维度上的分布信息;样本提取模块,用于根据所述分布信息从样本数据集中提取出评估数据集;其中,所述评估数据集中的数据在所述至少一个第一维度上的分布与所述分布信息描述的分布一致;评估模块,用于利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度。本申请各实 ...
【技术保护点】
一种评估用户画像数据的方法,其特征在于,包括:获取用户画像数据集在至少一个第一维度上的分布信息;根据所述分布信息从样本数据集中提取出评估数据集;其中,所述评估数据集中的数据在所述至少一个第一维度上的分布与所述分布信息描述的分布一致;利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度。
【技术特征摘要】
1.一种评估用户画像数据的方法,其特征在于,包括:获取用户画像数据集在至少一个第一维度上的分布信息;根据所述分布信息从样本数据集中提取出评估数据集;其中,所述评估数据集中的数据在所述至少一个第一维度上的分布与所述分布信息描述的分布一致;利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度。2.根据权利要求1所述的方法,其特征在于,获取用户画像数据集在至少一个第一维度上的分布信息包括:将所述用户画像数据集中各用户的数据根据其在所述至少一个第一维度上的值分入多个画像数据组,其中,所述多个画像数据组对应不同的取值范围;根据各画像数据组中的用户信息得到所述分布信息,所述分布信息描述各用户在所述至少一个第一维度的各种取值范围上的分布。3.根据权利要求2所述的方法,其特征在于,所述根据所述分布信息从样本数据集中提取出评估数据集包括:将所述样本数据集中各用户的数据根据其在所述至少一个第一维度上的值分入多个评估数据组,其中,所述多个评估数据组对应不同的取值范围,所述各评估数据组与所述各画像数据组为一一对应的关系,具有对应关系的画像数据组与评估数据组具有相同或相对应的取值范围;根据所述分布信息从各评估数据组中抽取用户的数据,利用抽取出的用户的数据组成所述评估数据集。4.根据权利要求3所述的方法,其特征在于,所述分布信息描述所述至少一个第一维度的各种取值范围上分布的用户数目;根据所述分布信息从各评估数据组中抽取用户的数据包括:根据所述各种取值范围上分布的用户数目和各评估数据组中用户的数目确定抽样比例;根据所述各种取值范围上分布的用户数目与所述抽样比例确定需要从各取值范围对应的评估数据组中抽取的用户的数目。5.根据权利要求4所述的方法,其特征在于,所述抽样比例为以下值中的一个:各评估数据组中用户数目与其对应的画像数据组中用户数目的比值按大小排列后处于预设位置的第一比值;或预设的期望抽样数目与所述用户画像数据集中用户数目的比值与所述第一比值中较小的值。6.根据权利要求4所述的方法,其特征在于,所述根据所述各种取值范围上分布的用户数目与所述抽样比例确定需要从各取值范围对应的评估数据组中抽取的用户的数目包括:所述需要从各取值范围对应的评估数据组中抽取的用户的数目等于各评估数据组对应的画像数据组中的用户数目与所述抽样比例的乘积。7.根据权利要求1所述的方法,其特征在于,利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度包括:从所述用户画像数据集中选取与所述评估数据集中每个用户的用户标识相同的用户的画像数据,利用每个用户的画像数据与该用户在评估数据集中的评估数据形成该用户对应的样本对;根据各样本对中画像数据与评估数据在所述第二维度上的差异获得所述用户画像数据集中所述第二维度上的数据的准确度。8.根据权利要求7所述的方法,其特征在于,所述各样本对中画像数据与评估数据在所述第二维度上的差异包括以下中的一个:在所述第二维度上所述画像数据的平均值与所述评估数据的平均值之间的差异;在所述第二维度上所述画像数据的方差与所述评估数据的方差之间的差异;在所述第二维度上所述画像数据的各种取值所占比率与所述评估数据的各种取值所占比率之间的差异;所述各样本对中各用户的所述画像数据在所述第二维度上的数据组成的第一数据组与各用户的所述评估数据在所述第二维度上的数据组成的第二数据组之间的差异。9.根据权利要求8所述的...
【专利技术属性】
技术研发人员:尹红军,张纪红,肖磊,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。