【技术实现步骤摘要】
一种确定用户身份类别的方法及装置
本申请涉及计算机信息
,尤其涉及一种确定用户身份类别的方法及装置。
技术介绍
许多服务提供商的业务的开展依赖于对客户资料的收集。服务提供商收集到上述客户的资料后,会依据客户提供的信息为客户提供服务。现有技术中对客户资料的收集和处理,往往由客户直接向服务提供商提供所需资料,提出服务需求,服务提供商依据客户提供的资料为客户提供服务。但这种方式的缺陷在于:资料的收集完全依赖于客户主动,服务提供商只能被动接收,因此,服务提供商无法主动及时寻找到潜在客户,并且由于客户提供资料的局限性,也难以对客户提供的资料进行统计分析。而与此同时,随着互联网的广泛应用,用户在使用互联网的过程中,在互联网上存储了大量带有用户信息的数据。如何利用用户留存在互联网上的数据对用户进行分析处理,确定用户的类别,例如用户的社会身份类别,从而寻找到潜在用户,成为了亟待解决的问题。
技术实现思路
本申请实施例提供了一种确定用户身份类别的方法和装置,旨在对用户相关的数据信息进行主动收集和分析处理,从而确定用户身份类别。为实现上述目的,本申请实施例提供了一种确定用户身份类别的方法,其特征在于,所述方法包括:接收用户的数据信息,所述数据信息包括多个含有用户身份信息的标记文本;将多个所述标记文本与关键词词库中的属性关键词进行匹配;其中,所述关键词词库中包括至少一个属性关键词及与属性关键词对应的类别;统计所述标记文本与类别相对应的对应次数;其中,所述类别对应与所述标记文本相匹配的属性关键词;依据用户的所述标记文本与所述类别的对应次数,确定用户身份类别。作为优选,本申请实施 ...
【技术保护点】
一种确定用户身份类别的方法,其特征在于,所述方法包括:接收用户的数据信息,所述数据信息包括多个含有用户身份信息的标记文本;将多个所述标记文本与关键词词库中的属性关键词进行匹配;其中,所述关键词词库中包括至少一个属性关键词及与属性关键词对应的类别;统计所述标记文本与类别相对应的对应次数;其中,所述类别对应与所述标记文本相匹配的属性关键词;依据用户的所述标记文本与所述类别的对应次数,确定用户身份类别。
【技术特征摘要】
1.一种确定用户身份类别的方法,其特征在于,所述方法包括:接收用户的数据信息,所述数据信息包括多个含有用户身份信息的标记文本;将多个所述标记文本与关键词词库中的属性关键词进行匹配;其中,所述关键词词库中包括至少一个属性关键词及与属性关键词对应的类别;统计所述标记文本与类别相对应的对应次数;其中,所述类别对应与所述标记文本相匹配的属性关键词;依据用户的所述标记文本与所述类别的对应次数,确定用户身份类别。2.按照权利要求1所述方法,其特征在于,在接收用户的数据信息之后,在将多个所述标记文本与关键词词库中的属性关键词进行匹配之前,还包括:对所述标记文本进行分词,将所述标记文本切分成至少一个切分词;将多个所述标记文本与关键词词库中的属性关键词进行匹配,包括:将所述标记文本中的所述切分词分别与所述属性关键词进行匹配。3.按照权利要求2所述方法,其特征在于,统计所述标记文本与类别相对应的对应次数,包括:若所述切分词与所述属性关键词匹配,则将所述属性关键词所对应的类别与包含所述切分词的标记文本相对应的对应次数增加一个步长单位或者计为一个步长单位;将相同的类别与用户的各标记文本相对应的对应次数进行累加,确定用户的标记文本与各类别相对应的对应次数。4.按照权利要求1所述方法,其特征在于,所述数据信息还包括用户的认证信息;依据用户的所述标记文本与所述类别的对应次数,确定用户身份类别,包括:对于有认证信息的已认证用户,将与该用户的认证信息一致的类别作为已认证类别;将所述已认证类别对应的类别,确定为有认证信息的已认证用户的身份类别;依据所述已认证用户的标记文本与所述已认证类别相对应的对应次数,计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率,记为第一概率;依据所述第一概率,确定所述未认证用户的身份类别。5.按照权利要求4所述方法,其特征在于,依据所述已认证用户的标记文本与所述已认证类别相对应的对应次数,计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率,包括:对所述已认证类别,计算已认证用户的标记文本与所述已认证类别相对应的条件下,各对应次数出现的条件概率,记为第二概率;对已认证用户的标记文本与已认证类别相对应的对应次数,将不大于对应次数本数的各对应次数对应的所述第二概率进行累加,记为第三概率;依据所述第三概率,确定所述第一概率;所述第一概率与所述第三概率在所述类别和所述对应次数上一一对应。6.按照权利要求5所述方法,其特征在于,对所述已认证类别,计算已认证用户的标记文本与所述已认证类别相对应的条件下,各对应次数出现的条件概率,包括:对所述已认证类别,统计与所述已认证类别相对应的已认证用户的总数,记为第一统计量;对已认证类别与已认证用户的标记文本相对应的对应次数,统计各相同的对应次数出现的数量,记为第二统计量;对已认证类别与已认证用户的标记文本相对应的各对应次数,分别以所述第二统计量为被除数、以所述第一统计量为除数,计算得到已认证用户的标记文本与所述已认证类别相对应的条件下、各对应次数出现的条件概率,记为所述第二概率。7.按照权利要求4所述方法,其特征在于,依据所述第一概率,确定所述未认证用户的身份类别,包括:将所述未认证用户的标记文本相对应的类别中所述第一概率最高的预设个类别对应的类别确定为所述未认证用户的身份类别。8.按照权利要求4所述方法,其特征在于,所述数据信息还包括用户的注册信息和业务信息;在依据所述已认证用户的标记文本与所述已认证类别相对应的对应次数,计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率之后,还包括:将所述注册信息和所述业务信息分别进行分类;将包含同类注册信息和同类业务信息的未认证用户分入同一群组中;依据未认证用户的标记文本与各类别相对应的对应次数,将与所述对应次数相应的所述第一概率作为未认证用户的标记文本与各类别相对应的概率;依据分入同一群组的各未认证用户的标记文本与相同类别相对应的概率,按照预设计算规则计算得到该组用户与各类别相对应的概率,记为第四概率;依据所述第一概率和所述第四概率,确定所述未认证用户的身份类别。9.按照权利要求8所述方法,其特征在于,所述预设计算规则包括:将分入同一群组的各未认证用户的标记文本与相同类别相对应的概率进行数学平均计算或者加权平均计算。10.按照权利要求8所述方法,其特征在于,依据所述第一概率和所述第四概率,确定所述未认证用户的身份类别,包括:将与所述未认证用户的标记文本相对应的各类别所对应的所述第一概率和所述第四概率相比较,将概率最高的预设个类别对应的类别...
【专利技术属性】
技术研发人员:李辉,梅炜,操颖平,林嘉南,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。