一种确定用户身份类别的方法及装置制造方法及图纸

技术编号:15695425 阅读:47 留言:0更新日期:2017-06-24 10:53
本申请公开了确定用户身份类别的方法,包括:接收用户的数据信息,数据信息包括多个含有用户身份信息的标记文本;将多个标记文本与关键词词库中的属性关键词进行匹配;其中,关键词词库中包括至少一个属性关键词及与属性关键词对应的类别;统计标记文本与类别相对应的对应次数;其中,类别对应与标记文本相匹配的属性关键词;依据用户的标记文本与类别的对应次数,确定用户身份类别。本申请还公开了确定用户身份类别的装置,包括:接收模块、匹配模块、统计模块、身份类别确定模块。数据信息中还可包括认证信息、注册信息和/或业务信息。这就实现了对用户相关的数据信息进行主动收集和分析处理,从而确定用户身份类别。

【技术实现步骤摘要】
一种确定用户身份类别的方法及装置
本申请涉及计算机信息
,尤其涉及一种确定用户身份类别的方法及装置。
技术介绍
许多服务提供商的业务的开展依赖于对客户资料的收集。服务提供商收集到上述客户的资料后,会依据客户提供的信息为客户提供服务。现有技术中对客户资料的收集和处理,往往由客户直接向服务提供商提供所需资料,提出服务需求,服务提供商依据客户提供的资料为客户提供服务。但这种方式的缺陷在于:资料的收集完全依赖于客户主动,服务提供商只能被动接收,因此,服务提供商无法主动及时寻找到潜在客户,并且由于客户提供资料的局限性,也难以对客户提供的资料进行统计分析。而与此同时,随着互联网的广泛应用,用户在使用互联网的过程中,在互联网上存储了大量带有用户信息的数据。如何利用用户留存在互联网上的数据对用户进行分析处理,确定用户的类别,例如用户的社会身份类别,从而寻找到潜在用户,成为了亟待解决的问题。
技术实现思路
本申请实施例提供了一种确定用户身份类别的方法和装置,旨在对用户相关的数据信息进行主动收集和分析处理,从而确定用户身份类别。为实现上述目的,本申请实施例提供了一种确定用户身份类别的方法,其特征在于,所述方法包括:接收用户的数据信息,所述数据信息包括多个含有用户身份信息的标记文本;将多个所述标记文本与关键词词库中的属性关键词进行匹配;其中,所述关键词词库中包括至少一个属性关键词及与属性关键词对应的类别;统计所述标记文本与类别相对应的对应次数;其中,所述类别对应与所述标记文本相匹配的属性关键词;依据用户的所述标记文本与所述类别的对应次数,确定用户身份类别。作为优选,本申请实施例中,在接收用户的数据信息之后,在将多个所述标记文本与关键词词库中的属性关键词进行匹配之前,还包括:对所述标记文本进行分词,将所述标记文本切分成至少一个切分词;将多个所述标记文本与关键词词库中的属性关键词进行匹配,包括:将所述标记文本中的所述切分词分别与所述属性关键词进行匹配。作为优选,本申请实施例中,统计所述标记文本与类别相对应的对应次数,包括:若所述切分词与所述属性关键词匹配,则将所述属性关键词所对应的类别与包含所述切分词的标记文本相对应的对应次数增加一个步长单位或者计为一个步长单位;将相同的类别与用户的各标记文本相对应的对应次数进行累加,确定用户的标记文本与各类别相对应的对应次数。作为优选,本申请实施例中,所述数据信息还包括用户的认证信息;依据用户的所述标记文本与所述类别的对应次数,确定用户身份类别,包括:对于有认证信息的已认证用户,将与该用户的认证信息一致的类别作为已认证类别;将所述已认证类别对应的类别,确定为有认证信息的已认证用户的身份类别;依据所述已认证用户的标记文本与所述已认证类别相对应的对应次数,计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率,记为第一概率;依据所述第一概率,确定所述未认证用户的身份类别。作为优选,本申请实施例中,依据所述已认证用户的标记文本与所述已认证类别相对应的对应次数,计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率,包括:对所述已认证类别,计算已认证用户的标记文本与所述已认证类别相对应的条件下,各对应次数出现的条件概率,记为第二概率;对已认证用户的标记文本与已认证类别相对应的对应次数,将不大于对应次数本数的各对应次数对应的所述第二概率进行累加,记为第三概率;依据所述第三概率,确定所述第一概率;所述第一概率与所述第三概率在所述类别和所述对应次数上一一对应。作为优选,本申请实施例中,对所述已认证类别,计算已认证用户的标记文本与所述已认证类别相对应的条件下,各对应次数出现的条件概率,包括:对所述已认证类别,统计与所述已认证类别相对应的已认证用户的总数,记为第一统计量;对已认证类别与已认证用户的标记文本相对应的对应次数,统计各相同的对应次数出现的数量,记为第二统计量;对已认证类别与已认证用户的标记文本相对应的各对应次数,分别以所述第二统计量为被除数、以所述第一统计量为除数,计算得到已认证用户的标记文本与所述已认证类别相对应的条件下、各对应次数出现的条件概率,记为所述第二概率。作为优选,本申请实施例中,依据所述第一概率,确定所述未认证用户的身份类别,包括:将所述未认证用户的标记文本相对应的类别中所述第一概率最高的预设个类别对应的类别确定为所述未认证用户的身份类别。作为优选,本申请实施例中,所述数据信息还包括用户的注册信息和业务信息;在依据所述已认证用户的标记文本与所述已认证类别相对应的对应次数,计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率之后,还包括:将所述注册信息和所述业务信息分别进行分类;将包含同类注册信息和同类业务信息的未认证用户分入同一群组中;依据未认证用户的标记文本与各类别相对应的对应次数,将与所述对应次数相应的所述第一概率作为未认证用户的标记文本与各类别相对应的概率;依据分入同一群组的各未认证用户的标记文本与相同类别相对应的概率,按照预设计算规则计算得到该组用户与各类别相对应的概率,记为第四概率;依据所述第一概率和所述第四概率,确定所述未认证用户的身份类别。作为优选,本申请实施例中,所述预设计算规则包括:将分入同一群组的各未认证用户的标记文本与相同类别相对应的概率进行数学平均计算或者加权平均计算。作为优选,本申请实施例中,依据所述第一概率和所述第四概率,确定所述未认证用户的身份类别,包括:将与所述未认证用户的标记文本相对应的各类别所对应的所述第一概率和所述第四概率相比较,将概率最高的预设个类别对应的类别作为所述未认证用户的身份类别。作为优选,本申请实施例中,所述标记文本包括用户的通讯录信息和/或用户被其他用户标注的备注信息。作为优选,本申请实施例中,在接收用户的数据信息之后,在将多个所述标记文本与关键词词库中的属性关键词进行匹配之前,还包括:对所述标记文本进行预处理。作为优选,本申请实施例中,所述预处理包括以下处理方式中的一种或多种的组合:将大写字母转化为小写字母、将繁体字转化为简体字、将半角符号的字符转化为全角符号的字符、将无效字符转化为空格、删除中文字符之间的空格。作为优选,本申请实施例中,所述处理方式还包括:对所述标记文本中的同义词进行同义词替换。本申请实施例还提供了一种确定用户身份类别的装置,所述装置包括:接收模块,接收用户的数据信息,所述数据信息包括多个含有用户身份信息的标记文本;匹配模块,将多个所述标记文本与关键词词库中的属性关键词进行匹配;其中,所述关键词词库中包括至少一个属性关键词及与属性关键词对应的类别;统计模块,统计所述标记文本与类别相对应的对应次数;其中,所述类别对应与所述标记文本相匹配的属性关键词;身份类别确定模块,依据用户的所述标记文本与所述类别的对应次数,确定用户身份类别。作为优选,本申请实施例中,所述装置还包括:分词模块,对所述标记文本进行分词,将所述标记文本切分成至少一个切分词;所述匹配模块包括:匹配组件,将所述标记文本中的所述切分词分别与所述属性关键词进行匹配。作为优选,本申请实施例中,所述统计模块包括:判断组件,判断所述切分词与所述属性关键词是否匹配;计数组件本文档来自技高网...
一种确定用户身份类别的方法及装置

【技术保护点】
一种确定用户身份类别的方法,其特征在于,所述方法包括:接收用户的数据信息,所述数据信息包括多个含有用户身份信息的标记文本;将多个所述标记文本与关键词词库中的属性关键词进行匹配;其中,所述关键词词库中包括至少一个属性关键词及与属性关键词对应的类别;统计所述标记文本与类别相对应的对应次数;其中,所述类别对应与所述标记文本相匹配的属性关键词;依据用户的所述标记文本与所述类别的对应次数,确定用户身份类别。

【技术特征摘要】
1.一种确定用户身份类别的方法,其特征在于,所述方法包括:接收用户的数据信息,所述数据信息包括多个含有用户身份信息的标记文本;将多个所述标记文本与关键词词库中的属性关键词进行匹配;其中,所述关键词词库中包括至少一个属性关键词及与属性关键词对应的类别;统计所述标记文本与类别相对应的对应次数;其中,所述类别对应与所述标记文本相匹配的属性关键词;依据用户的所述标记文本与所述类别的对应次数,确定用户身份类别。2.按照权利要求1所述方法,其特征在于,在接收用户的数据信息之后,在将多个所述标记文本与关键词词库中的属性关键词进行匹配之前,还包括:对所述标记文本进行分词,将所述标记文本切分成至少一个切分词;将多个所述标记文本与关键词词库中的属性关键词进行匹配,包括:将所述标记文本中的所述切分词分别与所述属性关键词进行匹配。3.按照权利要求2所述方法,其特征在于,统计所述标记文本与类别相对应的对应次数,包括:若所述切分词与所述属性关键词匹配,则将所述属性关键词所对应的类别与包含所述切分词的标记文本相对应的对应次数增加一个步长单位或者计为一个步长单位;将相同的类别与用户的各标记文本相对应的对应次数进行累加,确定用户的标记文本与各类别相对应的对应次数。4.按照权利要求1所述方法,其特征在于,所述数据信息还包括用户的认证信息;依据用户的所述标记文本与所述类别的对应次数,确定用户身份类别,包括:对于有认证信息的已认证用户,将与该用户的认证信息一致的类别作为已认证类别;将所述已认证类别对应的类别,确定为有认证信息的已认证用户的身份类别;依据所述已认证用户的标记文本与所述已认证类别相对应的对应次数,计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率,记为第一概率;依据所述第一概率,确定所述未认证用户的身份类别。5.按照权利要求4所述方法,其特征在于,依据所述已认证用户的标记文本与所述已认证类别相对应的对应次数,计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率,包括:对所述已认证类别,计算已认证用户的标记文本与所述已认证类别相对应的条件下,各对应次数出现的条件概率,记为第二概率;对已认证用户的标记文本与已认证类别相对应的对应次数,将不大于对应次数本数的各对应次数对应的所述第二概率进行累加,记为第三概率;依据所述第三概率,确定所述第一概率;所述第一概率与所述第三概率在所述类别和所述对应次数上一一对应。6.按照权利要求5所述方法,其特征在于,对所述已认证类别,计算已认证用户的标记文本与所述已认证类别相对应的条件下,各对应次数出现的条件概率,包括:对所述已认证类别,统计与所述已认证类别相对应的已认证用户的总数,记为第一统计量;对已认证类别与已认证用户的标记文本相对应的对应次数,统计各相同的对应次数出现的数量,记为第二统计量;对已认证类别与已认证用户的标记文本相对应的各对应次数,分别以所述第二统计量为被除数、以所述第一统计量为除数,计算得到已认证用户的标记文本与所述已认证类别相对应的条件下、各对应次数出现的条件概率,记为所述第二概率。7.按照权利要求4所述方法,其特征在于,依据所述第一概率,确定所述未认证用户的身份类别,包括:将所述未认证用户的标记文本相对应的类别中所述第一概率最高的预设个类别对应的类别确定为所述未认证用户的身份类别。8.按照权利要求4所述方法,其特征在于,所述数据信息还包括用户的注册信息和业务信息;在依据所述已认证用户的标记文本与所述已认证类别相对应的对应次数,计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率之后,还包括:将所述注册信息和所述业务信息分别进行分类;将包含同类注册信息和同类业务信息的未认证用户分入同一群组中;依据未认证用户的标记文本与各类别相对应的对应次数,将与所述对应次数相应的所述第一概率作为未认证用户的标记文本与各类别相对应的概率;依据分入同一群组的各未认证用户的标记文本与相同类别相对应的概率,按照预设计算规则计算得到该组用户与各类别相对应的概率,记为第四概率;依据所述第一概率和所述第四概率,确定所述未认证用户的身份类别。9.按照权利要求8所述方法,其特征在于,所述预设计算规则包括:将分入同一群组的各未认证用户的标记文本与相同类别相对应的概率进行数学平均计算或者加权平均计算。10.按照权利要求8所述方法,其特征在于,依据所述第一概率和所述第四概率,确定所述未认证用户的身份类别,包括:将与所述未认证用户的标记文本相对应的各类别所对应的所述第一概率和所述第四概率相比较,将概率最高的预设个类别对应的类别...

【专利技术属性】
技术研发人员:李辉梅炜操颖平林嘉南
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1