一种用于通过通讯录数据进行预测的方法、设备、介质技术

技术编号:37547642 阅读:38 留言:0更新日期:2023-05-12 16:23
本申请的目的是提供一种用于通过通讯录数据进行预测的方法、设备、介质,该方法包括:根据多个通讯录数据,获得每个号码关联的标注数据,对所述标注数据进行分词,获得所述标注数据对应的词数据;将所述词数据进行向量化,得到所述每个号码对应的一个或多个向量化特征;根据所述一个或多个向量化特征及所述每个号码对应的性别标签,基于预定的机器学习分类器进行监督学习,得到性别预测模型。本申请可以明显提高性别预测的覆盖度与准确率,且由于不用管具体的标注内容,不需要对标注内容进行理解,该方法可以扩展应用到任何外文。该方法可以扩展应用到任何外文。该方法可以扩展应用到任何外文。

【技术实现步骤摘要】
一种用于通过通讯录数据进行预测的方法、设备、介质


[0001]本申请涉及通信领域,尤其涉及一种用于通过通讯录数据进行预测的技术。

技术介绍

[0002]在传统移动信息领域,对性别判断主要基于图像、声音、App安装列表、App内的购物或娱乐行为数据等,存在数据采集量大、覆盖度不足、准确率不高等问题。

技术实现思路

[0003]本申请的一个目的是提供一种用于通过通讯录数据进行预测的方法、设备、介质及程序产品。
[0004]根据本申请的一个方面,提供了一种用于通过通讯录数据进行预测的方法,该方法包括:
[0005]根据多个通讯录数据,获得每个号码关联的标注数据,对所述标注数据进行分词,获得所述标注数据对应的词数据;
[0006]将所述词数据进行向量化,得到所述每个号码对应的一个或多个向量化特征;
[0007]根据所述一个或多个向量化特征及所述每个号码对应的性别标签,基于预定的机器学习分类器进行监督学习,得到性别预测模型。
[0008]根据本申请的另一个方面,提供了一种用于通过通讯录数据进行预测的方法,该方法包括:
[0009]对目标号码关联的目标标注数据进行分词,获得所述目标标注数据对应的目标词数据;
[0010]将所述目标词数据进行向量化,得到所述目标号码对应的目标向量化特征;
[0011]将所述目标向量化特征输入性别预测模型,得到所述性别预测模型输出的所述目标号码对应的预测性别信息。
[0012]根据本申请的一个方面,提供了一种用于通过通讯录数据进行预测的计算机设备,该设备包括:
[0013]一一模块,用于根据多个通讯录数据,获得每个号码关联的标注数据,对所述标注数据进行分词,获得所述标注数据对应的词数据;
[0014]一二模块,用于将所述词数据进行向量化,得到所述每个号码对应的一个或多个向量化特征;
[0015]一三模块,用于根据所述一个或多个向量化特征及所述每个号码对应的性别标签,基于预定的机器学习分类器进行监督学习,得到性别预测模型。
[0016]根据本申请的另一个方面,提供了一种用于通过通讯录数据进行预测的计算机设备,该设备包括:
[0017]二一模块,用于对目标号码关联的目标标注数据进行分词,获得所述目标标注数据对应的目标词数据;
[0018]二二模块,用于将所述目标词数据进行向量化,得到所述目标号码对应的目标向量化特征;
[0019]二三模块,用于将所述目标向量化特征输入性别预测模型,得到所述性别预测模型输出的所述目标号码对应的预测性别信息。
[0020]根据本申请的一个方面,提供了一种用于通过通讯录数据进行预测的计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,其中,所述处理器执行所述计算机程序以实现如上所述任一方法的操作。
[0021]根据本申请的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如上所述任一方法的操作。
[0022]根据本申请的一个方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述任一方法的步骤。
[0023]与现有技术相比,本申请根据多个通讯录数据,获得每个号码关联的标注数据,对所述标注数据进行分词,获得所述标注数据对应的词数据;将所述词数据进行向量化,得到所述每个号码对应的一个或多个向量化特征;根据所述一个或多个向量化特征及所述每个号码对应的性别标签,基于预定的机器学习分类器进行监督学习,得到性别预测模型,从而可以根据通讯录主相对客观的用户号码标注信息,通过嵌入向量化方式,得到每个被标注号码的向量化特征,将向量化特征输入到性别预测模型,即可对被标注号码进行性别预测,可以明显提高性别预测的覆盖度与准确率,且由于不用管具体的标注内容,不需要对标注内容进行理解,该方法可以扩展应用到任何外文。
附图说明
[0024]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0025]图1示出根据本申请一个实施例的一种用于通过通讯录数据进行预测的方法流程图;
[0026]图2示出根据本申请一个实施例的一种用于通过通讯录数据进行预测的方法流程图;
[0027]图3示出根据本申请一个实施例的一种用于通过通讯录数据进行预测的计算机设备结构图;
[0028]图4示出根据本申请一个实施例的一种用于通过通讯录数据进行预测的计算机设备结构图;
[0029]图5示出可被用于实施本申请中所述的各个实施例的示例性系统。
[0030]附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
[0031]下面结合附图对本申请作进一步详细描述。
[0032]在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(例如,中央处理器(Central Processing Unit,CPU))、输入/输出接口、网络接口和内存。
[0033]内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(Random Access Memory,RAM)和/或非易失性内存等形式,如只读存储器(Read Only Memory,ROM)或闪存(Flash Memory)。内存是计算机可读介质的示例。
[0034]计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(Phase

Change Memory,PCM)、可编程随机存取存储器(Programmable Random Access Memory,PRAM)、静态随机存取存储器(Static Random

Access Memory,SRAM)、动态随机存取存储器(Dynamic Random Access Memory,DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically

Erasable Programmable Read

Only Memory,EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read

Only Memory,CD

ROM)、数字多功能光盘(Digital Versatile Disc,DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0035]本申请所指设备包括但不限于终端、网络设备、或终端与网络设备通过网络相集成所构成的设备。所述终端包括但不限于任何一种可与用户进行人机交互(例如通过触本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于通过通讯录数据进行预测的方法,其中,该方法包括:根据多个通讯录数据,获得每个号码关联的标注数据,对所述标注数据进行分词,获得所述标注数据对应的词数据;将所述词数据进行向量化,得到所述每个号码对应的一个或多个向量化特征;根据所述一个或多个向量化特征及所述每个号码对应的性别标签,基于预定的机器学习分类器进行监督学习,得到性别预测模型。2.根据权利要求1所述的方法,其中,所述对所述标注数据进行分词,获得所述标注数据对应的词数据,包括:对所述标注数据进行分词,去除分词结果中的无意义词,获得所述标注数据对应的词数据。3.根据权利要求2所述的方法,其中,所述对所述标注数据进行分词,去除分词结果中的无意义词,获得所述标注数据对应的词数据,包括:对所述标注数据进行分词,去除分词结果中的无意义词,并将分词结果中出现次数大于或等于预定次数阈值的一个或多个分词作为所述标注数据对应的词数据。4.根据权利要求1所述的方法,其中,所述将所述词数据进行向量化,得到所述每个号码对应的一个或多个向量化特征,包括:将所述词数据输入已训练的词向量模型,得到所述词向量模型输出的所述每个号码对应的一个或多个向量化特征。5.根据权利要求4所述的方法,其中,所述方法还包括:设置词向量模型对应的训练参数;根据多个号码分别关联的标注数据对所述量模型进行训练,得到已训练的词向量模型。6.根据权利要求5所述的方法,其中,所述训练参数包括以下至少一项:向量化维度数;最少词频。7.根据权利要求1所述的方法,其中,所述机器学习分类器包括以下任一项:随机森林分类器;梯度提升树分类器。8.根据权利要求1所述的方法,其中,所述方法还包括:对目标号码关联的目标标注数据进行分词,获得所述目标标注数据对应的目标词数据;将所述目标词数据进行向量化,得到所述目标号码对应的目标向量化特征;将所述目标向量化特征输入所述性别预测模型,得到所述性别预测模型输出的所述目标号码对应的预测性别信息。9.根据权利要求1所述的方法,其中,所述...

【专利技术属性】
技术研发人员:许文龙
申请(专利权)人:上海掌门科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1