有车用户识别方法、装置及存储介质制造方法及图纸

技术编号:32456635 阅读:19 留言:0更新日期:2022-02-26 08:36
本申请提供一种有车用户识别方法、装置及计算机可读存储介质,涉及数据分析领域,能够解决现有技术中无法准确地识别用户是否为有车用户的问题。该方法包括:获取多个用户的历史数据;对多个用户的历史数据进行特征处理,得到多个用户的车辆服务特征数据;其中,车辆服务特征数据包括以下至少一项:持续性特征数据、多样性特征数据以及贡献度特征数据;根据车辆服务特征数据进行半监督模型训练,确定有车用户识别模型;将待识别用户的车辆服务特征数据输入有车用户识别模型,确定待识别用户是否为有车用户。本申请实施例能够提高识别用户是否为有车用户的准确性。是否为有车用户的准确性。是否为有车用户的准确性。

【技术实现步骤摘要】
有车用户识别方法、装置及存储介质


[0001]本申请涉及数据分析领域,尤其涉及一种有车用户识别方法、装置及计算机可读存储介质。

技术介绍

[0002]随着经济的发展,汽车市场不断发展,识别用户群体中的有车用户,有助于车辆服务商有针对性的为有车用户提供车辆服务。
[0003]目前,现有技术通常根据车辆厂商的用户数据,以及用户车辆数据进行有监督模型训练,确定有车用户识别模型,从而根据该模型预测用户是否为有车用户。
[0004]然而,该方法所采用的数据集中于车主用户数据以及车主所拥有的车辆的数据,无法真实反映目标区域内所有用户的特征信息,同时对于用户是否为有车用户的样本数据获取成本较高,因此相对于全部数据集,用于训练的样本数据很少,以此训练生成的预测模型的预测准确性也较差。

技术实现思路

[0005]本申请提供一种有车用户识别方法、装置及计算机可读存储介质,能够提高识别用户是否为有车用户的准确性。
[0006]为达到上述目的,本申请采用如下技术方案:
[0007]第一方面,本申请提供一种有车用户识别方法,该方法包括:获取多个用户的历史数据;历史数据包括用户使用的至少一个车辆服务的数据;至少一个车辆服务中的每个车辆服务对应一个或多个车辆服务应用;对多个用户的历史数据进行特征处理,得到多个用户的车辆服务特征数据;其中,车辆服务特征数据包括以下至少一项:持续性特征数据、多样性特征数据以及贡献度特征数据;持续性特征数据用于表征用户在预设时间段内使用至少一个车辆服务的时间占比;多样性特征数据用于表征针对每个车辆服务,用户使用的车辆服务应用的数量占比;贡献度特征数据用于表征至少一个车辆服务的对应的流量;根据车辆服务特征数据进行半监督模型训练,确定有车用户识别模型;有车用户识别模型的输入参数为车辆服务特征数据,输出参数为以下任一项:用户为有车用户、或用户为无车用户;将待识别用户的车辆服务特征数据输入有车用户识别模型,确定待识别用户是否为有车用户。
[0008]基于上述技术方案,有车用户识别装置通过获取多个用户的历史数据,并对多个用户的历史数据进行特征处理以得到多个用户的车辆服务特征数据。具体的,有车用户识别装置从持续性、多样性以及贡献度三个维度对用户数据进行提取,以更好地表征用户是否为有车用户与该用户的各项历史数据之间的关系,从而提高识别有车用户的准确度和效率。同时,有车用户识别装置还根据车辆服务特征数据进行半监督模型训练,通过得到的有车用户识别模型对待识别用户是否为有车用户进行识别,进一步消除由于训练集样本过少而导致训练精度过低的问题,同样提升了识别有车用户的准确度。
[0009]结合上述第一方面,在一种可能的实现方式中,该方法还包括:
[0010]步骤1、确定有标签样本集和无标签样本集;有标签样本集包括n个用户中每个用户的车辆服务特征数据,以及每个用户是否有车的标签;无标签样本集包括k个用户中每个用户的车辆服务特征数据;n和k均为正整数;
[0011]步骤2、确定有标签样本集的有标签影响因子和无标签样本集的无标签影响因子;
[0012]步骤3、根据有标签样本集进行有监督模型训练,得到第一预测模型;
[0013]步骤4、将第一预测模型作为预设训练模型;
[0014]步骤5、确定第二预测模型的临时无标签影响因子;临时无标签影响因子包括无标签样本集中有车用户的临时正样本影响因子和无车用户的临时负样本影响因子;第二预测模型为半监督训练模型;
[0015]步骤6、确定无标签样本集中的有车用户目标数量;
[0016]步骤7、采用预设训练模型,预测无标签样本集中的k个用户的有车用户和无车用户;k个用户的有车用户的数量为有车用户目标数量;
[0017]步骤8、根据预测结果,在无标签样本集中添加每个用户是否有车的标签,得到第一样本集;第一样本集包括有标签样本集和添加标签后的无标签样本集;
[0018]步骤9、根据第一样本集确定第二预测模型的目标函数;
[0019]步骤10、调整有车用户目标数量,并根据调整后的有车用户目标数量,重复执行L次步骤7

步骤10,确定L个第二预测模型的目标函数;L为正整数;
[0020]步骤11、确定L个第二预测模型的目标函数中,第一目标函数对应的第一样本集为第二样本集;第一目标函数是L个第二预测模型的目标函数中最小的目标函数;
[0021]步骤12、将第二样本集作为预设样本集;
[0022]步骤13、交换预设样本集中满足预设条件的多个标签不同的用户的标签,将交换标签后的预设样本集作为预设样本集;
[0023]步骤14、根据预设样本集进行半监督模型训练,得到第三预测模型;
[0024]步骤15、重复执行步骤13

步骤15,直到预设样本集中不存在满足预设条件的用户,确定多个第三预测模型的目标函数;
[0025]步骤16、确定多个第三预测模型的目标函数中,第二目标函数对应的第三预测模型为第四预测模型;第二目标函数是多个第三预测模型的目标函数中最小的目标函数;
[0026]步骤17、调整临时无标签影响因子,将当前的第四预测模型作为预设训练模型集重复执行步骤6

步骤16,直至临时无标签影响因子中的临时正样本影响因子和临时负样本影响因子均等于无标签影响因子;
[0027]步骤18、在临时无标签影响因子中的临时正样本影响因子和临时负样本影响因子均等于无标签影响因子的情况下,将得到的第四预测模型确定为有车用户识别模型。
[0028]结合上述第一方面,在一种可能的实现方式中,有监督模型训练通过以下公式实现:
[0029][0030][0031][0032]其中,ω,b为超平面参数,ε1,


n
为有标签样本集包括的n个用户的松弛变量;C为有标签影响因子,y
i
为有标签样本集包括的n个用户中第i个用户是否有车的标签;
[0033]半监督模型训练通过以下公式实现:
[0034][0035][0036][0037][0038][0039]其中,ω,b为超平面参数,ε1,


n
为有标签样本集包括的n个用户的松弛变量;为无标签样本集包括的k个用户的松弛变量;C为有标签影响因子,为无标签样本集中有车用户的临时正样本影响因子,为无标签样本集中无车用户的临时负样本影响因子,y
i
为有标签样本集包括的n个用户中第i个用户是否有车的标签;为无标签样本集包括k个用户中第j个用户是否有车的标签;
[0040]当临时无标签影响因子中的临时正样本影响因子和临时负样本影响因子均等于无标签影响因子时,半监督模型训练通过以下公式实现:
[0041][0042][0043][0044][0045][0046]其中,ω,b为超平面参数,ε1,


n...

【技术保护点】

【技术特征摘要】
1.一种有车用户识别方法,其特征在于,所述方法包括:获取多个用户的历史数据;所述历史数据包括用户使用的至少一个车辆服务的数据;所述至少一个车辆服务中的每个车辆服务对应一个或多个车辆服务应用;对所述多个用户的历史数据进行特征处理,得到所述多个用户的车辆服务特征数据;其中,所述车辆服务特征数据包括以下至少一项:持续性特征数据、多样性特征数据以及贡献度特征数据;所述持续性特征数据用于表征用户在预设时间段内使用所述至少一个车辆服务的时间占比;所述多样性特征数据用于表征针对所述每个车辆服务,用户使用的车辆服务应用的数量占比;所述贡献度特征数据用于表征所述至少一个车辆服务的对应的流量;根据所述车辆服务特征数据进行半监督模型训练,确定有车用户识别模型;所述有车用户识别模型的输入参数为所述车辆服务特征数据,输出参数为以下任一项:用户为有车用户、或用户为无车用户;将待识别用户的车辆服务特征数据输入所述有车用户识别模型,确定所述待识别用户是否为有车用户。2.根据权利要求1所述的方法,其特征在于,所述根据所述车辆服务特征数据进行模型训练,确定有车用户识别模型,包括:步骤1、确定有标签样本集和无标签样本集;所述有标签样本集包括n个用户中每个用户的车辆服务特征数据,以及每个用户是否有车的标签;所述无标签样本集包括k个用户中每个用户的车辆服务特征数据;n和k均为正整数;步骤2、确定所述有标签样本集的有标签影响因子和所述无标签样本集的无标签影响因子;步骤3、根据所述有标签样本集进行有监督模型训练,得到第一预测模型;步骤4、将所述第一预测模型作为预设训练模型;步骤5、确定第二预测模型的临时无标签影响因子;所述临时无标签影响因子包括所述无标签样本集中有车用户的临时正样本影响因子和无车用户的临时负样本影响因子;所述第二预测模型为半监督训练模型;步骤6、确定所述无标签样本集中的有车用户目标数量;步骤7、采用所述预设训练模型,预测所述无标签样本集中的所述k个用户的有车用户和无车用户;所述k个用户的有车用户的数量为所述有车用户目标数量;步骤8、根据预测结果,在所述无标签样本集中添加每个用户是否有车的标签,得到第一样本集;所述第一样本集包括所述有标签样本集和添加标签后的无标签样本集;步骤9、根据所述第一样本集确定所述第二预测模型的目标函数;步骤10、调整所述有车用户目标数量,并根据调整后的有车用户目标数量,重复执行L次所述步骤7

所述步骤10,确定L个所述第二预测模型的目标函数;L为正整数;步骤11、确定L个所述第二预测模型的目标函数中,第一目标函数对应的第一样本集为第二样本集;所述第一目标函数是L个所述第二预测模型的目标函数中最小的目标函数;步骤12、将所述第二样本集作为预设样本集;步骤13、交换所述预设样本集中满足预设条件的多个标签不同的用户的标签,将交换标签后的预设样本集作为所述预设样本集;
步骤14、根据所述预设样本集进行半监督模型训练,得到第三预测模型;步骤15、重复执行所述步骤13

所述步骤15,直到所述预设样本集中不存在满足所述预设条件的用户,确定多个所述第三预测模型的目标函数;步骤16、确定多个所述第三预测模型的目标函数中,第二目标函数对应的第三预测模型为第四预测模型;所述第二目标函数是多个所述第三预测模型的目标函数中最小的目标函数;步骤17、调整所述临时无标签影响因子,将当前的第四预测模型作为所述预设训练模型集重复执行所述步骤6

所述步骤16,直至所述临时无标签影响因子中的所述临时正样本影响因子和所述临时负样本影响因子均等于所述无标签影响因子;步骤18、在所述临时无标签影响因子中的所述临时正样本影响因子和所述临时负样本影响因子均等于所述无标签影响因子的情况下,将得到的所述第四预测模型确定为所述有车用户识别模型。3.根据权利要求2所述的方法,其特征在于,所述有监督模型训练通过以下公式实现:所述有监督模型训练通过以下公式实现:所述有监督模型训练通过以下公式实现:其中,ω,b为超平面参数,ε1,


n
为所述有标签样本集包括的n个用户的松弛变量;C为所述有标签影响因子,y
i
为所述有标签样本集包括的n个用户中第i个用户是否有车的标签;所述半监督模型训练通过以下公式实现:所述半监督模型训练通过以下公式实现:所述半监督模型训练通过以下公式实现:所述半监督模型训练通过以下公式实现:所述半监督模型训练通过以下公式实现:其中,ω,b为超平面参数,ε1,


n
为所述有标签样本集包括的n个用户的松弛变量;为所述无标签样本集包括的k个用户的松弛变量;C为所述有标签影响因子,为所述无标签样本集中有车用户的临时正样本影响因子,为所述无标签样本集中无车
用户的临时负样本影响因子,y
i
为所述有标签样本集包括的n个用户中第i个用户是否有车的标签;为所述无标签样本集包括k个用户中第j个用户是否有车的标签;当所述临时无标签影响因子中的所述临时正样本影响因子和所述临时负样本影响因子均等于所述无标签影响因子时,所述半监督模型训练通过以下公式实现:子均等于所述无标签影响因子时,所述半监督模型训练通过以下公式实现:子均等于所述无标签影响因子时,所述半监督模型训练通过以下公式实现:子均等于所述无标签影响因子时,所述半监督模型训练通过以下公式实现:子均等于所述无标签影响因子时,所述半监督模型训练通过以下公式实现:其中,ω,b为超平面参数,ε1,


n
为所述有标签样本集包括的n个用户的松弛变量;为所述无标签样本集包括的k个用户的松弛变量;C为所述有标签影响因子,C
*
为所述无标签影响因子,y
i
为所述有标签样本集包括的n个用户中第i个用户是否有车的标签;为所述无标签样本集包括k个用户中第j个用户是否有车的标签。4.根据权利要求1

3任一项所述的方法,其特征在于,所述历史数据还包括用户的语音行为数据、终端数据、套餐数据中的至少一项。5.一种有车用户识别装置,其特征在于,包括:通信单元和处理单元;所述通信单元,用于获取多个用户的历史数据;所述历史数据包括用户使用的至少一个车辆服务的数据;所述至少一个车辆...

【专利技术属性】
技术研发人员:张晴晴韩玉辉程新洲王天翼成晨张涛高洁王云云夏蕊
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1