网约车司机识别方法、装置、服务器及存储介质制造方法及图纸

技术编号:37378507 阅读:8 留言:0更新日期:2023-04-27 07:21
本发明专利技术提供一种网约车司机识别方法、装置、服务器及存储介质,该方法包括:获取网约车平台的司机端App中的第一网络地址和乘客端App中的第二网络地址,若第一和第二网络地址中不存在相同字段,则将访问过第一网络地址的用户标记为网约车司机;若存在相同字段,则在用户移动网络详单中筛选出使用过网约车平台的用户集合;在用户移动网络详单中统计每个用户的至少一个平台使用特征和至少一个空间移动特征;将这些特征的特征值进行处理,根据处理后的数据从所有用户中筛选并标记出网约车司机。本发明专利技术通过从用户的移动网络详单中提取特征,根据特征从所有平台用户中标记出网约车司机,实现对只有网络详单而没有职业标签的用户进行识别。户进行识别。户进行识别。

【技术实现步骤摘要】
网约车司机识别方法、装置、服务器及存储介质


[0001]本专利技术涉及无线通信
,尤其涉及一种网约车司机识别方法、装置、服务器及存储介质。

技术介绍

[0002]当前运营商的用户标签主要与通信相关,比较缺乏用户职业等社会属性相关的标签。职业标签的社群识别根据数据被真实标记的程度可以分为监督分类、半监督分类、无监督分类。由于一般用户对运营商不主动透露职业信息,因此用户几乎完全没有被打上职业标签。
[0003]现有技术中,用户职业推断与群体发现识别有一大部分都是基于或多或少被标记过的数据集,是一种对于已知标签的“拟合”方法。另外,还有少部分技术使用自定的规则和阈值,根据一些用户特征计算出它对某一部分职业的置信度,再使用这些置信度去生成职业判断。
[0004]然而,专利技术人发现,现有技术中的职业推断和群体识别方法依赖于职业标签、职业空间的选取、规则和阈值的合理性,对于没有职业标签的用户难以进行社群划分与识别。

技术实现思路

[0005]本专利技术提供一种网约车司机识别方法、装置、服务器及存储介质,以解决现有技术中存在的职业推断和群体识别方法依赖于职业标签,对于没有职业标签的用户难以进行社群划分与识别的问题。
[0006]第一方面,本专利技术提供一种网约车司机识别方法,包括:
[0007]获取任意多种网约车平台的司机端App中进行网络通信所使用的第一网络地址和乘客端App中进行网络通信所使用的第二网络地址,判断所述第一网络地址和第二网络地址中是否存在相同字段;
[0008]若所述第一网络地址和第二网络地址中不存在相同字段,则将访问过所述第一网络地址的用户标记为网约车司机;
[0009]若所述第一网络地址和第二网络地址中存在相同字段,则在用户移动网络详单中筛选出预设时间段内使用过所述网约车平台的用户,构建司机和乘客混合的用户集合;
[0010]在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个平台使用特征;
[0011]在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个空间移动特征;
[0012]将所述平台使用特征和所述空间移动特征的特征值进行标准化,将所有经过标准化的特征值堆叠起来,得到每个用户的行为特征向量;
[0013]对所有用户的行为特征向量进行聚类处理,得到目标聚类结果;
[0014]根据所述目标聚类结果,从所有用户中筛选出网约车司机的用户,并标记为网约
车司机。
[0015]在一种可能的设计中,其中所述平台使用特征包括两个:最长连续访问网约车平台的时长和连续访问网约车平台的时长之和;相应地,所述在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个平台使用特征,包括:在所述用户移动网络详单中,筛选出当前用户的移动网络详单中属于网约车平台的网络地址,将所述属于网约车平台的网络地址的开始时间按照升序排列,所述属于网约车平台的网络地址的条目数量为n;初始化一个用于记录第n条网络地址连续访问网约车平台的时长的列表L=[0],初始化一个记忆变量min_last的初始值,所述min_last的取值为记录的第1条网络地址的开始时间所在的分钟;计算记录的第a条网络地址的开始时间所在分钟与min_last的差值,若差值为0,则忽略这一记录;若差值为1,则令L[

1]=L[

1]+1,其中,L[

1]表示L中末位的值;若差值大于1,则在L中的末位插入0,同时将所述min_last重新赋值为第a条记录的开始时间的所在分钟;判断a是否小于等于n;若是,则令a=a+1,并重复计算第a条记录的开始时间所在分钟与所述min_last的差值这一步骤;若否,则取L中的最大的值max(L)、以及L中每一数值的和sum(L)作为当前用户当天的平台使用特征;其中,max(L)代表最长连续访问网约车平台的时长,sum(L)代表连续访问网约车平台的时长之和。
[0016]在一种可能的设计中,其中所述空间移动特征包括两个:连接的LAC的数量和LAC集合的Jaccard相关系数;相应地,所述在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个空间移动特征,包括:将当前用户第a天所有的连接过的位置区码LAC去重,构建集合,记为LACs_last,并记录集合LACs_last中元素的个数;将当前用户第a+1天所有的连接过的位置区码LAC去重,构建集合,记为LACs_current,并记录集合LACs_current中元素的个数;将集合LACs_current和集合LACs_last的交集中的元素个数除以集合LACs_current和集合LACs_last的并集中的元素个数,得到Jaccard相关系数;将用户连接过的位置区码LAC的集合大小和Jaccard相关系数堆叠起来,得到所述空间移动特征,其中,所述用户连接过的位置区码LAC的集合大小代表所述连接的LAC的数量,所述Jaccard相关系数代表所述LAC集合的Jaccard相关系数。
[0017]在一种可能的设计中,所述将所述平台使用特征和所述空间移动特征的特征值进行标准化,将所有经过标准化的特征值堆叠起来,得到每个用户的行为特征向量,包括:分别计算所有用户中的每个用户在预设天数内的平台使用特征和空间移动特征的平均值和方差;将每个用户在预设天数内的平台使用特征和空间移动特征的特征值与所述平均值的差值除以所述方差,得到标准化的平台使用特征和空间移动特征的特征值;将所述标准化的平台使用特征和空间移动特征的特征值拼接成向量,得到每个用户的行为特征向量。
[0018]在一种可能的设计中,所述对所有用户的行为特征向量进行聚类处理,得到目标聚类结果,包括:采用不同的聚类数目对所述特征向量进行K均值聚类,得到多个聚类结果,并计算各聚类结果的轮廓系数;从所有的聚类结果中筛选出所述轮廓系数大于预设数值的目标聚类结果,得到目标聚类结果所对应的目标聚类数目。
[0019]在一种可能的设计中,所述根据所述目标聚类结果,从所有用户中筛选出网约车司机的用户,并标记为网约车司机,包括:将所述目标聚类数目对应的聚类中的类按照特征值大小降序排列,按照排列顺序将所述聚类中的类分为两组,第一组假设为网约车司机,第二组假设为乘客;计算第一组和第二组中的用户数量比,筛选出所述用户数量比与实际比
值的差值的绝对值最小的两组,将筛选出的两组中的第一组的用户标记为网约车司机,第二组的用户标记为乘客;其中,所述实际比值为预先调查得到的网约车行业的司机乘客比。
[0020]第二方面,本专利技术提供一种网约车司机识别装置,包括:
[0021]获取模块,用于获取任意多种网约车平台的司机端App中进行网络通信所使用的第一网络地址和乘客端App中进行网络通信所使用的第二网络地址,判断所述第一网络地址和第二网络地址中是否存在相同字段;
[0022]第一标记模块,用于若所述第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网约车司机识别方法,其特征在于,应用于服务器,包括:获取任意多种网约车平台的司机端App中进行网络通信所使用的第一网络地址和乘客端App中进行网络通信所使用的第二网络地址,判断所述第一网络地址和第二网络地址中是否存在相同字段;若所述第一网络地址和第二网络地址中不存在相同字段,则将访问过所述第一网络地址的用户标记为网约车司机;若所述第一网络地址和第二网络地址中存在相同字段,则在用户移动网络详单中筛选出预设时间段内使用过所述网约车平台的用户,构建司机和乘客混合的用户集合;在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个平台使用特征;在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个空间移动特征;将所述平台使用特征和所述空间移动特征的特征值进行标准化,将所有经过标准化的特征值堆叠起来,得到每个用户的行为特征向量;对所有用户的行为特征向量进行聚类处理,得到目标聚类结果;根据所述目标聚类结果,从所有用户中筛选出网约车司机的用户,并标记为网约车司机。2.根据权利要求1所述的方法,其特征在于,其中所述平台使用特征包括两个:最长连续访问网约车平台的时长和连续访问网约车平台的时长之和;相应地,所述在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个平台使用特征,包括:在所述用户移动网络详单中,筛选出当前用户的移动网络详单中属于网约车平台的网络地址,将所述属于网约车平台的网络地址的开始时间按照升序排列,所述属于网约车平台的网络地址的条目数量为n;初始化一个用于记录第n条网络地址连续访问网约车平台的时长的列表L=[0],初始化一个记忆变量min_last的初始值,所述min_last的取值为记录的第1条网络地址的开始时间所在的分钟;计算记录的第a条网络地址的开始时间所在分钟与min_last的差值,若差值为0,则忽略这一记录;若差值为1,则令L[

1]=L[

1]+1,其中,L[

1]表示L中末位的值;若差值大于1,则在L中的末位插入0,同时将所述min_last重新赋值为第a条记录的开始时间的所在分钟;判断a是否小于等于n;若是,则令a=a+1,并重复计算第a条记录的开始时间所在分钟与所述min_last的差值这一步骤;若否,则取L中的最大的值max(L)、以及L中每一数值的和sum(L)作为当前用户当天的平台使用特征;其中,max(L)代表最长连续访问网约车平台的时长,sum(L)代表连续访问网约车平台的时长之和。3.根据权利要求1所述的方法,其特征在于,其中所述空间移动特征包括两个:连接的LAC的数量和LAC集合的Jaccard相关系数;
相应地,所述在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个空间移动特征,包括:将当前用户第a天所有的连接过的位置区码LAC去重,构建集合,记为LACs_last,并记录集合LACs_last中元素的个数;将当前用户第a+1天所有的连接过的位置区码LAC去重,构建集合,记为LACs_current,并记录集合LACs_current中元素的个数;将集合LACs_current和集合LACs_last的交集中的元素个数除以集合LACs_current和集合LACs_last的并集中的元素个数,得到Jaccard相关系数;将用户连接过的位置区码LAC的集合大小和Jaccard相关系数堆叠起来,得到所述空间移动特征,其中,所述用户连接过的位置区码LAC的集合大小代表所述连接的LAC的数量,所述Jaccard相关系数代表所述LAC集合的Jaccard相关系数。4.根据权利要求1所述的方法,其特征在于,所述将所述平台使用特征和所述空间移动特征的特征值进行标准化,将所有经过标准化的特征值堆叠起来,得到每个用户的行为特征向量,包括:分别计算所有用户中的每个用户在预设天数内的平台使用特征和空间移动特征的平均值和方差;将每个用户在预设天数内的平台使用特征和空间移动特征的特征值与所述平均值的差值除以所述方差,得到标准化的...

【专利技术属性】
技术研发人员:孔祥斌欧阳秀平林敏陈祥杨春民刘卉芳邹俊德廖娟彭诗雅杨沛江俊昊闫猛叶海宁
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1