【技术实现步骤摘要】
网约车司机识别方法、装置、服务器及存储介质
[0001]本专利技术涉及无线通信
,尤其涉及一种网约车司机识别方法、装置、服务器及存储介质。
技术介绍
[0002]当前运营商的用户标签主要与通信相关,比较缺乏用户职业等社会属性相关的标签。职业标签的社群识别根据数据被真实标记的程度可以分为监督分类、半监督分类、无监督分类。由于一般用户对运营商不主动透露职业信息,因此用户几乎完全没有被打上职业标签。
[0003]现有技术中,用户职业推断与群体发现识别有一大部分都是基于或多或少被标记过的数据集,是一种对于已知标签的“拟合”方法。另外,还有少部分技术使用自定的规则和阈值,根据一些用户特征计算出它对某一部分职业的置信度,再使用这些置信度去生成职业判断。
[0004]然而,专利技术人发现,现有技术中的职业推断和群体识别方法依赖于职业标签、职业空间的选取、规则和阈值的合理性,对于没有职业标签的用户难以进行社群划分与识别。
技术实现思路
[0005]本专利技术提供一种网约车司机识别方法、装置、服务器及存储介质,以解决现有技术中存在的职业推断和群体识别方法依赖于职业标签,对于没有职业标签的用户难以进行社群划分与识别的问题。
[0006]第一方面,本专利技术提供一种网约车司机识别方法,包括:
[0007]获取任意多种网约车平台的司机端App中进行网络通信所使用的第一网络地址和乘客端App中进行网络通信所使用的第二网络地址,判断所述第一网络地址和第二网络地址中是否存在相同字段;
...
【技术保护点】
【技术特征摘要】
1.一种网约车司机识别方法,其特征在于,应用于服务器,包括:获取任意多种网约车平台的司机端App中进行网络通信所使用的第一网络地址和乘客端App中进行网络通信所使用的第二网络地址,判断所述第一网络地址和第二网络地址中是否存在相同字段;若所述第一网络地址和第二网络地址中不存在相同字段,则将访问过所述第一网络地址的用户标记为网约车司机;若所述第一网络地址和第二网络地址中存在相同字段,则在用户移动网络详单中筛选出预设时间段内使用过所述网约车平台的用户,构建司机和乘客混合的用户集合;在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个平台使用特征;在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个空间移动特征;将所述平台使用特征和所述空间移动特征的特征值进行标准化,将所有经过标准化的特征值堆叠起来,得到每个用户的行为特征向量;对所有用户的行为特征向量进行聚类处理,得到目标聚类结果;根据所述目标聚类结果,从所有用户中筛选出网约车司机的用户,并标记为网约车司机。2.根据权利要求1所述的方法,其特征在于,其中所述平台使用特征包括两个:最长连续访问网约车平台的时长和连续访问网约车平台的时长之和;相应地,所述在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个平台使用特征,包括:在所述用户移动网络详单中,筛选出当前用户的移动网络详单中属于网约车平台的网络地址,将所述属于网约车平台的网络地址的开始时间按照升序排列,所述属于网约车平台的网络地址的条目数量为n;初始化一个用于记录第n条网络地址连续访问网约车平台的时长的列表L=[0],初始化一个记忆变量min_last的初始值,所述min_last的取值为记录的第1条网络地址的开始时间所在的分钟;计算记录的第a条网络地址的开始时间所在分钟与min_last的差值,若差值为0,则忽略这一记录;若差值为1,则令L[
‑
1]=L[
‑
1]+1,其中,L[
‑
1]表示L中末位的值;若差值大于1,则在L中的末位插入0,同时将所述min_last重新赋值为第a条记录的开始时间的所在分钟;判断a是否小于等于n;若是,则令a=a+1,并重复计算第a条记录的开始时间所在分钟与所述min_last的差值这一步骤;若否,则取L中的最大的值max(L)、以及L中每一数值的和sum(L)作为当前用户当天的平台使用特征;其中,max(L)代表最长连续访问网约车平台的时长,sum(L)代表连续访问网约车平台的时长之和。3.根据权利要求1所述的方法,其特征在于,其中所述空间移动特征包括两个:连接的LAC的数量和LAC集合的Jaccard相关系数;
相应地,所述在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个空间移动特征,包括:将当前用户第a天所有的连接过的位置区码LAC去重,构建集合,记为LACs_last,并记录集合LACs_last中元素的个数;将当前用户第a+1天所有的连接过的位置区码LAC去重,构建集合,记为LACs_current,并记录集合LACs_current中元素的个数;将集合LACs_current和集合LACs_last的交集中的元素个数除以集合LACs_current和集合LACs_last的并集中的元素个数,得到Jaccard相关系数;将用户连接过的位置区码LAC的集合大小和Jaccard相关系数堆叠起来,得到所述空间移动特征,其中,所述用户连接过的位置区码LAC的集合大小代表所述连接的LAC的数量,所述Jaccard相关系数代表所述LAC集合的Jaccard相关系数。4.根据权利要求1所述的方法,其特征在于,所述将所述平台使用特征和所述空间移动特征的特征值进行标准化,将所有经过标准化的特征值堆叠起来,得到每个用户的行为特征向量,包括:分别计算所有用户中的每个用户在预设天数内的平台使用特征和空间移动特征的平均值和方差;将每个用户在预设天数内的平台使用特征和空间移动特征的特征值与所述平均值的差值除以所述方差,得到标准化的...
【专利技术属性】
技术研发人员:孔祥斌,欧阳秀平,林敏,陈祥,杨春民,刘卉芳,邹俊德,廖娟,彭诗雅,杨沛,江俊昊,闫猛,叶海宁,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。