一种智能车站反刷票方法和反刷票系统技术方案

技术编号:24518611 阅读:22 留言:0更新日期:2020-06-17 07:08
本发明专利技术提供一种智能车站反刷票方法和反刷票系统,所述系统包括:数仓工具Hive、数据库、计算引擎Flink、历史数据行为分析模块、模糊神经网络算法模块、后台业务系统模块;所述方法包括:S1:对历史购票数据进行数据预处理,得到下一步算法需要的各个指标点;S2:进行按账号作为用户唯一标识进行用户画像构建并存储;S3:构建并训练模糊神经网络模型;S4:采用经过训练的模糊神经网络,对实时购票请求进行分析处理,得到的结果反馈给下游业务系统;业务系统接收分析处理结果,根据惩罚规则进行放行或惩罚。本发明专利技术可解决第一批次放票以及黄牛自身也利用大量用户账号也进行候补购票的问题。

A method and system of reverse ticket swiping in intelligent station

【技术实现步骤摘要】
一种智能车站反刷票方法和反刷票系统
本专利技术涉及智能交通领域,更具体地,涉及一种智能车站反刷票方法和反刷票系统。
技术介绍
随着信息技术不断发展,互联网技术和物联网技术为人们的生活带来了极大的便利。其中,高铁、普通列车的购票方式也主要从线下改成线上。但购票方式网络化也带来黄牛等违倒卖车票的行为大量出现,黄牛凭借优于普通用户的购票技术条件,大量抢票囤票,影响了广大普通用户的出行。现有技术主要是候补购票以及对高频次发起购票请求的ip进行针对性封禁两个手段。2018年年底上线的候补购票能很大程度上缓解黄牛刷票的问题。但是仍旧无法解决第一批次放票以及黄牛自身也利用大量用户账号也进行候补购票的问题。特别的,部分用户刷票速度过快,但是非团伙刷票行为,单纯只是购买自身出行需要的车票,这种情况下单纯依靠封禁请求频率过高的ip,可能导致错误封禁该非黄牛用户的IP。
技术实现思路
本专利技术为克服上述现有技术所述的反刷票技术仍旧无法解决第一批次放票以及黄牛自身也利用大量用户账号也进行候补购票的问题的缺陷,提供一种智能车站反刷票方法和反刷票系统。所述智能车站反刷票方法包括以下步骤:S1:将历史购票数据集存入大数据计算分析系统的Hive数据仓库中,并进行数据预处理,得到下一步算法需要的各个指标点;S2:使用K-Means算法进行按账号作为用户唯一标识进行用户画像构建并存储;S3:构建模糊神经网络模型,使用历史数据结合用户画像生成训练集,并由专家统计分析给出算法所需隶属函数,进而训练模糊神经网络模型;S4:采用经过训练的模糊神经网络,对实时购票请求进行分析处理,得到的结果反馈给下游业务系统;业务系统接收分析处理结果,根据惩罚规则进行放行或惩罚。优选地,S1包括以下步骤:S1.1:在大数据计算分析系统的Hive中建立购票请求数据表和用户账号数据表;并将往年历史数据导入两张表中;S1.2:根据请求多种原始购票和账号数据统计出以下的数据指标:"USER_ID":"用户账号","T_IDSER":"身份证号码","T_MOST_TYPE":"成功订单座位类型总数的有座与无座次数差值","USER_PREFER_SRC":"常用乘车的出发站点","USER_PREFER_DES":"最多次数乘车的目的地站点","USER_GPS":"设备定位地址(如果购票方式是通过手机)","IP_LOCATION":"发出请求的IP归属地(默认为unKnow)","REQ_DENSITY":"每秒请求次数","CHECK_TIME_AVG":"平均请求时间间隔","USER_ADDRESS":"推测居住地"。S1.3:根据S1.2的统计结果统计出以下的数据指标:"USER_ID":"用户账号","T_IDSER":"身份证号码","USER_GPS_COUNT":"手机购票次数","CHECK_TIME_AVG":"平均请求时间间隔","T_MOST_TYPE":"成功订单座位中的有座票与无座票次数差值","USER_ADDRESS_REQ_RATIO":"于推测居住地发起购票次数于与总购票次数比值"。S1.3得到的数据将用于K-Means算法的输入数据集。优选地,推测居住地的推测方法为:若存在移动设备定位地址则使用最多次相同定位地址为准,若不存在则使用USER_PREFER_SRC的所在城市作为推测居住地"。优选地,步骤S2中通过大数据计算平台中的Flink计算引擎利用K-Means算法进行用户画像的构建,最终得到的用户画像。用户画像包含多个指标数据,最关键的指标是系统处理用户购票请求的优先度,优先度为1-5,数字越高表示越优先处理,S2包括以下步骤:S2.1:构建系统处理用户购票请求的优先度规则,优先度为1-5,数字越高表示越优先处理:手机购票次数越多的用户,优先度增加;ip或账号的单个时间内请求次数也就是频率越大,优先度降低;购票ip归属地长期非账户推测居住地,优先度降低;T_MOST_TYPE的值高于所有用户的平均水平,优先度越高。S2.2:S1.3的数据中,USER_ID和T_IDSER只是标识数据所属于哪个用户,不参与相似度计算。通过对USER_ID和T_IDSER两个指标以外的指标进行归一化,然后根据S2.1的优先度规则给出五个初始训练样本,从上到下对应优先级5至1:(x1,y1,1.00,0.00,1.00,1.00,5),(x2,y2,0.80,0.25,0.80,0.80,4),(x3,y3,0.50,0.50,0.50,0.50,3),(x4,y4,0.25,0.80,0.25,0.25,2),(x5,y5,0.00,1.00,0.00,0.00,1)其中,上述五个样本的格式为:(USER_ID,T_IDSER,USER_GPS_COUNT_NORMAL,CHECK_TIME_AVG_NORMAL,USER_ADDRESS_REQ_RATIO_NORMAL,T_MOST_TYPE_NORMAL,PRI_LABEL);PRI_LABEL为优先级标签,后缀为_NORMAL的表示原字段值归一化后的结果x1-x5,y1-y5分别表示不同的USER_ID,T_IDSER;S2.3:根据S2.2给出的五个自定义样本点作为簇中心,从上到下分别为μ1,μ2,μ3,μ4,μ5,将S1.3中所描述的预处理后的用户购票;使用S2.2给出的五个自定义样本点为中心,使用Kmeans算法将历史数据集中的所有数据聚集成为5类优先级数据(也可理解为分成5类优先级)。比如A数据聚集在给出μ1样本点周围,而μ1样本点数属于优先级5级的数据,那么A会被认为属于5级优先级数据。历史数据集作为输入;每条数据称为一个样本xm,m∈[1,n],n表示数据总数;按照以下过程进行计算:(1)计算每个样本xm与各“簇中心”向量的欧式距离,根据距离最近的“簇中心”向量确定xm的簇标记:γm=argmin||xm-μi||2,i=1,2,…5其中argmin是使目标函数取最小值时的变量值。(2)更新各个簇中心:其中ni表示为属于簇i的样本总数;(3)判断簇标签是否达到收敛精度,若达到,则输出各簇中心;若未达到,则返回步骤(2);直到簇标签达到预设的收敛精度为止;S2.4:通过Flink计算引擎得出的处理优先度,还需在计算中关联S1所述历史数据中每个账号本身的其他数据,由于通过S2.3用用户数据计算出了每个用户的请求处理优先级顺序,但是用户画像除了优先级外还需要别的更丰富的特征,所有需要以用户ID(USER_ID)为分辨标识,将刚算好的优先级和之前S1.2中的部分特征组合一起,成为多个特本文档来自技高网...

【技术保护点】
1.一种智能车站反刷票方法,其特征在于,所述方法包括以下步骤:/nS1:将历史购票数据集存入大数据计算分析系统的Hive数据仓库中,并进行数据预处理,得到下一步算法需要的各个指标点;/nS2:使用K-Means算法进行按账号作为用户唯一标识进行用户画像构建并存储;/nS3:构建模糊神经网络模型,使用历史数据结合用户画像生成训练集,并由专家统计分析给出算法所需隶属函数,进而训练模糊神经网络模型;/nS4:采用经过训练的模糊神经网络,对实时购票请求进行分析处理,得到的结果反馈给下游业务系统;业务系统接收分析处理结果,根据惩罚规则进行放行或惩罚。/n

【技术特征摘要】
1.一种智能车站反刷票方法,其特征在于,所述方法包括以下步骤:
S1:将历史购票数据集存入大数据计算分析系统的Hive数据仓库中,并进行数据预处理,得到下一步算法需要的各个指标点;
S2:使用K-Means算法进行按账号作为用户唯一标识进行用户画像构建并存储;
S3:构建模糊神经网络模型,使用历史数据结合用户画像生成训练集,并由专家统计分析给出算法所需隶属函数,进而训练模糊神经网络模型;
S4:采用经过训练的模糊神经网络,对实时购票请求进行分析处理,得到的结果反馈给下游业务系统;业务系统接收分析处理结果,根据惩罚规则进行放行或惩罚。


2.根据权利要求1所述的智能车站反刷票方法,其特征在于,S1包括以下步骤:
S1.1:在大数据计算分析系统的Hive中建立购票请求数据表和用户账号数据表;并将往年历史数据导入购票请求数据表和用户账号数据表中;
S1.2:根据请求多种原始购票和账号数据统计出以下的数据指标:
"USER_ID":"用户账号",
"T_IDSER":"身份证号码",
"T_MOST_TYPE":"成功订单座位类型总数的有座与无座次数差值",
"USER_PREFER_SRC":"常用乘车的出发站点",
"USER_PREFER_DES":"最多次数乘车的目的地站点",
"USER_GPS":"设备定位地址",
"IP_LOCATION":"发出请求的IP归属地",
"REQ_DENSITY":"每秒请求次数",
"CHECK_TIME_AVG":"平均请求时间间隔",
"USER_ADDRESS":"推测居住地";
S1.3:根据S1.2的统计结果统计出以下的数据指标:
"USER_ID":"用户账号",
"T_IDSER":"身份证号码",
"USER_GPS_COUNT":"手机购票次数",
"CHECK_TIME_AVG":"平均请求时间间隔",
"T_MOST_TYPE":"成功订单座位中的有座票与无座票次数差值",
"USER_ADDRESS_REQ_RATIO":"于推测居住地发起购票次数于与总购票次数比值"。


3.根据权利要求2所述的智能车站反刷票方法,其特征在于,推测居住地的推测方法为:
若存在移动设备定位地址则使用最多次相同定位地址为准,若不存在则使用USER_PREFER_SRC的所在城市作为推测居住地"。


4.根据权利要求2或3所述的智能车站反刷票方法,其特征在于,S2包括以下步骤:
S2.1:构建系统处理用户购票请求的优先度规则,优先度为1-5,数字越高表示越优先处理:
手机购票次数越多的用户,优先度增加;
ip或账号的单个时间内请求次数也就是频率越大,优先度降低;
购票ip归属地长期非账户推测居住地,优先度降低;
T_MOST_TYPE的值高于所有用户的平均水平,优先度越高;
S2.2:通过对USER_ID和T_IDSER两个指标以外的指标进行归一化,然后根据S2.1的优先度规则给出五个初始训练样本,从上到下对应优先级5至1:
(x1,y1,1.00,0.00,1.00,1.00,5),
(x2,y2,0.80,0.25,0.80,0.80,4),
(x3,y3,0.50,0.50,0.50,0.50,3),
(x4,y4,0.25,0.80,0.25,0.25,2),
(x5,y5,0.00,1.00,0.00,0.00,1)
其中,上述五个样本的格式为:(USER_ID,T_IDSER,USER_GPS_COUNT_NORMAL,CHECK_TIME_AVG_NORMAL,USER_ADDRESS_REQ_RATIO_NORMAL,T_MOST_TYPE_NORMAL,PRI_LABEL);
PRI_LABEL为优先级标签,后缀为_NORMAL的表示原字段值归一化后的结果;
x1-x5,y1-y5分别表示不同的USER_ID,T_IDSER;
S2.3:根据S2.2给出的五个自定义样本点作为簇中心,从上到下分别为μ1,μ2,μ3,μ4,μ5,将S1.3中所描述的预处理后的用户购票;
历史数据集作为输入;每条数据称为一个样本xm,m∈[1,n],n表示数据总数;按照以下过程进行计算:
(1)计算每个样本xm与各“簇中心”向量的欧式距离,根据距离最近的“簇中心”向量确定xm的簇标记:
γm=argmin||xm-μi||2,i=1,2,...5
其中argmin是使目标函数取最小值时的变量值;
(2)更新各个簇中心:



其中ni表示为属于簇i的样本总数;
(3)判断簇标签是否达到收敛精度,若达到,则输出各簇中心;若未达到,则返回步骤(2);直到簇标签达到预设的收敛精度为止;
S2.4:通过Flink计算引擎得出的处理优先度,还需在计算中关联S1所述历史数据中每个账号本身的其他数据,才是完整的用户画像数据,完整数据格式为:
″USER_ID″:″用户账号″,″T_IDSER″:″身份证号码″,
″USER_PREFER_SRC″:常用的乘车出发站点,
″USER_PREFER_DES″:″常用的乘车目的地站点,
″USER_ADDRESS″:″推测居住地,
″PRI_LABEL″:″请求的处理优先级″;
上述格式的数据直接存储至Redis数据库中,在售票期间供实时计算过程使用。


5.根据权利要求4所述的智能车站反刷票方法,其特征在于,S3包括以下步骤:
S3.1:提出购票期间的异常购票行为识别根据:
(1)同一ip或者账号请求频率大于正常行为数据集得到的均值;
(2)同一ip或者账号购票请求包含不同乘车人数量大于正常平均值;
(3)同一ip或者账号以大于正常平均值...

【专利技术属性】
技术研发人员:田野李建中吴宗泽周健钧李俊彬
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1