一种基于人员行为规律和数据挖掘方法的群体识别方法技术

技术编号:17138760 阅读:27 留言:0更新日期:2018-01-27 14:39
本发明专利技术公开了一种基于人员行为规律和数据挖掘方法的群体识别方法,属于数据挖掘领域,尤其涉及一种基于人员行为规律的大型活动中重点群体识别的方法。利用人员的轨迹数据信息抽取其停留区域及人员去往各个停留区域的频繁度,然后基于提取出的人员停留区域信息,进一步提取各区域语义信息以更准确表达用户行为,结合人员行为规律和特征相似度,利用数据挖掘方法进行群体聚类,最终从目标人群中识别出重点特殊群体。

A group recognition method based on personnel behavior and data mining

The invention discloses a group identification method based on personnel behavior rule and data mining method, which belongs to the field of data mining, in particular to a method of identifying key groups in large-scale activities based on personnel behavior rules. Using the trajectory data information extraction personnel and personnel to the parking area to the parking area is frequent, and then extract the staff parking area based on information extraction, further regional semantic information to more accurately express the user behavior, combined with the staff behavior rules and feature similarity, using data mining methods for clustering, ultimately identify key special groups from the target population.

【技术实现步骤摘要】
一种基于人员行为规律和数据挖掘方法的群体识别方法
本专利技术属于数据挖掘领域,涉及一种基于人员行为规律的大型活动中重点群体识别的方法。
技术介绍
随着市场经济活动的增多和人民物质文化生活水平的提升,各种大型活动的举办愈加频繁,这些大型活动对活动的安全进行、预防突发事件提出了严峻的挑战。而做好大型活动的安全防范工作极其重要的首要问题就是如何识别目标人群中的特殊群体以提前做好预防工作。同时无线通信技术的飞速发展催生了大量的移动对象数据,这些数据刻画了个体和群体的时空动态性,蕴含着移动对象的行为信息,通过分析目标人员移动数据可以帮助人们了解目标人员行为规律、群体动向等。而近年来,卫星通信、GPS设备、RFID、无线传感器、物联网通信、视频跟踪等技术的不断发展与广泛应用,使得全球范围内的各种大小的移动对象都得到较为准确定位和有效跟踪。通过这些技术,信号接收设备可以从定位终端上采集到大量移动对象数据,这些数据蕴含着非常丰富的信息,比如位置信息、时间信息等,而且随着时间的推移,数据量会变得越来越庞大、复杂。同时这些移动对象数据也成为了一种新的数据分析途径,尤其是在重大活动事件之前,研究相关群体的运动轨迹可以帮助人们进行群体识别、了解群体动向、分析群体行为规律,进而使人们可以有针对性地为大型活动做好预防工作。该技术采用数据挖掘中的聚类方法挖掘数据信息,相似人群往往具有相似特征,根据提取出的人员特征信息数据,设计人员之间相似度计算公式,选取适当的聚类算法,从目标人群中识别出重点特殊群体。
技术实现思路
本专利技术提供一种基于人员行为规律和数据挖掘方法的群体识别方法,利用人员的轨迹数据信息抽取其停留区域及人员去往各个停留区域的频繁度,然后基于提取出的人员停留区域信息,进一步提取各区域语义信息以更准确表达用户行为,结合人员行为规律和特征相似度,利用数据挖掘方法进行群体聚类,最终从目标人群中识别出重点特殊群体。一种基于人员行为规律和数据挖掘方法的群体识别方法,该方法的步骤为:步骤一:用人员的轨迹数据信息抽取其停留区域及人员去往各个停留区域的频繁度。步骤1.1:提取人员单条轨迹停留点。停留点表示人员停留一段时间的地理位置,通过从人员轨迹提取出的每一个停留点都和真实的地理位置相关联,这些地理位置能够在某种程度上反应人员的活动情况。定义单条轨迹为T=(p1,p2,…,pn),其中pi=(lati,loni,ti),0≤i≤n,(lati,loni)表示位置点i处的经纬度,ti表示处于位置点i处的时间。给定一段轨迹序列t=(pi,…,pi+m),如果distance(pi,px)≤θd,|ti-tx|≥θt,i≤x≤i+m,px表示轨迹序列中的第x个轨迹点,m是一个0到n-i之间的整数,θd和θt分别为地理距离阈值和时间阈值,则p(lat,lon)即为停留点,其中步骤1.2:人员在经常到访的区域停留点多,反之,在少到访的区域停留点少。DBSCAN算法应用在此处时间复杂度较高而且输入参数较多,因此设计一种简单聚类算法(SC),速度较快且只需要一个输入参数即距离阈值τ,通过遍历每个停留点,将每个停留点指派到和它距离小于τ的簇中,如果没有任何一个簇和此点的距离小于τ,则此点自己作为一个新簇。每个簇即为一个停留区域,记为为此停留区域中所有点,lat和lon为此停留区域点集的中心点,r为此停留区域的半径。步骤二:基于提取出的人员停留区域信息,并进一步提取各区域语义信息。步骤2.1:有时候仅通过地理位置信息并不能准确判断人员之间的关系,还需要停留区域的语义信息。POI(Pointofinformation)描述了这些地理实体的空间和属性信息,如实体的名称、地址、种类和坐标等,因此在很大程度上增强了对实际地理位置的描述能力,一定程度上能够反映出用户行为活动。多数情况下人员停留区域语义信息并不单一,因此不能简单地将停留区域内的所有类别信息归结为一种,而是要记录多种类别及其占比,sem=(<catg1,freq1>,<catg2,freq2>,…,<catgn,freqn>),n≥1。sem表示停留区域中的语义信息,<catg1,freq1>表示第一种语义信息的类别和人员到访此语义对应地理位置的频度。采用LDA主题模型对停留区域内语义信息进行建模,将停留区域内的POI信息类比成文档,区域中的语义信息比成主题,每个POI作为单词。使用建模模型抽取出每个人员停留区域内的语义信息,首先将人员所有停留区域POI信息当作输入数据对模型进行训练,进而利用训练好的模型推测出每个停留区域内的语义信息。将抽取语义信息之后的停留区域重定义为为停留区域以r为半径的圆内的代表性语义信息。步骤2.2:去除无意义语义信息。A人员的语义信息集合为(<住宅区,150>,<咖啡厅,5>,<健身房,45>),B人员的语义信息集合为(<住宅区,200>,<科研机构,59>,<音乐厅,3>),圆括号内的两项表示语义位置信息(简单描述起见,这里只用一种语义信息代表该区域语义)和到访该位置的频度。可以看出,在这个例子中,“住宅区”这项在两者的语义信息集合中占有较大权重,“住宅区”在比较两者语义信息相似性上不具有实际意义甚至是一个干扰项,去掉干扰项后的A与B真实相似度很低。通常“住宅区”语义信息应该是人员们共同拥有的语义信息,每个人的轨迹语义信息都会包含该信息,该语义信息的明显特征就是到访频度高,停留时间段固定。去除无意义语义信息方法过程如下:1)循环判断每条语义信息,从区域语义信息上判断该区域是否可能是住宅区,若是,转2),否,转4);2)判断该停留区域内所有停留点平均停留时间分布是否正确,若是,转3),否,转4);3)从语义信息集合中删除该语义信息;4)跳出循环;步骤三:结合人员行为规律和特征相似度,利用数据挖掘方法进行群体聚类,最终从目标人群中识别出重点特殊群体。步骤3.1:相似性度量从两方面来考虑相似度的计算,地理位置相似度和语义位置相似度。第一方面,地理位置相似度。采用余弦相似度的扩展Tanimoto系数来比较两人相似度,不同于余弦相似度,它考虑了频度及向量长度的影响。给定人员A和人员B,两人地理位置频度向量分别为la和lb,表示为:在判断两地理位置是否相同时,由于定位设备本身的误差,需要通过两个地理位置区域中停留点的重叠程度判断它们的位置关系。两个停留区域的重叠程度,或者说相似度定义为两区域相交区域内属于包含较少停留点的区域内的停留点数和包含较少停留点的区域内的所有停留点个数的比率。然后将该相似度作为权值加入到Tanimoto系数中形成新的加权地理位置相似性度量。公式如下:第二方面,语义位置相似度。给定某个停留区域内的语义信息为sem=(<c1,f1>,<c2,f2>,...<cn,fn>),n≥1,fi代表ci的概率,所以有在比较两停留区域内的语义信息是否相同时,和判断地理位置是否相同类似,也要考虑两者本文档来自技高网...
一种基于人员行为规律和数据挖掘方法的群体识别方法

【技术保护点】
一种基于人员行为规律和数据挖掘方法的群体识别方法,其特征在于:该方法的步骤为:步骤一:用人员的轨迹数据信息抽取其停留区域及人员去往各个停留区域的频繁度;步骤1.1:提取人员单条轨迹停留点;停留点表示人员停留一段时间的地理位置,通过从人员轨迹提取出的每一个停留点都和真实的地理位置相关联,这些地理位置能够在某种程度上反应人员的活动情况;定义单条轨迹为T=(p1,p2,…,pn),其中pi=(lati,loni,ti),0≤i≤n,(lati,loni)表示位置点i处的经纬度,ti表示处于位置点i处的时间;给定一段轨迹序列t=(pi,…,pi+m),如果distance(pi,px)≤θd,|ti‑tx|≥θt,i≤x≤i+m,px表示轨迹序列中的第x个轨迹点,m是一个0到n‑i之间的整数,θd和θt分别为地理距离阈值和时间阈值,则p(lat,lon)即为停留点,其中

【技术特征摘要】
1.一种基于人员行为规律和数据挖掘方法的群体识别方法,其特征在于:该方法的步骤为:步骤一:用人员的轨迹数据信息抽取其停留区域及人员去往各个停留区域的频繁度;步骤1.1:提取人员单条轨迹停留点;停留点表示人员停留一段时间的地理位置,通过从人员轨迹提取出的每一个停留点都和真实的地理位置相关联,这些地理位置能够在某种程度上反应人员的活动情况;定义单条轨迹为T=(p1,p2,…,pn),其中pi=(lati,loni,ti),0≤i≤n,(lati,loni)表示位置点i处的经纬度,ti表示处于位置点i处的时间;给定一段轨迹序列t=(pi,…,pi+m),如果distance(pi,px)≤θd,|ti-tx|≥θt,i≤x≤i+m,px表示轨迹序列中的第x个轨迹点,m是一个0到n-i之间的整数,θd和θt分别为地理距离阈值和时间阈值,则p(lat,lon)即为停留点,其中步骤1.2:人员在经常到访的区域停留点多,反之,在少到访的区域停留点少;DBSCAN算法应用在此处时间复杂度较高而且输入参数较多,因此设计一种简单聚类算法(SC),速度较快且只需要一个输入参数即距离阈值τ,通过遍历每个停留点,将每个停留点指派到和它距离小于τ的簇中,如果没有任何一个簇和此点的距离小于τ,则此点自己作为一个新簇;每个簇即为一个停留区域,记为为此停留区域中所有点,lat和lon为此停留区域点集的中心点,r为此停留区域的半径;步骤二:基于提取出的人员停留区域信息,并进一步提取各区域语义信息;步骤2.1:有时候仅通过地理位置信息并不能准确判断人员之间的关系,还需要停留区域的语义信息;POI(Pointofinformation)描述了这些地理实体的空间和属性信息,多数情况下人员停留区域语义信息并不单一,因此不能简单地将停留区域内的所有类别信息归结为一种,而是要记录多种类别及其占比,sem=(<catg1,freq1>,<catg2,freq2>,…,<catgn,freqn>),n≥1;sem表示停留区域中的语义信息,<catg1,freq1>表示第一种语义信息的类别和人员到访此语义对应地理位置的频度;采用LDA主题模型对停留区域内语义信息进行建模,将停留区域内的POI信息类比成文档,区域中的语义信息比成主题,每个POI作为单词;使用建模模型抽取出每个人员停留区域内的语义信息,首先将人员所有停留区域POI信息当作输入数据对模型进行训练,进而利用训练好的模型推测出每个停留区域内的语义信息;将抽取语义信息之后的停留区域重定义为为停留区域以r为半径的圆内的代表性语义信息;步骤2.2:去除无意义语义信息;A人员的语义信息集合为(<住宅区,150>,<咖啡厅,5>,<健身房,45>),B人员的语义信息集合为(<住宅区,200>,<科研机构,59>,<音乐厅,3>),圆括号内的两项表示语义位置信息和到访该位置的频度;“住宅区”这项在两者的语义信息集合中占有较大权重,“住宅区”在比较两者语义信息相似性上不具有实际意义甚至是一个干扰项,去掉干扰项后的A与B真实相似度很低;通常“住宅区”语义信息应该是人员们共同拥有的语义信息,每个人的轨迹语义信息都会包含该信息,该语义信息的明显特征就是到访频度高,停留时间段固定;去除无意义语义信息方法过程如下:1)循环判断每条语义信息,从区域语义信息上判断该区域是否可能是住宅区,若是,转2),否,转4);2)判断该停留区域内所有停留点平均停留时间分布是否正确,若是,转3),否,转4);3)从语义信息集合中删除该语义信息;4)跳出循环;步骤三:结合人员行为规律和特征相似度,利用数据挖掘方法进行群体聚类,最终从目标人群中识别出重点特殊群体;步骤3.1:相似性度量从两方面来考虑相似度的计算,地理位置相似度和语义位置相似度;第一方面,地理位置相似度;采用余弦相似度的扩展Tanimoto系数来比较两人相似度,不同于余弦相似度,它考虑了频度及向量长度的影响;给定人员A和人员B,两人地理位置频度向量分别为la和lb,表示为:在判断两地理位置是否相同时,由于定位设备本身的误差,需要通过两个地理位置区域中停留点的重叠程度判断它们的位置关系;两...

【专利技术属性】
技术研发人员:丁治明司云飞才智曹阳迟远英
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1