当前位置: 首页 > 专利查询>东北大学专利>正文

多尺度空间下不确定行为语义的社交群体发现方法技术

技术编号:15095198 阅读:78 留言:0更新日期:2017-04-07 22:37
本发明专利技术涉及一种多尺度空间下不确定行为语义的社交群体发现方法,属于数据挖掘和知识发现领域,本发明专利技术基于用户社交网Twitter行为轨迹,根据其发布推文地理位置的相似性以及推文词条所表达的不确定活动语义的相似性,来发现用户是否具相似有行为关系,从而找到对应的相似行为用户群体;实验证明,本发明专利技术在发现用户相似行为群体的准确性上优于现在已有的判断方法,具有很高的实际应用价值,如果能够得到极大推广,势必会有助于产业创新、促进跨界融合、惠及社会民生,推动我国经济和社会的创新发展。

System and method for finding social group of uncertain behavior semantics in multi-scale space

The invention relates to a multi scale space under the uncertain semantic community discovery system and method, which belongs to the area of data mining and knowledge discovery, the social network user behavior based on Twitter track, according to the release of similarity and tweets a word of uncertain semantic similarity activities expressed by tweets location to find out, whether the user has similar behavior, in order to find the similar user groups corresponding to the behavior; experiments show that the accuracy of user groups found similar behavior is better than the existing methods of judgment now, has very high practical value, if you can get great promotion, will help to promote industrial innovation and cross border integration, benefit people's livelihood, promote the innovation and development of China's economy and society.

【技术实现步骤摘要】

本专利技术属于数据挖掘和知识发现领域,具体涉及一种多尺度空间下不确定行为语义的社交群体发现系统及方法。
技术介绍
随着社交网应用的快速普及,越来越多的用户融入到社交网中,比较典型的应用有国内的新浪微博、国外的推特(Twitter)等,这些社交应用允许用户将其最新动态和想法以短信形式发布到手机或是网站,如果用户愿意,还可发布微博-推文所处物理位置信息。微博-推文内容虽然简短,但却蕴涵一定语义,在某种程度上可以用于推演用户行为;而允许公开物理位置信息则可以方便追踪用户最新动态,如果能将上述两个方面加以有效利用,就能更好地为诸如商业销售、旅游路线推荐、广告精准投放以及城市功能规划等领域进行服务。令人遗憾的是,迄今为止,在行为语义研究方面,几乎所有研究成果都认为行为语义是确定性的,但事实上,行为语义本身往往具有一定的不确定性,这主要源于当用推文对应的“词条集合(asetofterms)”表达行为所蕴涵的“活动(activity)”语义时,“词条”与“活动”之间存在着不确定的语义映射关系,比如一个“词条”可隶属于多个“活动”,而一个“活动”又可包含多个词条,正是这种语义映射的不确定性在一定程度上影响了相似行为用户群体发现的精度,但目前该问题却一直未能引起相关人员的高度重视。而另一方面,在利用微博和推特等社交数据服务于各种应用时没有充分考虑不同地理空间尺度对社交群体聚类的影响。实际上,根据地理学第一定律,有理由认为位置相近用户所产生的行为要比距离较远用户产生的行为更相似;其次,在细粒度地理空间上共享相似位置的用户具有更大的行为相似可能性,比如,两个用户在同一大学发推文可能比在同一城市发推文更具行为相似性,因此以分裂方式对位置轨迹进行不同空间度量尺度下的递归聚类,可以更有效地区分相似行为用户。
技术实现思路
针对现有技术的不足,本专利技术提出一种多尺度空间下不确定行为语义的社交群体发现系统及方法,基于用户社交网Twitter行为轨迹,根据其发布推文地理位置的相似性以及推文词条所表达的不确定活动语义的相似性,来发现用户是否具有相似行为关系。一种多尺度空间下不确定行为语义的社交群体发现系统,包括社交网推文采集模块、多尺度空间下推文物理位置聚类模块、推文物理位置相似度矩阵计算模块、不确定行为语义词条库构建模块、推文词条提取模块、推文词条表达活动概率值及相似性概率获取模块和行为相似社交群体发现模块,其中:社交网推文采集模块:用于采集社交网站的推文数据集,包括发布内容、发布位置、用户ID、用户名和文本发布时间,并经过数据清洗操作后进行存储;多尺度空间下推文物理位置聚类模块:用于将每个用户推文形成的时空轨迹,按照基于密度的聚类方式在不同地理空间尺度下进行浓密区聚类,以生成用户多层次推文物理位置聚类簇序列;推文物理位置相似度矩阵计算模块:用于对聚类所得的任意一对用户间的各层推文轨迹簇序列进行物理位置的综合性相似度获取,即获得推文轨迹物理位置相似度;不确定行为语义词条库构建模块:用于构建社交网用户行为活动词条库,并抽取出每类活动包含的词条,通过重要性权重分布曲线,确定活动相关词条的判断阈值和活动半相关词条的判断阈值;将词条权重概率值大小与阈值进行比较,将词条分为活动相关词条、活动半相关词条和活动不相关词条三类,并赋予词条表达活动的概率值,获得不确定词条活动库;推文词条提取模块:用于对所有用户发布的推文文本进行词条提取;推文词条表达活动概率值及相似性概率获取模块:用于针对同层每一个最大位置轨迹匹配,合并同一用户不同物理位置簇的推文,生成推文语义词条集合,获得一对用户间推文语义活动的所有组合情况及各组合的概率值,进而获得一对用户间推文语义活动的同层概率值,即获得一对用户间同层推文语义行为相似度的概率值,再根据不同粒度划分层对语义相似度的权重,获得一对用户间推文语义活动的多层概率值,即获得一对用户间多层推文语义行为相似度的概率值;行为相似社交群体发现模块:用于根据推文轨迹物理位置相似度和活动相似性概率获得轨迹行为相似度,通过构建连通图的方式获得推文相似行为群体。采用所述的多尺度空间下不确定行为语义的社交群体发现系统进行的发现方法,包括以下步骤:步骤1、在样本采集范围内采用社交网推文采集模块获取社交网站的推文数据集;所述的推文数据集包括按照推文时间排序的推文物理位置和推文文本词条;步骤2、采用计算机中的多尺度空间下推文物理位置聚类模块,将每个用户推文形成的时空轨迹,按照基于密度的聚类方式在不同地理空间尺度下进行浓密区聚类,以生成用户多层次推文物理位置聚类簇序列;步骤3、采用多层次推文物理位置相似度矩阵计算模块,对聚类所得的任意一对用户间的各层推文轨迹簇序列进行物理位置的综合性相似度获取;步骤4、采用计算机中的不确定行为语义词条库构建模块,构建不确定词条行为活动库,具体步骤如下:步骤4-1、划分活动类别,并提取各类活动包含词条;步骤4-2、赋予各种不确定词条表达活动的概率值,具体步骤如下:步骤4-2-1、统计词条的词频和词条的逆向文本频率,根据词条的词频和词条的逆向文本频率获得词条的重要性权重;步骤4-2-2、通过重要性权重分布曲线,确定活动相关词条的判断阈值和活动半相关词条的判断阈值;步骤4-2-3、将词条权重概率值大小与阈值进行比较,将词条分为活动相关词条、活动半相关词条和活动不相关词条三类,并赋予词条表达活动的概率值,获得不确定词条行为活动库;步骤5、采用推文词条提取模块对所有用户发布的推文文本进行词条提取;步骤6、采用推文词条表达活动概率值及相似性概率获取模块,获得一对用户间推文语义行为相似度的概率值,具体步骤如下:步骤6-1、针对同层每一个最大位置轨迹匹配,合并同一用户不同物理位置簇的推文,生成推文语义词条集合;步骤6-2、获得一对用户间推文语义活动的所有组合情况及各组合的概率值,进而获得一对用户间推文语义活动的同层概率值,即获得一对用户间同层推文语义行为相似度的概率值;步骤6-3、根据不同粒度划分层对语义相似度的权重,获得一对用户间推文语义活动的多层概率值,即获得一对用户间多层推文语义行为相似度的概率值;步骤7、采用行为相似社交群体发现模块,根据推文轨迹物理位置相似度和活动相似性概率获得轨迹行为相似度,通过构建连通图的方式获得推文相似行为群体。步骤1所述的在样本采集范围内采用社交网推文采集模块获取社交网站的推文数据集,需要对所采集的数据经过数据清洗操作后进行本文档来自技高网
...

【技术保护点】
一种多尺度空间下不确定行为语义的社交群体发现系统,其特征在于,包括社交网推文采集模块、多尺度空间下推文物理位置聚类模块、推文物理位置相似度矩阵计算模块、不确定行为语义词条库构建模块、推文词条提取模块、推文词条表达活动概率值及相似性概率获取模块和行为相似社交群体发现模块,其中:社交网推文采集模块:用于采集社交网站的推文数据集,包括发布内容、发布位置、用户ID、用户名和文本发布时间,并经过数据清洗操作后进行存储;多尺度空间下推文物理位置聚类模块:用于将每个用户推文形成的时空轨迹,按照基于密度的聚类方式在不同地理空间尺度下进行浓密区聚类,以生成用户多层次推文物理位置聚类簇序列;推文物理位置相似度矩阵计算模块:用于对聚类所得的任意一对用户间的各层推文轨迹簇序列进行物理位置的综合性相似度获取,即获得推文轨迹物理位置相似度;不确定行为语义词条库构建模块:用于构建社交网用户行为活动词条库,并抽取出每类活动包含的词条,通过重要性权重分布曲线,确定活动相关词条的判断阈值和活动半相关词条的判断阈值;将词条权重概率值大小与阈值进行比较,将词条分为活动相关词条、活动半相关词条和活动不相关词条三类,并赋予词条表达活动的概率值,获得不确定词条活动库;推文词条提取模块:用于对所有用户发布的推文文本进行词条提取;推文词条表达活动概率值及相似性概率获取模块:用于针对同层每一个最大位置轨迹匹配,合并同一用户不同物理位置簇的推文,生成推文语义词条集合,获得一对用户间推文语义活动的所有组合情况及各组合的概率值,进而获得一对用户间推文语义活动的同层概率值,即获得一对用户间同层推文语义行为相似度的概率值,再根据不同粒度划分层对语义相似度的权重,获得一对用户间推文语义活动的多层概率值,即获得一对用户间多层推文语义行为相似度的概率值;行为相似社交群体发现模块:用于根据推文轨迹物理位置相似度和活动相似性概率获得轨迹行为相似度,通过构建连通图的方式获得推文相似行为群体。...

【技术特征摘要】
1.一种多尺度空间下不确定行为语义的社交群体发现系统,其特征在于,包括社交网
推文采集模块、多尺度空间下推文物理位置聚类模块、推文物理位置相似度矩阵计算模块、
不确定行为语义词条库构建模块、推文词条提取模块、推文词条表达活动概率值及相似性
概率获取模块和行为相似社交群体发现模块,其中:
社交网推文采集模块:用于采集社交网站的推文数据集,包括发布内容、发布位置、用
户ID、用户名和文本发布时间,并经过数据清洗操作后进行存储;
多尺度空间下推文物理位置聚类模块:用于将每个用户推文形成的时空轨迹,按照基
于密度的聚类方式在不同地理空间尺度下进行浓密区聚类,以生成用户多层次推文物理位
置聚类簇序列;
推文物理位置相似度矩阵计算模块:用于对聚类所得的任意一对用户间的各层推文轨
迹簇序列进行物理位置的综合性相似度获取,即获得推文轨迹物理位置相似度;
不确定行为语义词条库构建模块:用于构建社交网用户行为活动词条库,并抽取出每
类活动包含的词条,通过重要性权重分布曲线,确定活动相关词条的判断阈值和活动半相
关词条的判断阈值;将词条权重概率值大小与阈值进行比较,将词条分为活动相关词条、活
动半相关词条和活动不相关词条三类,并赋予词条表达活动的概率值,获得不确定词条活
动库;
推文词条提取模块:用于对所有用户发布的推文文本进行词条提取;
推文词条表达活动概率值及相似性概率获取模块:用于针对同层每一个最大位置轨迹
匹配,合并同一用户不同物理位置簇的推文,生成推文语义词条集合,获得一对用户间推文
语义活动的所有组合情况及各组合的概率值,进而获得一对用户间推文语义活动的同层概
率值,即获得一对用户间同层推文语义行为相似度的概率值,再根据不同粒度划分层对语
义相似度的权重,获得一对用户间推文语义活动的多层概率值,即获得一对用户间多层推
文语义行为相似度的概率值;
行为相似社交群体发现模块:用于根据推文轨迹物理位置相似度和活动相似性概率获
得轨迹行为相似度,通过构建连通图的方式获得推文相似行为群体。
2.采用权利要求1所述的多尺度空间下不确定行为语义的社交群体发现系统进行的发
现方法,其特征在于,包括以下步骤:
步骤1、在样本采集范围内采用社交网推文采集模块获取社交网站的推文数据集;
所述的推文数据集包括按照推文时间排序的推文物理位置和推文文本词条;
步骤2、采用计算机中的多尺度空间下推文物理位置聚类模块,将每个用户推文形成的
时空轨迹,按照基于密度的聚类方式在不同地理空间尺度下进行浓密区聚类,以生成用户
多层次推文物理位置聚类簇序列;
步骤3、采用多层次推文物理位置相似度矩阵计算模块,对聚类所得的任意一对用户间
的各层推文轨迹簇序列进行物理位置的综合性相似度获取;
步骤4、采用计算机中的不确定行为语义词条库构建模块,构建不确定词条行为活动
库,具体步骤如下:
步骤4-1、划分活动类别,并提取各类活动包含词条;
步骤4-2、赋予各种不确定词条表达活动的概率值,具体步骤如下:
步骤4-2-1、统计词条的词频和词条的逆向文本频率,根据词条的词频和词条的逆向文
本频率获得词条的重要性权重;
步骤4-2-2、通过重要性权重分布曲线,确定活动相关词条的判断阈值和活动半相关词
条的判断阈值;
步骤4-2-3、将词条权重概率值大小与阈值进行比较,将词条分为活动相关词条、活动
半相关词条和活动不相关词条三类,并赋予词条表达活动的概率值,获得不确定词条行为
活动库;
步骤5、采用推文词条提取模块对所有用户发布的推文文本进行词条提取;
步骤6、采用推文词条表达活动概率值及相似性概率获取模块,获得一对用户间推文语
义行为相似度的概率值,具体步骤如下:
步骤6-1、针对同层每一个最大位置轨迹匹配,合并同一用户不同物理位置簇的推文,
生成推文语义词条集合;
步骤6-2、获得一对用户间推文语义活动的所有组合情况及各组合的概率值,进而获得
一对用户间推文语义活动的同层概率值,即获得一对用户间同层推文语义行为相似度的概
...

【专利技术属性】
技术研发人员:于亚新隋鸣飞张海军苏诚成
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1