基于社会媒体平台上社会事件的跟踪方法技术

技术编号:15690958 阅读:87 留言:0更新日期:2017-06-24 03:46
本发明专利技术公开一种基于社会媒体平台上社会事件的跟踪方法。其中,该方法包括提取社会媒体平台上社会事件的文本和视觉信息特征;基于提取的文本和视觉信息特征,利用基于事件的在线多模态跟踪方法,在线地建模多模态数据的社会事件,得到多模态的文本和视觉主题以及社会事件文档的特征表示;利用多模态的文本和视觉主题以及社会事件文档的特征表示,并将基于事件的在线多模态跟踪方法集成到社会事件跟踪方法上,来进行社会事件跟踪。由此,本发明专利技术实施例能够针对时序性的社会事件进行有效地跟踪,且有效地跟踪整个事件过程的发展轨迹,并且让用户快速了解和分析整个事件的演变过程,从而改善了跟踪效果,实现了基于多模态信息语义融合的社会事件跟踪。

Social events tracking method based on social media platform

The invention discloses a method for tracking social events based on a social media platform. Among them, the method includes the extraction of social media platforms and social events of textual and visual information features; extraction of textual and visual information based on the features, using event online mode tracking method based on on-line modeling of multi modal data from social events, multimodal text and visual themes and social events document representation; the use of multimodal text and visual themes and social events document feature representation method for tracking and multi modal tracking method based on integrated online events to social events, to carry out social event tracking. Thus, the embodiment of the invention can effectively track the timing of social events, the development track and effectively track the entire event process, and allow users to quickly understand and analyze the evolution process of the entire event, so as to improve the tracking performance, and achieve semantic multimodal information fusion tracking based on social events.

【技术实现步骤摘要】
基于社会媒体平台上社会事件的跟踪方法
本专利技术涉及数据挖掘与数据跟踪
,具体而言,涉及一种基于社会媒体平台上社会事件的跟踪方法。
技术介绍
随着互联网的快速发展,越来越多的社交网站(如Flickr,YouTube,脸谱网和谷歌新闻)出现在人们的视野,并且允许用户去分享想法、心情、图片、活动、事件以及寻找具有相同爱好的人。所以,现在发生在我们周围和世界周围的热门事件主题可以快速在各大媒体网站上传播,并且产生了大量的多模态媒体数据,其包括图片、视频、文本等。这些被用户传播在网站的多媒体数据内容大多和社会事件息息相关。然而在现实生活中,用户人工收集这些所有的资料并且认识事件的整个演变过程是非常耗时。社会事件跟踪可以在一定程度上解决整个问题,它的目的是为了从大量的媒体数据中自动识别以及跟踪有趣的社会事件演变。举例说明,用户往往可能想要从开始到结束跟踪整个“2011英国暴动”这个主题演变过程。当用户在谷歌新闻上搜索整个相关事件的媒体信息时,可能会得到大量的相关信息。然而,结果往往只是显示最近所发生的事情,而与它相关的事件信息可能过于分散,用户为了了解整个事件不得不不断地重复在这些信息之间进行切换。此外,对于用户来说,浏览如此大量的数据信息是非常耗时的,用户也无法捕捉到整个事件的演变。因此,为了得到一个科学的事件分析过程,我们有必要自动收集社会事件的整个发展趋势并且用可视化的方式展示出来。如果得到了这个科学的分析过程,我们就可以知道“2011英国暴动”这个事件整体在各个城市间的发展演变。总的来说,基于社会媒体平台的社会事件跟踪是非常重要的,从大量的社交媒体的数据中自动挖掘和跟踪社会事件,有助于用户和政府更好地理解社会事件和知道它的演变趋势。当前,社会媒体平台包含了大量的非结构化的多模态媒体数据,它不同于传统的只有单一模态的数据,比如只有文本数据。在不同的社会媒体平台,社会事件具有丰富的多模态信息形式,比如文本、图片和视频等。这些多模态信息形式可以互相补充,能够更好地帮助用户理解事件。举例说明,对于相同的一个社会事件,由于不同的用户在媒体平台上表述的文本内容可能不同,但是其平台上的视觉信息可能是相同或者相似的。然而,目前的一些工作可能都是集中研究某一种形态比如文本或者图片。而人们需要综合考虑多模态数据进行社会事件的分析。第二,在社会事件的跟踪过程中,各个媒体网站可能具有相似的事件报道,比如“占领华尔街”,“美国总统选举”,它们都具有相似的主题,类似“美国,政府,总统”。但是,由于很多信息都是由用户产生的,所以有可能会存在一些噪音。举个例子,评论和相应的图片可能表述的事件没有关系。这些问题很可能导致在线的社会事件跟踪产生模型漂移。所以设计一种多模态融合策略和避免模型漂移问题的在线跟踪方法对于社会事件跟踪是非常有必要的。为了实现以上目标,目前已经提出了很多方法。在最近的研究中,很多主题模型方法也同样被用于多模态主题的社会事件分析。然而,这些方法要么必须假设主题个数要么在传统的主题模型中,使用不同的数据集训练模型并且最后选择最好的数据集。这就意味着用户必须对数据集的结构做一个假设或者训练多种模型。
技术实现思路
为了解决现有技术中的上述问题,即为了解决如何改善社会事件跟踪效果的技术问题,提供一种基于社会媒体平台上社会事件的跟踪方法。为了实现上述目的,提供以下技术方案:一种基于社会媒体平台上社会事件的跟踪方法,该方法可以包括:提取社会媒体平台上社会事件的文本和视觉信息特征;基于提取的文本和视觉信息特征,利用基于事件的在线多模态跟踪方法,在线地建模多模态数据的社会事件,得到多模态的文本和视觉主题以及社会事件文档的特征表示;利用多模态的文本和视觉主题以及社会事件文档的特征表示,并将基于事件的在线多模态跟踪方法集成到社会事件跟踪方法上,来进行社会事件跟踪。优选地,提取社会媒体平台上社会事件的文本和视觉信息特征,具体可以包括:针对社会媒体平台上社会事件的文本信息,使用向量空间模型,并利用文本的上下文信息,提取文本特征;针对社会媒体平台上社会事件的视觉信息,结合图像的结构信息,利用稀疏学习和字典学习,并基于词袋模型,提取视觉信息特征;其中,视觉信息包括图像的结构信息。优选地,基于提取的文本和视觉信息特征,利用基于事件的在线多模态跟踪方法,在线地建模多模态数据的社会事件,得到多模态的文本和视觉主题以及社会事件文档的特征表示,具体可以包括:定义文档层的狄利克雷:ψdj~G0,π’dj~Beta(1,α),其中,ψdj表示社会事件文档的主题分布,表示全局的主题分布;G0表示基础分布;Beta()表示服从贝塔分布;π’dj和π’dl表示每一社会事件文档的段棍构造比例;α表示尺度参数;πdj表示文档主题的权重分布;l表示索引标记;j表示主题数目;Gd表示服从Dirichlet过程的随机分布;表示ψdj点的概率测度;cdj表示指示变量,cdj~Mult(β);Mult()表示服从多项式分布;通过文档层的狄利克雷定义,得到视觉-文本主题空间分布;将视觉-文本主题空间分布作为已知先验,得到多模态的文本和视觉主题以及社会事件文档的特征表示。优选地,通过文档层的狄利克雷定义,得到视觉-文本主题空间分布,具体可以包括:针对文本主题,根据狄利克雷先验分布,获得文本主题空间的多项式分布;针对视觉主题,根据狄利克雷先验分布,获得视觉主题空间的多项式分布;针对截断层,抽样得到主题指示变量和文档主题比例;根据主题指示变量和文档主题比例,从文本主题空间抽样得到文本单词的主题;根据文本主题空间的多项式分布,对文本单词的主题抽样得到文本单词;从视觉主题空间抽样得到视觉单词的主题;根据视觉主题空间的多项式分布,对视觉单词的主题抽样得到视觉单词;基于文本单词及视觉单词,利用在线变分推断的方法,得到视觉-文本主题空间分布。优选地,利用多模态的文本和视觉主题以及社会事件文档的特征表示,并将基于事件的在线多模态跟踪方法集成到社会事件跟踪方法上,来进行社会事件跟踪,具体可以包括:基于多模态的文本和视觉主题以及社会事件文档的特征表示,利用分类器,进行基于社会事件的在线多模态跟踪,得到社会事件的类标;根据社会事件文档的特征表示和社会事件的类标,并将基于事件的在线多模态跟踪方法集成到社会事件跟踪方法上,来进行社会事件跟踪。优选地,分类器可以通过以下方式来构建:根据下式构建softmax函数:其中,yd表示文本的类标;μt、和μt,l表示类的系数;C表示社会事件类别的数量;表示每一社会事件文档的特征表示;通过softmax函数,并根据下式构建分类器:其中,表示分类器;表示社会事件的类标;表示新来的事件文档的特征表示;表示类的系数。优选地,根据社会事件文档的特征表示和社会事件的类标,并将基于事件的在线多模态跟踪方法集成到社会事件跟踪方法上,来进行社会事件跟踪,具体可以包括:将各时刻的分类器集成为专家系统;利用累计函数和损失函数,得到最佳专家系统;利用最佳专家系统挖掘社会事件的文本和视觉主题,从而实现社会事件的跟踪。优选地,累计函数通过下式来构建:其中,表示时刻t专家系统的损失函数;Δ表示时间窗口的大小;损失函数通过下式来构建:其中,表示损失函数;L表示log似然函数,H表示熵项本文档来自技高网
...
基于社会媒体平台上社会事件的跟踪方法

【技术保护点】
一种基于社会媒体平台上社会事件的跟踪方法,其特征在于,所述方法包括:提取所述社会媒体平台上社会事件的文本和视觉信息特征;基于提取的所述文本和视觉信息特征,利用基于事件的在线多模态跟踪方法,在线地建模多模态数据的社会事件,得到多模态的文本和视觉主题以及社会事件文档的特征表示;利用所述多模态的文本和视觉主题以及所述社会事件文档的特征表示,并将所述基于事件的在线多模态跟踪方法集成到社会事件跟踪方法上,来进行社会事件跟踪。

【技术特征摘要】
1.一种基于社会媒体平台上社会事件的跟踪方法,其特征在于,所述方法包括:提取所述社会媒体平台上社会事件的文本和视觉信息特征;基于提取的所述文本和视觉信息特征,利用基于事件的在线多模态跟踪方法,在线地建模多模态数据的社会事件,得到多模态的文本和视觉主题以及社会事件文档的特征表示;利用所述多模态的文本和视觉主题以及所述社会事件文档的特征表示,并将所述基于事件的在线多模态跟踪方法集成到社会事件跟踪方法上,来进行社会事件跟踪。2.根据权利要求1所述的方法,其特征在于,所述提取所述社会媒体平台上社会事件的文本和视觉信息特征,具体包括:针对所述社会媒体平台上社会事件的文本信息,使用向量空间模型,并利用文本的上下文信息,提取所述文本特征;针对所述社会媒体平台上社会事件的视觉信息,结合图像的结构信息,利用稀疏学习和字典学习,并基于词袋模型,提取所述视觉信息特征;其中,所述视觉信息包括所述图像的结构信息。3.根据权利要求1所述的方法,其特征在于,所述基于提取的所述文本和视觉信息特征,利用基于事件的在线多模态跟踪方法,在线地建模多模态数据的社会事件,得到多模态的文本和视觉主题以及社会事件文档的特征表示,具体包括:定义文档层的狄利克雷:ψdj~G0,π’dj~Beta(1,α),其中,所述ψdj表示所述社会事件文档的主题分布,所述表示全局的主题分布;所述G0表示基础分布;所述Beta()表示服从贝塔分布;所述π’dj和所述π’dl表示每一所述社会事件文档的段棍构造比例;所述α表示尺度参数;所述πdj表示文档主题的权重分布;所述l表示索引标记;所述t表示主题数目;所述Gd表示服从Dirichlet过程的随机分布;所述表示所述ψdj点的概率测度;所述cdj表示指示变量,cdj~Mult(β);所述Mult()表示服从多项式分布;通过所述文档层的狄利克雷定义,得到视觉-文本主题空间分布;将所述视觉-文本主题空间分布作为已知先验,得到所述多模态的文本和视觉主题以及所述社会事件文档的所述特征表示。4.根据权利要求3所述的方法,其特征在于,所述通过所述文档层的狄利克雷定义,得到视觉-文本主题空间分布,具体包括:针对文本主题,根据狄利克雷先验分布,获得文本主题空间的多项式分布;针对视觉主题,根据狄利克雷先验分布,获得视觉主题空间的多项式分布;针对截断层,抽样得到主题指示变量和文档主题比例;根据主题指示变量和文档主题比例,从所述文本主题空间抽样得到文本单词的主题;根据所述文本主题空间的所述多项式分布,对所述文本单词的主题抽样得到文本单词;从所述视觉主题空间抽样得到视觉单词的主题;根据所述视觉主题空间的多项式分布,对所述视觉单词的主题抽样得到视觉单词;基于所述文本单词及所述视觉单词,利用在线变分推断的方法,得到所述视觉-文本主题空间分布。5.根据权利要求1所述的方法,其特征在于,所述利用所述多模态的文本和视觉主题以及所述社会事件文档的特征表示,并将所述基于事件的在线多模态跟踪方法集成到社会事件跟踪方法上,来...

【专利技术属性】
技术研发人员:徐常胜钱胜胜张天柱
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1