The invention discloses a method for tracking social events based on a social media platform. Among them, the method includes the extraction of social media platforms and social events of textual and visual information features; extraction of textual and visual information based on the features, using event online mode tracking method based on on-line modeling of multi modal data from social events, multimodal text and visual themes and social events document representation; the use of multimodal text and visual themes and social events document feature representation method for tracking and multi modal tracking method based on integrated online events to social events, to carry out social event tracking. Thus, the embodiment of the invention can effectively track the timing of social events, the development track and effectively track the entire event process, and allow users to quickly understand and analyze the evolution process of the entire event, so as to improve the tracking performance, and achieve semantic multimodal information fusion tracking based on social events.
【技术实现步骤摘要】
基于社会媒体平台上社会事件的跟踪方法
本专利技术涉及数据挖掘与数据跟踪
,具体而言,涉及一种基于社会媒体平台上社会事件的跟踪方法。
技术介绍
随着互联网的快速发展,越来越多的社交网站(如Flickr,YouTube,脸谱网和谷歌新闻)出现在人们的视野,并且允许用户去分享想法、心情、图片、活动、事件以及寻找具有相同爱好的人。所以,现在发生在我们周围和世界周围的热门事件主题可以快速在各大媒体网站上传播,并且产生了大量的多模态媒体数据,其包括图片、视频、文本等。这些被用户传播在网站的多媒体数据内容大多和社会事件息息相关。然而在现实生活中,用户人工收集这些所有的资料并且认识事件的整个演变过程是非常耗时。社会事件跟踪可以在一定程度上解决整个问题,它的目的是为了从大量的媒体数据中自动识别以及跟踪有趣的社会事件演变。举例说明,用户往往可能想要从开始到结束跟踪整个“2011英国暴动”这个主题演变过程。当用户在谷歌新闻上搜索整个相关事件的媒体信息时,可能会得到大量的相关信息。然而,结果往往只是显示最近所发生的事情,而与它相关的事件信息可能过于分散,用户为了了解整个事件不得不不断地重复在这些信息之间进行切换。此外,对于用户来说,浏览如此大量的数据信息是非常耗时的,用户也无法捕捉到整个事件的演变。因此,为了得到一个科学的事件分析过程,我们有必要自动收集社会事件的整个发展趋势并且用可视化的方式展示出来。如果得到了这个科学的分析过程,我们就可以知道“2011英国暴动”这个事件整体在各个城市间的发展演变。总的来说,基于社会媒体平台的社会事件跟踪是非常重要的,从大量的社交媒体的数 ...
【技术保护点】
一种基于社会媒体平台上社会事件的跟踪方法,其特征在于,所述方法包括:提取所述社会媒体平台上社会事件的文本和视觉信息特征;基于提取的所述文本和视觉信息特征,利用基于事件的在线多模态跟踪方法,在线地建模多模态数据的社会事件,得到多模态的文本和视觉主题以及社会事件文档的特征表示;利用所述多模态的文本和视觉主题以及所述社会事件文档的特征表示,并将所述基于事件的在线多模态跟踪方法集成到社会事件跟踪方法上,来进行社会事件跟踪。
【技术特征摘要】
1.一种基于社会媒体平台上社会事件的跟踪方法,其特征在于,所述方法包括:提取所述社会媒体平台上社会事件的文本和视觉信息特征;基于提取的所述文本和视觉信息特征,利用基于事件的在线多模态跟踪方法,在线地建模多模态数据的社会事件,得到多模态的文本和视觉主题以及社会事件文档的特征表示;利用所述多模态的文本和视觉主题以及所述社会事件文档的特征表示,并将所述基于事件的在线多模态跟踪方法集成到社会事件跟踪方法上,来进行社会事件跟踪。2.根据权利要求1所述的方法,其特征在于,所述提取所述社会媒体平台上社会事件的文本和视觉信息特征,具体包括:针对所述社会媒体平台上社会事件的文本信息,使用向量空间模型,并利用文本的上下文信息,提取所述文本特征;针对所述社会媒体平台上社会事件的视觉信息,结合图像的结构信息,利用稀疏学习和字典学习,并基于词袋模型,提取所述视觉信息特征;其中,所述视觉信息包括所述图像的结构信息。3.根据权利要求1所述的方法,其特征在于,所述基于提取的所述文本和视觉信息特征,利用基于事件的在线多模态跟踪方法,在线地建模多模态数据的社会事件,得到多模态的文本和视觉主题以及社会事件文档的特征表示,具体包括:定义文档层的狄利克雷:ψdj~G0,π’dj~Beta(1,α),其中,所述ψdj表示所述社会事件文档的主题分布,所述表示全局的主题分布;所述G0表示基础分布;所述Beta()表示服从贝塔分布;所述π’dj和所述π’dl表示每一所述社会事件文档的段棍构造比例;所述α表示尺度参数;所述πdj表示文档主题的权重分布;所述l表示索引标记;所述t表示主题数目;所述Gd表示服从Dirichlet过程的随机分布;所述表示所述ψdj点的概率测度;所述cdj表示指示变量,cdj~Mult(β);所述Mult()表示服从多项式分布;通过所述文档层的狄利克雷定义,得到视觉-文本主题空间分布;将所述视觉-文本主题空间分布作为已知先验,得到所述多模态的文本和视觉主题以及所述社会事件文档的所述特征表示。4.根据权利要求3所述的方法,其特征在于,所述通过所述文档层的狄利克雷定义,得到视觉-文本主题空间分布,具体包括:针对文本主题,根据狄利克雷先验分布,获得文本主题空间的多项式分布;针对视觉主题,根据狄利克雷先验分布,获得视觉主题空间的多项式分布;针对截断层,抽样得到主题指示变量和文档主题比例;根据主题指示变量和文档主题比例,从所述文本主题空间抽样得到文本单词的主题;根据所述文本主题空间的所述多项式分布,对所述文本单词的主题抽样得到文本单词;从所述视觉主题空间抽样得到视觉单词的主题;根据所述视觉主题空间的多项式分布,对所述视觉单词的主题抽样得到视觉单词;基于所述文本单词及所述视觉单词,利用在线变分推断的方法,得到所述视觉-文本主题空间分布。5.根据权利要求1所述的方法,其特征在于,所述利用所述多模态的文本和视觉主题以及所述社会事件文档的特征表示,并将所述基于事件的在线多模态跟踪方法集成到社会事件跟踪方法上,来...
【专利技术属性】
技术研发人员:徐常胜,钱胜胜,张天柱,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。