一种面向微博检索的基于时间的微博文档扩展方法技术

技术编号:13620161 阅读:113 留言:0更新日期:2016-08-31 11:44
面向微博检索的基于时间的微博文档扩展方法,涉及微博检索技术领域。本发明专利技术为了解决微博短给文档扩展带来的不利影响会削弱文档扩展对估计微博文档模型的作用,从而限制微博检索性能的提升的问题。本发明专利技术利用相关微博的时间特性扩展文档,据此提出了基于时间的微博文档模型。该模型综合考虑了相关微博整体在时间上呈现的爆发性和个体在时间上呈现的近邻性特点,利用词在爆发期内的微博和时间近邻的微博上的分布获得文档扩展词的权重,并提出了基于机器学习的方法选择查询扩展词,进而估计更准确的文档模型。本发明专利技术方法能更好地避免了微博短给文档扩展带来的影响。

【技术实现步骤摘要】

本专利技术涉及一种微博文档扩展方法,涉及微博检索

技术介绍
随着社交媒体和移动互联网的迅速发展,以微博为代表的短文本信息流的处理技术变得越来越重要。面对海量微博和众多用户及其多样性的信息需求,短文本社交媒体的检索已经成为互联网应用不可或缺的重要组成部分。短文本检索的主要问题在于内容过少,例如一般情况下,一条微博由140个字符组成。这使得与查询相关的微博难以仅仅通过原始微博中的词与查询词的匹配被检索到。如何将与微博相关的词加入到原始微博中,丰富微博文档模型,减轻词不匹配的问题,是提升微博检索性能的一个基础手段。在传统的文本检索和Web搜索中,待检索文档比较长,所以文档建模一般不是检索研究中的主要问题。而微博与传统的网页相比,长度非常短,140个字符/汉字的长度限制使得待检索微博本身直接影响了传统检索的性能。首先,文档过短使得文档只在少数索引词上具有权重,这使得查询词不出现在相关文档中的可能性变得更大,词的不匹配问题更加严重。其次,由于在微博中大多数词只出现了一次,因此作为估计文档模型重要依据的词频信息严重失效,使得文档模型难以被准确地估计。此外,微博中用词随意,拼写错误等进一步加剧了上述两种问题。在现有信息检索研究中,文档建模的一个主要研究问题是文档扩展,通过扩展更多的索引词,提供更丰富的信息来更准确地估计一个文档,更好地与查询词匹配,从而提升文本检索的性能。在各种文档扩展方法中,基于文本内容扩展文档是主要方法。其基本思路是,应用与待扩展的文档相似的文档集合估计文档模型。这些用于文档扩展的相似文档可能来自文档的内容近邻、文档集上的聚类或是主题模型构建的主题等。然而在微博文档的扩展中,由于微博很短,使得相似性计算并不十分准确,这对基于内容的文档扩展产生了不利的影响,削弱了文档扩展对估计微博文档模型的作用,从而限制了检索性能的提升。此外,在微博环境下,新话题层出不穷,离线的聚类或主题难以准确表示新话题,在线的聚类或主题的生成代价较高,较难在微博环境下实现,也制约了这类方法在微博检索中的应用。近期研究表明,由于微博快速分享、传播信息的特点,相关微博往往在较短时间内集中
发布的特性有助于改善微博检索的性能。然而,这些研究主要集中在查询与微博的相关度计算或查询扩展上,据我们所知,还没有将时间特性引入到文档扩展的相关研究。
技术实现思路
本专利技术为了解决微博短给文档扩展带来的不利影响,会削弱文档扩展对估计微博文档模型的作用,从而限制微博检索性能的提升的问题,进而提供了一种面向微博检索的基于时间的微博文档扩展方法。本专利技术为解决上述技术问题采取的技术方案是:所述面向微博检索的基于时间的微博文档扩展方法是利用相关微博的爆发性和近邻性这两个时间特性来实现文档扩展,其过程为:步骤一、基于时间的文档扩展模型的构建给定一条微博d,设利用时间爆发性获得的文档扩展模型为利用时间近邻性获得的文档扩展模型为基于和定义基于时间的文档扩展模型如公式(3-5)所示: P ( w | θ d e ) = η P ( w | θ t - b d ) + ( 1 - η ) P ( w | θ t - n d ) - - - ( 3 - 5 ) ]]>其中η用于控制基于时间爆发性的文档扩展与基于时间近邻性的文档扩展对最终文档扩展模型的影响程度;和分别使用爆发期内的微博或时间近邻微博的语言模型θt来估计,其形式为: P ( w | θ t d ) = 1 z ∫ t γ ( t , d ) * P ( w | θ t ) d t - - - ( 3 - 6 ) ]]>其中,θt为t时刻发布的微博的语言模型,γ(t,d)表示θt对d的近邻语言模型估计的影响程度;用以保证使用时间片段上的语言模型对做近似估计,设微博集合为C,将C中的微博按照发布时间划分为若干个微博子集Ct,将Ct内全体微博建立的语言模型标记为利用时间片段上的语言模型,公式(3-6)可以近似估计为: P ( w | θ t d ) = 1 z Σ t γ ( t , d ) * P ( w | θ t s ) - - - ( 3 - 7 ) ]]>其中t指的是一个时间片段,的估计形式上利用了每个时间片段上的微博语言模型通过γ(t,d)可决定哪些微博对的估计产生影响以及产生多大的影响;根据上述基于时间的文档扩展并应用公式(3-4),则基于时间的微博文档模型可估计为: P ( w | θ d ) = ( 1 - λ ) [ ( 1 - δ ) P m l ( 本文档来自技高网
...

【技术保护点】
一种面向微博检索的基于时间的微博文档扩展方法,其特征在于:所述方法是利用相关微博的爆发性和近邻性这两个时间特性来实现文档扩展,其过程为:步骤一、基于时间的文档扩展模型的构建给定一条微博d,设利用时间爆发性获得的文档扩展模型为利用时间近邻性获得的文档扩展模型为基于和定义基于时间的文档扩展模型如公式(3‑5)所示:P(w|θde)=ηP(w|θt-bd)+(1-η)P(w|θt-nd)---(3-5)]]>其中η用于控制基于时间爆发性的文档扩展与基于时间近邻性的文档扩展对最终文档扩展模型的影响程度;和分别使用爆发期内的微博或时间近邻微博的语言模型θt来估计,其形式为:P(w|θtd)=1z∫tγ(t,d)*P(w|θt)dt---(3-6)]]>其中,θt为t时刻发布的微博的语言模型,γ(t,d)表示θt对d的近邻语言模型估计的影响程度;用以保证使用时间片段上的语言模型对做近似估计,设微博集合为C,将C中的微博按照发布时间划分为若干个微博子集Ct,将Ct内全体微博建立的语言模型标记为利用时间片段上的语言模型,公式(3‑6)可以近似估计为:P(w|θtd)=1zΣtγ(t,d)*P(w|θts)---(3-7)]]>其中t指的是一个时间片段,的估计形式上利用了每个时间片段上的微博语言模型通过γ(t,d)可决定哪些微博对的估计产生影响以及产生多大的影响;根据上述基于时间的文档扩展并应用公式(3‑4),则基于时间的微博文档模型可估计为:P(w|θd)=(1-λ)[(1-δ)Pml(w|d)+δ(ηP(w|θt-bd)+(1-η)P(w|θt-nd))]+λP(w|C)---(3-8)]]>其中,和分别为使用爆发期内的微博或时间近邻微博的语言模型θt来估计;步骤二、利用词在爆发期内的微博上的分布获得文档扩展词的权重,实现基于时间爆发性的文档扩展在公式(3‑7)中,通过估计γ(t,d)使爆发期内的微博在文档扩展中占有更重要的地位;从概率的角度估计γ(t,d),定义γ(t,d)=P(t|d);给定一条微博,P(t|d)表示每个时间段t对d的重要程度,描述在不同时间段使用文档d中的词的频繁程度,反映d的内容在不同时间段的热门程度;根据贝叶斯定理:γ(t,d)=P(t|d)=P(d|t)P(t)P(d)---(3-9)]]>假定时间段相互独立且每个时间段的先验概率P(ti)相同,由全概率公式:P(d)=Σti∈TP(d|ti)P(ti)=P(t)Σti∈TP(d|ti)---(3-10)]]>则:P(t|d)=P(d|t)Σti∈TP(d|ti)---(3-11)]]>通过公式(3‑11),估计P(t|d)被转化为估计P(d|t);P(d|t)表示从时间段t内发布的微博所含的全部词的集合中生成d的概率,P(d|t)度量了d的内容在某一时间t内的热门程度,即时间段t上d的词被使用的条件概率可应用这段时间内发布的全体微博的语言模型来度量;设文档中的词彼此独立,采用最大似然估计的语言模型,P(d|t)表示为:P(d|t)=P(d|θts)=Πw⋐dP(w|θts)c(w,d)---(3-12)]]>将公式(3‑10)、(3‑11)、(3‑12)代入(3‑7),则基于时间爆发性的文档扩展模型估计为:P(w|θt-bd)=1z′ΣtP(t|d)*P(w|θts)=1z′ΣtP(d|θts)*P(w|θts)=1z′ΣtP(w|θts)*Πw′⋐dP(w′|θts)c(w′,d)---(3-13)]]>其中c(w,d)表示w在文档中出现的次数,z’是归一化因子,保证基于时间爆发性的文档扩展模型利用的是扩展词w和待扩展文档d在每个时间段上共现的概率和在爆发期的时间片段上使用较多的词会对文档模型的估计产生较大的影响;步骤三、利用词在时间近邻的微博上的分布获得文档扩展词的权重,从而实现基于时间近邻性的文档扩展基于一条微博周围的相关微博数量与时间之间呈现正态分布,据此将γ(t,d)定义为:γ(t,d)=12πe-(td-t)22---(3-1...

【技术特征摘要】
1.一种面向微博检索的基于时间的微博文档扩展方法,其特征在于:所述方法是利用相关微博的爆发性和近邻性这两个时间特性来实现文档扩展,其过程为:步骤一、基于时间的文档扩展模型的构建给定一条微博d,设利用时间爆发性获得的文档扩展模型为利用时间近邻性获得的文档扩展模型为基于和定义基于时间的文档扩展模型如公式(3-5)所示: P ( w | θ d e ) = η P ( w | θ t - b d ) + ( 1 - η ) P ( w | θ t - n d ) - - - ( 3 - 5 ) ]]>其中η用于控制基于时间爆发性的文档扩展与基于时间近邻性的文档扩展对最终文档扩展模型的影响程度;和分别使用爆发期内的微博或时间近邻微博的语言模型θt来估计,其形式为: P ( w | θ t d ) = 1 z ∫ t γ ( t , d ) * P ( w | θ t ) d t - - - ( 3 - 6 ) ]]>其中,θt为t时刻发布的微博的语言模型,γ(t,d)表示θt对d的近邻语言模型估计的影响程度;用以保证使用时间片段上的语言模型对做近似估计,设微博集合为C,将C中的微博按照发布时间划分为若干个微博子集Ct,将Ct内全体微博建立的语言模型标记为利用时间片段上的语言模型,公式(3-6)可以近似估计为: P ( w | θ t d ) = 1 z Σ t γ ( t , d ) * P ( w | θ t s ) - - - ( 3 - 7 ) ]]>其中t指的是一个时间片段,的估计形式上利用了每个时间片段上的微博语言模型通过γ(t,d)可决定哪些微博对的估计产生影响以及产生多大的影响;根据上述基于时间的文档扩展并应用公式(3-4),则基于时间的微博文档模型可估计为: P ( w | θ d ) = ( 1 - λ ) [ ( 1 - δ ) P m l ( w | d ) + δ ( η P ( w | θ t - b d ) + ( 1 - η ) P ( w | θ t - n d ) ) ] + λ P ( w | C ) - - - ( 3 - 8 ) ]]>其中,和分别为使用爆发期内的微博或时间近邻微博的语言模型θt来估计;步骤二、利用词在爆发期内的微博上的分布获得文档扩展词的权重,实现基于时间爆发性的文档扩展在公式(3-7)中,通过估计γ(t,d)使爆发期内的微博在文档扩展中占有更重要的地位;从概率的角度估计γ(t,d),定义γ(t,d)=P(t|d);给定一条微博,P(t|d)表示每个时间段t对d的重要程度,描述在不同时间段使用文档d中的词的频繁程度,反映d的内容在不同时间段的热门程度;根据贝叶斯定理: γ ( t , d ) = P ( t | d ) = P ( d | t ) P ( t ) P ( d ) - - - ( 3 - 9 ) ]]>假定时间段相互独立且每个时间段的先验概率P(ti)相同,由全概率公式: P ( d ) = Σ t i ∈ T P ( d | t i ) P ( t i ) = P ( t ) Σ t i ∈ T P ( d | t i ) - - - ( 3 - 10 ) ]]>则: P ( t | d ) = P ( d | t ) Σ t i ∈ T P ( d | t i ) - - - ( 3 - 11 ) ]]>通过公式(3-11),估计P(t|d)被转化为估计P(d|t);P(d|t)表示从时间段t内发布的微博所含的全部词的集合中生成d的概率,P(d|t)度量了d的内容在某一时间t内的热门程度,即时间段t上d的词被使用的条件概率可应用这段时间内发布的全体微博的语言模型来度量;设文档中的词彼此独立,采用最大似然估计的语言模型,P(d|t)表示为: P ( d | t ) = P ( d | θ t s ) = Π w ⋐ d P ( w | θ t s ) c ( w , d ) - - - ( 3 - 12 ) ]]>将公式(3-10)、(3-11)、(3-12)代入(3-7),则基于时间爆发性的文档扩展模型估计为: P ( w | θ t - b d ) = 1 z ′ Σ t P ( t | d ...

【专利技术属性】
技术研发人员:韩中元孔蕾蕾杨沐昀齐浩亮李生
申请(专利权)人:黑龙江工程学院
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1