本发明专利技术提供了一种自适应微博话题摘要的生成方法,所述方法包括:步骤1)采用层次聚类的算法识别话题中的子话题和每个子话题对应的博文集合;步骤2)采用子话题对应的博文集合的平均发布时间作为子话题的发生时间,并按照该时间对子话题进行排序;步骤3)将子话题按照两种类型:时间相关和非时间相关进行划分;步骤4)根据子话题的类型,利用相同类型的子话题博文选取模型对博文集合中的博文进行排序,选取排在第一位的博文为代表性博文;步骤5)按照步骤2)的子话题的排序,将每个代表性博文进行排序,得到一个博文子集;步骤6)对博文子集进行处理,生成最终的摘要。该方法能够提高微博话题摘要的质量,提升用户体验。
【技术实现步骤摘要】
本专利技术涉及信息检索
,尤其涉及社交媒体中的信息检索、自动摘要,具体涉及一种自适应微博话题摘要的生成方法。
技术介绍
目前,用户从微博中查找某一话题的相关信息时,往往求助于信息检索技术。但这种方式有一些缺陷:1)大量信息会导致用户信息过载;2)检索回的结果会存在冗余;3)仅仅通过检索结果无法感知话题事件的发展脉络。话题自动摘要技术通过对微博数据进行压缩表示,更好地帮助用户浏览和吸收微博上的海量信息,能有效解决信息检索技术面临的困境。目前,微博话题自动摘要的过程可以分为几个步骤:1)话题对应子话题的发现,如在“日本地震”话题中发现“伤亡情况”,“救援行动”,“地震事件新闻”等一系列子话题。2)子话题时序顺序识别,自动摘要相比于信息检索技术的重要区别便是能显示出事件发展的脉络,因此识别子话题的时间上的先后顺序十分重要;3)子话题代表性的博文选取。针对每个子话题选取代表性的博文生成最终的话题摘要。子话题代表性博文选择是微博话题摘要生成的重要步骤。很多话题摘要方法不区分子话题的类型,对所有子话题采用相同的模型选取代表性的博文。但是,子话题类型间往往存在差异,例如“日本地震”话题对应的一系列子话题“伤亡情况”,“救援行动”,“地震事件新闻”等。“伤亡情况”子话题具有时间相关性,在选取代表性博文时应该选取之间最近的一条;而针对“地震事件新闻”子话题,应该选取更具有权威性的博文,如官方媒体发布或被广泛转发。如果不区分子话题间的区别,一同对待,势必会降低话题摘要的效果。
技术实现思路
本专利技术的目的在于,针对微博话题摘要的需求,提出一种微博话题摘要生成方法,该方法自动识别话题对应子话题的类型,然后针对不同的子话题类型,采取不同的博文选取模型选取代表性博文,由此生成话题摘要。该方法能够提高微博话题摘要的质量,提升用户体验。为了实现上述目的,本专利技术提供了一种自适应微博话题摘要的生成方法,所方法包括:步骤1)采用层次聚类的算法识别话题中的子话题和每个子话题对应的博文集合;步骤2)采用子话题对应的博文集合的平均发布时间作为子话题的发生时间,并按照该时间对子话题进行排序;步骤3)将子话题按照两种类型:时间相关和非时间相关进行划分;步骤4)根据子话题的类型,利用相同类型的子话题博文选取模型对博文集合中的博文进行排序,选取排在第一位的博文为代表性博文;步骤5)按照步骤2)的子话题的排序,将每个代表性博文进行排序,得到一个博文子集;步骤6)将博文子集合并成一段文本作为最终的摘要。上述技术方案中,所述步骤4)之前还包括:建立子话题博文选取模型,所述子话题博文选取模型包括:时间相关性子话题博文选取模型和非时间相关性子话题博文选取模型,所述方法包括:步骤S1)构建时间相关性子话题训练数据集和非时间相关性子话题训练数据集,每个训练数据集包括:若干个子话题、每个子话题对应的博文集,通过人工标注得到的博文的排序;步骤S2)对两个训练数据集中的博文提取相同的特征;步骤S3)建立时间相关性子话题博文选取模型和非时间相关性子话题博文选取模型;两个模型都为排序模型;输入为每个子话题的若干个博文的特征组成的特征向量,输出为博文的排序;步骤S4)对两种排序模型进行训练;两个模型的差别为在博文时间归一化特征上分配的权重不同。上述技术方案中,所述步骤S2)的特征包括:博文长度归一化示、博文时间归一化表示、转发数归一化表示、博文是否包含超链接、博文是否包含主题词和博文是否包含提及信息。上述技术方案中,所述步骤S4)中,时间相关性子话题博文选取模型在博文时间归一化特征上分配的权重大于非时间性相关子话题博文选取模型在博文时间归一化特征上分配的权重。本专利技术的优势在于:本专利技术提供了一套完整的微博摘要生成流程,并针对流程中代表性博文选择这一重要环节作出改进,提出了针对不同的子话题类型使用不同的代表性博文选取模型,可有效提升微博摘要质量。附图说明图1为本专利技术的自适应微博话题摘要的生成方法的流程图。具体实施方式下面结合附图和具体实施例对本专利技术做进一步详细的说明。如图1所示,一种自适应微博话题摘要的生成方法,所述方法包括:步骤1)采用层次聚类的方法识别话题中的子话题;层次聚类输入的是一个博文集合,输出的是一系列子话题以及与每个子话题对应的博文子集。层次聚类的核心是计算博文间的相似度。在计算博文间相似度时,采取基于特征的方式,提取的特征包括:文本相似度、时间相似度、实体词相似度、句式结构相似度等。步骤2)采用子话题对应的博文集合的平均发布时间作为子话题的发生时间,并依此对子话题进行排序;为了识别展现话题的发展脉络,需要识别出子话题发展的时间先后顺序。步骤3)识别子话题类型;子话题类型识别本质上是对子话题进行分类的过程。通过预先定义好一系列子话题类型,本方法中,定义了两种类型:时间相关和非时间相关。时间相关子话题指其对应的博文重复持续报道某一事件,并按照时序关系不断更新,如“日本地震”话题对应的“伤亡情况”子话题,随着时间的变化,伤亡人数也不断变化。非时间相关子话题指其发布的内容不随时间变化,博文时间先后顺序对信息的获取不产生影响。如“日本地震”话题对应的“地震事件新闻”子话题,通常权威媒体发布相关博文后,后续内容不会随时间变化更新。将新的子话题对应到其中的某一类。并依据其对应的博文选取模型选取代表性博文。采用排序模型作为博文选取模型,通过基于特征的排序方法,选取排名靠前的博文作为最终该子话题的选取结果。步骤4)按照子话题的类型,基于相同类型的子话题博文选取模型对博文集合中的博文进行排序,选取排在第一位的博文为代表性博文;所述子话题博文选取模型包括:时间相关性子话题博文选取模型和非时间相关性子话题博文选取模型,建立这两个模型具体包括:步骤S1)构建时间相关性子话题训练数据集和非时间相关性子话题训练数据集,每个训练数据集包括:若干个子话题、每个子话题对应的博文集,通过人工标注得到的博文的排序;步骤S2)对两个训练数据集中的博文提取相同的特征;所述特征包括:博文长度归一化示、博文时间归一化表示、转发数归一化表示、博文是否包含超链接、博文是否包含主题词和博文是否包含提及信息步骤S3)建立时间相关性子话题博文选取模型和非时间相关性子话题博文选取模型;两个模型都为排序模型;输入为每个子话题的若干个博文的特征组成的特征向量,输出为博文的排序;步骤S4)对两种排序模型进行训练;两个模型的差别为在博文时间归一化特征上分配的权重不同。时间相关性子话题博文选取模型在博文时间归一化特征上分配的权重大于非时间性相关子话题博文选取模型在博文时间归一化特征上分配的权重。步骤5)按照步骤2)的子话题的排序,将每个代表性博文进行排序,得到一个博文子集;步骤6)将博文子集合并成一段文本作为最终的摘要。本文档来自技高网...
【技术保护点】
一种自适应微博话题摘要的生成方法,所方法包括:步骤1)采用层次聚类的算法识别话题中的子话题和每个子话题对应的博文集合;步骤2)采用子话题对应的博文集合的平均发布时间作为子话题的发生时间,并按照该时间对子话题进行排序;步骤3)将子话题按照两种类型:时间相关和非时间相关进行划分;步骤4)根据子话题的类型,利用相同类型的子话题博文选取模型对博文集合中的博文进行排序,选取排在第一位的博文为代表性博文;步骤5)按照步骤2)的子话题的排序,将每个代表性博文进行排序,得到一个博文子集;步骤6)将博文子集合并成一段文本作为最终的摘要。
【技术特征摘要】
1.一种自适应微博话题摘要的生成方法,所方法包括:步骤1)采用层次聚类的算法识别话题中的子话题和每个子话题对应的博文集合;步骤2)采用子话题对应的博文集合的平均发布时间作为子话题的发生时间,并按照该时间对子话题进行排序;步骤3)将子话题按照两种类型:时间相关和非时间相关进行划分;步骤4)根据子话题的类型,利用相同类型的子话题博文选取模型对博文集合中的博文进行排序,选取排在第一位的博文为代表性博文;步骤5)按照步骤2)的子话题的排序,将每个代表性博文进行排序,得到一个博文子集;步骤6)将博文子集合并成一段文本作为最终的摘要。2.根据权利要求1所述的自适应微博话题摘要的生成方法,其特征在于,所述步骤4)还包括:建立子话题博文选取模型,所述子话题博文选取模型包括:时间相关性子话题博文选取模型和非时间相关性子话题博文选取模型,所述方法包括:步骤S1)构建时间相关性子话题训练数据集和非时间相关性子话题训练数据集,...
【专利技术属性】
技术研发人员:王莹,罗准辰,罗威,韦博,陈钧,
申请(专利权)人:中国国防科技信息中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。