The invention relates to a kind of evolutionary abstract for Internet news event generation method, including: input related news document collection; through the LDA theme model will document representation as the theme of the feature vector, the theme dimension feature vector to a first predetermined value; the said clustering, as the theme of the feature vector of each kind of document which on behalf of a subject; the calculation of each document of each topic in the local score; global scores computed for each document in each subject; the final score is computed for each subject in each document; pumping high scoring documents in chronological order as the title from each subject in the output. Abstract the evolutionary generation method for Internet news events to ensure the extraction with dynamic evolution and coherence, readability, the experimental results show that compared with the traditional system and multi document summarization system, the redundancy has greatly improved coherence and dynamic evolution etc..
【技术实现步骤摘要】
面向互联网新闻事件的演化式摘要生成方法
本专利技术涉及摘要生成方法,特别是涉及面向互联网新闻事件的演化式摘要生成方法。
技术介绍
由于面向互联网新闻事件的演化式摘要是一种新型的多文档自动文摘,因此下面不仅介绍多文档自动文摘的研究现状,还分别介绍与演化式摘要特性相关的研究现状,包括:冗余控制和话题演化。多文档自动文摘研究现状多文档自动文摘(Multi-documentSummarization,MDS)是将有关同一主题下的多个文本描述的主要信息按压缩比提炼出一个文本摘要的自然语言处理技术(Radev等2002)。通常多文档自动文摘包括三个步骤:文本分析、文本内容选取和文摘生成。根据文摘选取方式可分为两种:通过抽取方法形成的文摘称为抽取型(Extraction)文摘,通过理解的方法形成的文摘称为理解型(Abstraction)文摘。抽取型文摘是提取文本中现成句子,不做处理或稍做处理,重新组织顺序后组成摘要。这种方法的局限在于,其性能严重依赖于源文档中句子的质量。另外对于多文档自动文摘,由于句子来源于不同文档,句子的顺序和组织会大大影响摘要的可读性和连贯性。当然好处是其产生的文摘有助于人们浏览和判断(Hirao等2002),并可保证摘要句的语法,是目前理论研究的主要方向,代表性工作包括:Bhandari等(2008),Wong等(2008),Hachey(2009),Celikyilmaz&Hakkani-Tur(2010),Linetal.(2012),Almeida&Martins(2013),Chenetal.(2013)。理解型文摘(Ba ...
【技术保护点】
一种面向互联网新闻事件的演化式摘要生成方法,其特征在于,包括:输入相关新闻文档集合;通过LDA主题模型将文档表示为主题特征向量,所述主题特征向量的维数为第一预定值;将表示为主题特征向量的文档进行聚类,其中,每一类代表一个主题;计算每一个主题中各个文档的本地得分;计算每一个主题中各个文档的全局得分;计算每一个主题中各个文档的最终得分;从每一个主题中抽取得分高的文档标题按时间排序作为摘要;输出摘要。
【技术特征摘要】
1.一种面向互联网新闻事件的演化式摘要生成方法,其特征在于,包括:输入相关新闻文档集合;通过LDA主题模型将文档表示为主题特征向量,所述主题特征向量的维数为第一预定值;将表示为主题特征向量的文档进行聚类,其中,每一类代表一个主题;计算每一个主题中各个文档的本地得分;计算每一个主题中各个文档的全局得分;计算每一个主题中各个文档的最终得分;从每一个主题中抽取得分高的文档标题按时间排序作为摘要;输出摘要。2.根据权利要求1所述的面向互联网新闻事件的演化式摘要生成方法,其特征在于,所述将表示为主题特征向量的文档进行聚类采用K-means聚类算法,其中聚类数为第二预设值。3.根据权利要求2所述的面向互联网新闻事件的演化式摘要生成方法,所述第二预设值为7。4.根据权利要求1所述的面向互联网新闻事件的演化式摘要生成方法,所述将表示为主题特征向量的文档进行聚类采用AffinityPropagation聚类算法。5.根据权利要求1所述的面向互联网新闻事件的演化式摘要生成...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。