当前位置: 首页 > 专利查询>苏州大学专利>正文

面向互联网新闻事件的演化式摘要生成方法技术

技术编号:17265390 阅读:116 留言:0更新日期:2018-02-14 12:53
本发明专利技术涉及一种面向互联网新闻事件的演化式摘要生成方法,包括:输入相关新闻文档集合;通过LDA主题模型将文档表示为主题特征向量,所述主题特征向量的维数为第一预定值;将表示为主题特征向量的文档进行聚类,其中,每一类代表一个主题;计算每一个主题中各个文档的本地得分;计算每一个主题中各个文档的全局得分;计算每一个主题中各个文档的最终得分;从每一个主题中抽取得分高的文档标题按时间排序作为摘要;输出摘要。上述面向互联网新闻事件的演化式摘要生成方法保证抽取的摘要具有动态演化性且前后连贯,可读性强,实验结果表明该系统和传统多文档摘要系统相比,在冗余度,连贯性和动态演化性等几个方面有较大提升。

An evolutionary summary generation method for Internet news events

The invention relates to a kind of evolutionary abstract for Internet news event generation method, including: input related news document collection; through the LDA theme model will document representation as the theme of the feature vector, the theme dimension feature vector to a first predetermined value; the said clustering, as the theme of the feature vector of each kind of document which on behalf of a subject; the calculation of each document of each topic in the local score; global scores computed for each document in each subject; the final score is computed for each subject in each document; pumping high scoring documents in chronological order as the title from each subject in the output. Abstract the evolutionary generation method for Internet news events to ensure the extraction with dynamic evolution and coherence, readability, the experimental results show that compared with the traditional system and multi document summarization system, the redundancy has greatly improved coherence and dynamic evolution etc..

【技术实现步骤摘要】
面向互联网新闻事件的演化式摘要生成方法
本专利技术涉及摘要生成方法,特别是涉及面向互联网新闻事件的演化式摘要生成方法。
技术介绍
由于面向互联网新闻事件的演化式摘要是一种新型的多文档自动文摘,因此下面不仅介绍多文档自动文摘的研究现状,还分别介绍与演化式摘要特性相关的研究现状,包括:冗余控制和话题演化。多文档自动文摘研究现状多文档自动文摘(Multi-documentSummarization,MDS)是将有关同一主题下的多个文本描述的主要信息按压缩比提炼出一个文本摘要的自然语言处理技术(Radev等2002)。通常多文档自动文摘包括三个步骤:文本分析、文本内容选取和文摘生成。根据文摘选取方式可分为两种:通过抽取方法形成的文摘称为抽取型(Extraction)文摘,通过理解的方法形成的文摘称为理解型(Abstraction)文摘。抽取型文摘是提取文本中现成句子,不做处理或稍做处理,重新组织顺序后组成摘要。这种方法的局限在于,其性能严重依赖于源文档中句子的质量。另外对于多文档自动文摘,由于句子来源于不同文档,句子的顺序和组织会大大影响摘要的可读性和连贯性。当然好处是其产生的文摘有助于人们浏览和判断(Hirao等2002),并可保证摘要句的语法,是目前理论研究的主要方向,代表性工作包括:Bhandari等(2008),Wong等(2008),Hachey(2009),Celikyilmaz&Hakkani-Tur(2010),Linetal.(2012),Almeida&Martins(2013),Chenetal.(2013)。理解型文摘(Barzilay2005)一般是从文档中抽取反映主题内容的重要语言单位,如词、短语、句子等,再利用信息融合、压缩等语言生成技术生成摘要,摘要句不局限于源文档中的句子。该方法的优点是文摘结果跳出了源文档句子的局限,能够较好地处理冗余,强调主题连贯性。不过理解型方法对语言生成技术要求较高,由于目前缺乏可靠的理论支撑和技术,所以该方法生成的摘要很难付诸实用,仍处于实验阶段。作为多文档自动文摘的一种,演化式摘要为每个文档做上时间标记,然后按时间序列构成一个摘要。面向互联网新闻事件的演化式摘要则是针对互联网上新闻事件的报道文档,按时间顺序抽取出演化式摘要,为用户提供该事件发生的全部过程。带有时间标志的演化式摘要作为一种新型多文档自动摘要技术,有关研究较少。从已发表的论文来看,与时间有关的文摘技术最早由Allanetal.(2001)提出,通过抽取关键的名词短语和命名实体来实现。Chieuetal.(2004)创建了使用句子单元的类似系统。不过这些方法没有考虑到新闻事件所特有的演化特性。最近,Yanetal.(2011)使用基于图的方法,首先根据时间将句子映射到同一个平面,然后创建演化性文摘。在此基础上,他们将带有时间标记的演化式算法映射为一个考虑相关性、覆盖性、连贯性和多样性的优化问题Yanetal.(2011b)。最近,Li&Li(2013)通过创建一个演化层次主题模型(EHDP),用于实现带有时间标记的演化式摘要。下面从文摘抽取方法和文本形式化表示方法两方面介绍多文档自动文摘的国内外研究现状。文摘抽取方法文摘抽取的主要方法有:基于语言分析的方法、基于统计的方法、基于聚类的方法和基于图的方法等。基于语言分析的方法基于语言分析的方法使用自然语言分析方法来识别关键段落、单词之间的关系和篇章关系。在决定关键段落方面,主要依赖于对单词相关性和篇章结构的分析。例如,使用了潜在段落与文章剩余段落之间的词汇联系程度(Barzilay&Elhadad1999;Radev等2000)。通常这个方法需要系统来可靠地计算篇章结构。另一种方法是使用篇章分析技术,对文档的全局结构进行建模,挖掘出文档的内在信息,如文档格式、修辞格式等(Zhu2002;Teufel&Moens2002;Taboada2006)。其中Zhu(2002)利用CST语言模型(Cross-documentStructureTheory)分析相关文档集合所组成的修辞结构,并以此为基础生成特定领域的多文档文摘。Wan等(2010)在英文自动文摘的基础上,运用机器翻译技术来达到中文自动文摘的目的。尽管基于语言分析的方法对于提升摘要性能有很大作用,不过目前语言分析技术还不够成熟,因此在一定程度上制约了该方法的有效性。基于统计的方法基于统计的方法早期主要通过一些特征来计算每个句子的分值,这些特征包括句子在文本中的位置、单词和短语的词频、关键短语等。近期则使用较为复杂的技术来决定抽取的句子,这些技术通常依赖于机器学习方法来识别重要特征。使用机器学习方法进行自动文摘起始于Kupiec等(1995),他们使用贝叶斯分类器处理一组从一个科学论文和其摘要语料库中抽取的特征来进行自动文摘。之后从贝叶斯分类器、朴素贝叶斯模型、HMM(隐马尔可夫模型)等模型,到近几年发展起来的条件随机场CRF等都在自动文摘中使用过。机器学习方法也被应用于学习单个特征,例如Lin&Hovy(1997)使用机器学习方法来解决如何决定句子位置影响句子选择的问题;Witbrock&Mittal(1999)使用统计方法来选择重要的字、词和它们的句法上下文。基于聚类的方法基于聚类的方法主要利用多文档集合的信息,即将多文档集合作为一个整体进行研究,测量所有句子对之间的相似性,在此基础上用各种聚类方法(K-Means、K-Medoids、AP等)识别公共信息的主题,并从每个类别中抽取中心句子作为文档摘要,如McKeown等(1999),Radev等(2000)、Wan&Yang(2006)、Qazvinian&Radev(2008)等工作。也有部分学者提出子事件概念(Boros等2001;Daniel等2003;FungandNgai,2003),将多文档集合中聚类后形成的有逻辑意义的子集合看作子事件,然后抽取子事件,生成文摘的主要内容。基于图的方法基于图的方法首先对文档中的句子和句子之间的相似度进行构图,然后使用一些有关图的评级算法,如HITS(Kleinberg,1998)、PageRank(Brin&Page,1998)等,对句子进行评级。这些算法的本质是找出代表图的矩阵的主要特征向量,相当于划分图的主题。例如,Erkan&Radev(2004)中提出了一种类似PageRank的LexPageRank算法来评价图中的结点(即句子),通过使用LexPageRank为图中的结点打分,找出重要的句子组成摘要。Mihalcea(2005)提出了类似的文摘方法。文本形式化表示方法文本形式化表示是自然语言处理任务中的基础工作。常用的表示方法之一为词袋法(BagofWords),主要以词汇、词的n元(n-gram)或词汇的权值(如tf-idf)来表示文本。尽管在多文档自动文摘研究中这种方法使用相当普遍,不过该方法存在着明显的弱点:该方法只考虑词汇层面的表示,对句子级和篇章级结构缺乏考虑。由于自动文摘的实质是篇章级处理,因此该文本表示法具有内在的局限性。另一种是向量空间表示法(VectorSpac本文档来自技高网...
面向互联网新闻事件的演化式摘要生成方法

【技术保护点】
一种面向互联网新闻事件的演化式摘要生成方法,其特征在于,包括:输入相关新闻文档集合;通过LDA主题模型将文档表示为主题特征向量,所述主题特征向量的维数为第一预定值;将表示为主题特征向量的文档进行聚类,其中,每一类代表一个主题;计算每一个主题中各个文档的本地得分;计算每一个主题中各个文档的全局得分;计算每一个主题中各个文档的最终得分;从每一个主题中抽取得分高的文档标题按时间排序作为摘要;输出摘要。

【技术特征摘要】
1.一种面向互联网新闻事件的演化式摘要生成方法,其特征在于,包括:输入相关新闻文档集合;通过LDA主题模型将文档表示为主题特征向量,所述主题特征向量的维数为第一预定值;将表示为主题特征向量的文档进行聚类,其中,每一类代表一个主题;计算每一个主题中各个文档的本地得分;计算每一个主题中各个文档的全局得分;计算每一个主题中各个文档的最终得分;从每一个主题中抽取得分高的文档标题按时间排序作为摘要;输出摘要。2.根据权利要求1所述的面向互联网新闻事件的演化式摘要生成方法,其特征在于,所述将表示为主题特征向量的文档进行聚类采用K-means聚类算法,其中聚类数为第二预设值。3.根据权利要求2所述的面向互联网新闻事件的演化式摘要生成方法,所述第二预设值为7。4.根据权利要求1所述的面向互联网新闻事件的演化式摘要生成方法,所述将表示为主题特征向量的文档进行聚类采用AffinityPropagation聚类算法。5.根据权利要求1所述的面向互联网新闻事件的演化式摘要生成...

【专利技术属性】
技术研发人员:吴仁守王红玲
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1