本发明专利技术公开一种基于稀疏学习理论的突发事件摘要抽取方法,包括:获取突发事件话题,对每个突发事件话题进行查询扩展,得到事件话题的扩展话题词项集合;根据每个事件查询扩展后的扩展话题词项对每个事件进行检索,获得与每个事件话题相关的文档集合;利用非负矩阵分解的方法依次对每个话题的文档集合进行特征选取和语义聚类,得到每个事件的话题聚类结果;根据最大边缘相关性方法(MMR),从聚类结果中抽取具有代表性的句子作为最终的摘要结果。采用本发明专利技术的技术方案,在突发事件爆发时,面对海量冗余的新闻报道流,为用户提供事件发展的最新状况信息。
【技术实现步骤摘要】
本专利技术属于文本信息处理领域,涉及一种基于稀疏学习的突发事件摘要抽取方法。
技术介绍
生活在信息时代中,用户获取感兴趣的事件话题的海量报道不再是难题。但是,bigdata并不意味着bigknowledge,尤其是当突发事件发生时,相关事件报道数量呈爆发式增长。这样以来,如何从几何增长的海量新闻数据流中,进行高效,及时而又便捷地动态追踪特定话题突发事件的发展状态,最终形成便于读者阅读的事件发展脉络摘要,从而帮助人们从众多的新闻报道中快速获取到自己所感兴趣的突发事件的最新发展状态,成为一项十分迫切的任务。传统多文档摘要抽取方法大部分都进行基本层面的冗余信息过滤,从每个时间窗内抽取固定数目的句子,形成固定长度的摘要。然而这种摘要分方法没有从数据集的本质去解决问题——面对海量冗余的新闻数据流,寻找特定话题的相关事件犹如大海捞针,而同一时期的话题数量又是惊人的,因此必须采取有效的特征提取方法,选取能够反映该时期内能够表示事件的最小冗余的话题集合。此外,传统摘要抽取技术往往忽视了新闻文本数据样本之间的语义关系,而只关注单个句子评分,这样的只抽取得分最高的句子作为最终的摘要句子,虽然单句准确率很高,但往往就总体而言,对突发事件的描述往往不够全面或者冗余太大。
技术实现思路
为解决以上问题,本专利技术提供一种基于稀疏学习并融合文本语义特征选择的突发事件话题摘要抽取方法,主要从以下方面提高摘要的性能,一方面是对用户的感兴趣的简短事件话题利用外部知识库进行了扩展,另一方把文本的语义特征融合在特征选择的过程中,最后提出一个统一框架。为实现上述目的,本专利技术采用如下的技术方案:一种基于稀疏学习理论的突发事件摘要抽取方法包括以下步骤:步骤S1、获取TREC2015TemporalSummarizationtrack提供的21个突发事件话题,对每个突发事件话题进行查询扩展,得到事件话题的扩展话题词项集合;步骤S2、首先对TREC-TS-2015F-RelOnly数据集进行解密,解压,解析,转换成TREC格式的数据,然后利用Lemur中调优的语言模型作为检索模型,根据每个事件查询扩展后的扩展话题词项对每个事件进行检索,获得与每个事件话题相关的文档集合;步骤S3、利用非负矩阵分解的方法依次对每个话题的文档集合进行特征选取和语义聚类,得到每个事件的话题聚类结果。步骤S4、根据最大边缘相关性方法(MMR),从聚类结果中抽取具有代表性的句子作为最终的摘要结果。作为优选,步骤S3具体为:采用矩阵分解的方法进行特征降维,将语义约束融合到特征降维的聚类过程中,建立基于非负矩阵分解的互信息保留的事件摘要框架,进而得到每个事件话题对应的聚类结果。本专利技术的基于稀疏学习的突发事件摘要抽取方法,首先,通过结合多搜索引擎的搜索结果,对简短的事件话题描述进行有效的扩展;然后基于稀疏学习的理论(NMF),提出了一种能够高效解决大规模数据稀疏的特征选取方法;其次,通过综合文本的全局与局部语义约束,从而发掘语义空间中的语义分布特性;最后,将文本全局语义和局部语义约束作为NMF的最优化正则项,建立融合特征选取过程和文本语义的抽取式摘要的统一框架。本专利技术提出的基于稀疏学习理论的突发事件摘要抽取方法,在突发事件爆发时,面对海量冗余的新闻报道流,为用户提供事件发展的最新状况信息,并且给用户提出了可回顾性的事件发展脉络,从而使各种用户能够便捷高效地获取自己感兴趣的新闻报道,提高生活和工作的效率。附图说明图1是本专利技术系统的摘要系统整体流程示意图;图2是本专利技术的事件话题扩展流程示意图;图3是本专利技术摘要统一框架建模的示意图;图4是本专利技术的互信保留语义计算的示意图;图5是本专利技术方法和目前经典的方法的实验结果对比图,其中,图5a为时间延迟的期望增益(类似准确率)对比图;图5b为延迟全面率(类似召回率)的对比图;图5c为Fmeasure(类似F值)的对比图。具体实施方式以下将结合附图所示的具体实施方式对本专利技术进行详细描述。如图1所示,本专利技术实施例提供一种基于稀疏学习理论的突发事件摘要抽取方法包括:步骤S1、获取TREC2015TemporalSummarizationtrack提供的21个突发事件话题,对每个突发事件话题进行查询扩展,得到事件话题的扩展话题词项集合;步骤S2、首先对TREC-TS-2015F-RelOnly数据集进行解密,解压,解析,转换成TREC格式的数据,然后利用Lemur中调优的语言模型作为检索模型,根据每个事件查询扩展后的扩展话题词项对每个事件进行检索,获得与每个事件话题相关的文档集合;步骤S3、利用非负矩阵分解的方法依次对每个话题的文档集合进行特征选取和语义聚类,得到每个事件的话题聚类结果。步骤S4、根据最大边缘相关性方法(MMR),从聚类结果中抽取具有代表性的句子作为最终的摘要结果。部分一:事件话题扩展本部分旨在对简短的事件话题利用搜索引擎进行查询扩展,旨在较为准确地描述用户感兴趣的突发事件事件话题,步骤如下:步骤(1)解压,解析,预处理数据。步骤(1.1)获取用户感兴趣的事件话题。步骤(1.2)文本预处理,去除标点符号,将大写字母转换为小写。步骤(2)爬取网页。步骤(2.1)将预处理后事件话题分别利用多种搜索引擎的API,返回与该事件话题的相关页面。步骤(2.2)对应每个搜索引擎的返回结果,只保留最相关的前N个页面的标题,这里N取50。步骤(3)预处理网页标题步骤(3.1)对所得页面标题,采用分词工具进行分词。步骤(3.2)滤除停用词。步骤(4)形成扩展的事件话题步骤(4.1)对于同一个话题,对页面中标题出现的过滤后的每个词汇计算共现频数(DF),然后按照该词项的共现页面数(DF)由大到小进行排序,并取前p个作为扩展词项,这里p=10。步骤(4.2)把原始词项和扩展词项形成最终的每个事件话题的查询词项的集合。部分二:文档检索本部分根据查询扩展词项集合,利用检索工具对其进行检索,获得与该数据相关的文本集合,达到数据集初步过滤的效果。步骤(5)对语料集进行解压,然后运用pythonstreamcorpus工具将其解析为检索工具可检索的格式。步骤(6)下面是具体的检索过程。每一个事件话题需要按照如下步骤处理。步骤(6.1)构建索引,运用检索工具对语料集构建索引。步骤(6.2)选用合适的检索模型,这里选用概率模型。步骤(6.3)运用检索模型根据扩展后的事件话题对数据集进行检索,获得与该事件话题相关的前q条句子,这里q(介于2000-6000)是选取条数,它根据该话题数据集的规模大小设置。步骤(6.4)把检索结果保存在对应的文件中。部分三:特征选取步骤(7)采用矩阵分解的方法进行特征降维。步骤(7.1)矩阵分解是一个最优化问题,目标函数的形式如下:其中,L表示词项文档矩阵,U表示词项话题矩阵,H表示权重系数矩阵,它表示文档对话题的隶属度。f表示用分解后的矩阵重建初始矩阵的误差,是需要优化的目标值,表示矩阵X的F范数的平方。步骤(7.2)降维过程中添加了两个降低模型复杂度的正则约束项。部分四:语义约束本部分针对传统方法在特征选择的过程中往往忽视或者不能有效保留原始高维空间的文本的语义特性的问题,本专利技术考虑如下解决方法。步骤(8)采用了考虑数据点之间的全局语义邻近关本文档来自技高网...
【技术保护点】
一种基于稀疏学习理论的突发事件摘要抽取方法,其特征在于,包括以下步骤:步骤S1、获取TREC 2015Temporal Summarization track提供的21个突发事件话题,对每个突发事件话题进行查询扩展,得到事件话题的扩展话题词项集合;步骤S2、首先对TREC‑TS‑2015F‑RelOnly数据集进行解密,解压,解析,转换成TREC格式的数据,然后利用Lemur中调优的语言模型作为检索模型,根据每个事件查询扩展后的扩展话题词项对每个事件进行检索,获得与每个事件话题相关的文档集合;步骤S3、利用非负矩阵分解的方法依次对每个话题的文档集合进行特征选取和语义聚类,得到每个事件的话题聚类结果;步骤S4、根据最大边缘相关性方法(MMR),从聚类结果中抽取具有代表性的句子作为最终的摘要结果。
【技术特征摘要】
1.一种基于稀疏学习理论的突发事件摘要抽取方法,其特征在于,包括以下步骤:步骤S1、获取TREC2015TemporalSummarizationtrack提供的21个突发事件话题,对每个突发事件话题进行查询扩展,得到事件话题的扩展话题词项集合;步骤S2、首先对TREC-TS-2015F-RelOnly数据集进行解密,解压,解析,转换成TREC格式的数据,然后利用Lemur中调优的语言模型作为检索模型,根据每个事件查询扩展后的扩展话题词项对每个事件进行检索,获得与每个...
【专利技术属性】
技术研发人员:杨震,姚应哲,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。