一种多文档摘要句的生成方法技术

技术编号:11735737 阅读:115 留言:0更新日期:2015-07-15 10:50
本发明专利技术公开了一种多文档摘要句的生成方法,包括下述步骤:S1、以句子特征向量空间为输入,根据句子特征向量相似度对句子作聚类分析,计算得到的每一个簇记为一个子主题;S2、根据子主题的文档集合覆盖程度以及所包含的句子数目来确定该子主题的重要程度,并根据重要程度对子主题进行排序;S3、对每个子主题下的句子进行评分,并进行排序;S4、从每个子主题中抽取出重要度评分最高的句子作为摘要句,对这些句子中作为主语的指示代词进行替换,并把摘要句按句子所属子主题的重要度评分进行排序,最终生成并输出摘要。

【技术实现步骤摘要】

本专利技术涉及自动化摘要的研宄领域,特别涉及一种一种多文档摘要句的生成方 法。
技术介绍
随着互联网的普及以及各种网络应用的飞速发展,便捷的获取方式以及齐全的种 类使其成为人们获取各种信息的主要渠道。多文档摘要通过对同一主题下的多个原始文本 进行处理,从大量信息中提取出主要信息,经过重新组合、润色后,生成一段能全面准确反 映原始文本主要内容且简短、连贯、不含冗余信息的文字,呈现给用户阅读。摘要句抽取即 从描述相关话题的类中抽取能够表达文档主题信息、内容充实的句子作为摘要句。根据主 题的重要程度从中选取句子,使摘要句尽量概括主题的重要内容。常见的摘要句生成方法 有以下几种:基于统计的方法、基于图的方法、基于篇章结构的方法和基于机器学习的方 法。 基于统计的方法是自动文摘最早处理单文档文摘时就使用的方法,一直沿用至现 在多文档文摘的研宄中。该方法的核心是利用从词频或分布等特征中导出的统计信息去计 算词或句子的重要性,进而对句子进行排序,抽取排在前面的几个句子形成所谓的自动文 摘。这种方法需要多个特征配合使用才能取得较好的文摘结果,在特征选择和调参上存在 大量的工作;另一方面,该方法无法体现更深层的语义分析,从而也无法表达精确的信息。 基于图的方法把顺序的多文档集转换为一个无向图,一般结点表示文本片段,结 点间的边为片断之间的关系(如相似度,语义关系等)。通过对图的拓扑结构分析,获得文 本片段在整个文档集中的重要度。这种方法的缺点在于计算复杂度较高,容易陷入局部最 优。 基于篇章结构的方法不以单个句子的评分为目标,而是以最终机器文摘所需达到 的各种指标为算法的直接目标。文摘既是全文的压縮,也是全文的替代,文摘句之间并非独 立存在,而更应是组合成文的关系,所以全局优化的思路更贴合文摘的特性。但这种方法 以机器文摘的量化指标为目的,而忽略了人在阅读时呈现的更自然的特性,如可读性、连贯 性、一致性、内容含量等。 基于机器学习的方法从标准文摘中获取监督信息,通过提取一系列的句子特征, 训练句子分类或排序模型,实现文摘句的提取。机器学习的方法受训练集影响较大,而自动 文摘领域现有数据集的规模有限,这使得基于机器学习的方法的性能受限。同时,监督信息 的获取也是一大问题。受人力所限,现有数据集中提供的标准文摘数量不多,所以能获取的 监督信息数量较少;同时大部分标准文摘为理解式文摘,难以在多文档集中找到一一匹配 的原句,所以如何解决模糊匹配问题、准确有效地提取监督信息也是基于机器学习的方法 中的技术难点。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种多文档摘要句的生 成方法。 为了达到上述目的,本专利技术采用以下技术方案: -种多文档摘要句的生成方法,包括下述步骤: S1、以句子特征向量空间为输入,根据句子特征向量相似度对句子作聚类分析,计 算得到的每一个簇记为一个子主题; S2、根据子主题的文档集合覆盖程度以及所包含的句子数目来确定该子主题的重 要程度,并根据重要程度对子主题进行排序; S3、对每个子主题下的句子进行评分,并进行排序; S4、从每个子主题中抽取出重要度评分最高的句子作为摘要句,对这些句子中作 为主语的指示代词进行替换,并把摘要句按句子所属子主题的重要度评分进行排序,最终 生成并输出摘要。 优选的,步骤S2中,子主题的重要度由其覆盖的文档数和包含的句子数目共同 评定,如果一个子主题所涉及的文档数越多,包含的句子数目越多,该子主题则越重要。具 体为:假设子主题%共覆盖了 DCi个文档,包含了 SCi个句子,则该子主题的重要度得分为:【主权项】1. ,其特征在于,包括下述步骤: 51、 以句子特征向量空间为输入,根据句子特征向量相似度对句子作聚类分析,计算得 到的每一个簇记为一个子主题; 52、 根据子主题的文档集合覆盖程度以及所包含的句子数目来确定该子主题的重要程 度,并根据重要程度对子主题进行排序; 53、 对每个子主题下的句子进行评分,并进行排序; 54、 从每个子主题中抽取出重要度评分最高的句子作为摘要句,对这些句子中作为主 语的指示代词进行替换,并把摘要句按句子所属子主题的重要度评分进行排序,最终生成 并输出摘要。2. 根据权利要求1所述的,其特征在于,步骤S2中,子主 题%的重要度由其覆盖的文档数和包含的句子数目共同评定,如果一个子主题所涉及的文 档数越多,包含的句子数目越多,该子主题则越重要。具体为:假设子主题%共覆盖了DQ 个文档,包含了sq个句子,则该子主题的重要度得分为:其中,XD+AS= 1,用于调节文档覆盖度和句子包含数目在评分函数中的作用,N是所 有的文档数目,M是所有的句子数目。3. 根据权利要求1所述的,其特征在于,步骤S3中,句子 的重要程度由以下两个因素决定,1)应包含尽量多的语义概念;2)作为摘要句应尽量短; 具体为:假设句子\包含了CQ个语义概念,长度为1^,则该句子的重要度得分为:4. 根据权利要求1所述的,其特征在于,步骤S4中,为了 提高可读性,如果候选摘要句中没有主语,或只有指示代词作为主语,则为其寻找主语,具 体为:当确定某一句子为子主题中重要程度最后的句子,即判定为候选摘要句,识别该摘要 句是否有主语,或主语是否为指示代词,如是,则在句子所属文档中向前进行搜索,寻找最 近的主语非指示代词的句子,将该主语作为候选摘要句的主语,或替换候选摘要句中的指 示代词。5. 根据权利要求1所述的,其特征在于,步骤S4中,在得 到摘要句的最终评分并输出最终摘要的方法为: 对每个子主题下的句子进行评分后,从每个子主题中抽取出重要度评分最高的句子作 为摘要句,并把摘要句按句子所属子主题的重要度评分进行排序,最终生成并输出摘要。【专利摘要】本专利技术公开了,包括下述步骤:S1、以句子特征向量空间为输入,根据句子特征向量相似度对句子作聚类分析,计算得到的每一个簇记为一个子主题;S2、根据子主题的文档集合覆盖程度以及所包含的句子数目来确定该子主题的重要程度,并根据重要程度对子主题进行排序;S3、对每个子主题下的句子进行评分,并进行排序;S4、从每个子主题中抽取出重要度评分最高的句子作为摘要句,对这些句子中作为主语的指示代词进行替换,并把摘要句按句子所属子主题的重要度评分进行排序,最终生成并输出摘要。【IPC分类】G06F17-30, G06F17-27【公开号】CN104778157【申请号】CN201510092922【专利技术人】陈健, 赖旦冉 【申请人】华南理工大学, 广州三星通信技术研究有限公司, 三星电子株式会社【公开日】2015年7月15日【申请日】2015年3月2日本文档来自技高网
...

【技术保护点】
一种多文档摘要句的生成方法,其特征在于,包括下述步骤:S1、以句子特征向量空间为输入,根据句子特征向量相似度对句子作聚类分析,计算得到的每一个簇记为一个子主题;S2、根据子主题的文档集合覆盖程度以及所包含的句子数目来确定该子主题的重要程度,并根据重要程度对子主题进行排序;S3、对每个子主题下的句子进行评分,并进行排序;S4、从每个子主题中抽取出重要度评分最高的句子作为摘要句,对这些句子中作为主语的指示代词进行替换,并把摘要句按句子所属子主题的重要度评分进行排序,最终生成并输出摘要。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈健赖旦冉
申请(专利权)人:华南理工大学广州三星通信技术研究有限公司三星电子株式会社
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1