【技术实现步骤摘要】
本专利技术涉及语言文字处理
,尤其涉及一种多文档摘要的生成方法及装置。
技术介绍
多文档摘要可以为含有多篇文档的文档集提供一种压縮的文本描述,从而解决该 文档集中信息超载的问题,进而方便用户快速了解该文档集的内容。目前,也有一些多文档 摘要的生成方法,但是由于多文档摘要中每个句子可能来自于不同的文档,而每个文档的 写作风格不同,发表的时间不同,并且所依赖的背景知识可能也不同,因此,将这些句子进 行排序构成摘要时,往往在某些词上会出现指代称谓不明,并且上下文不连贯的情况。这样 的多文档摘要很可能不能帮助读者快速了解该文档集的主要内容,并且还可能引起歧义, 从而造成读者阅读上的困难。 经过排序生成多文档的摘要时,合理的排序方法可以显著提高多文档摘要的可读 性。现有技术中,在进行排序生成多文档摘要时,可以推算出某个话题下包含的潜在有用信 息,根据该有用信息确定句子之间的顺序,但是该方法局限于某些特定的领域的话题,应用 范围收到了明显的限制。或者,当从每个文档中选择出几个摘要句子后,将该选择出来的句 子随机进行排序,没有考虑这些句子在时间上的连续性及话题内容上的连续性,因此,生成 的多文档摘要在时间上的连续性或话题上连续性较差。 因此,按照现有技术中多文档摘要的生成方法,生成的多文档摘要的可读性不高, 从而影响了读者的阅读。
技术实现思路
有鉴于此,本专利技术实施例提供一种多文档摘要的生成方法及装置,用以解决现有技术中生成的多文档摘要的可读性不高的问题。 本专利技术实施例提供的一种多文档摘要的生成方法,包括 从多篇文档中选择若干个摘要句; 按照设置的至少一种 ...
【技术保护点】
一种多文档摘要的生成方法,其特征在于,包括:从多篇文档中选择若干个摘要句;按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。
【技术特征摘要】
一种多文档摘要的生成方法,其特征在于,包括从多篇文档中选择若干个摘要句;按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。2. 如权利要求1所述的方法,其特征在于,当排序规则根据摘要句位于文档的位置信 息设置时,将所述若干个摘要句进行排序包括当两个摘要句属于同一篇文档时,按照两个摘要句位于所述文档中的位置信息进行排序;当第一摘要句属于第一文档,第二摘要句属于第二文档时,计算第二文档中的每个分 句与所述第一摘要句的相似度,根据计算的相似度最大值与设置的相似度阈值,将所述第 一摘要句与第二摘要句进行排序。3. 如权利要求2所述的方法,其特征在于,所述根据计算的相似度最大值与设置的相 似度阈值,将所述第一摘要句与第二摘要句进行排序包括当所述相似度最大值大于设置的相似度阈值时,确定所述相似度最大值对应的所述第 二文档中的第一分句,根据所述第二文档中的第一分句与所述第二摘要句在所述第二文档中的位置信息,将所述第一摘要句与第二摘要句进行排序;当所述相似度最大值不大于设置的相似度阈值时,确定第一文档中第一摘要句之后的 任意第二分句,与第二文档中第二摘要句之前的任意第三分句的先后顺序,根据所述第二 分句与第三分句的先后顺序,将所述第一摘要句与第二摘要句进行排序。4. 如权利要求3所述的方法,其特征在于,所述根据所述第二分句与所述第三分句的 先后顺序,将所述第一摘要句与第二摘要句进行排序包括当所述第二分句排列在所述第三分句之前时,则所述第一摘要句排列在所述第二摘要 句之前。5. 如权利要求1所述的方法,其特征在于,当排序规则根据摘要句与摘要主题内容上 的相关性设置时,将所述若干个摘要句进行排序包括计算摘要句与摘要主题中心句的相似度,根据所述相似度将每个摘要句进行排序,其 中,所述摘要主题中心句由所述多篇文档中出现频率较高的至少一个词组成。6. —种多文档摘要的生成方法,其特征在于,包括 将每篇文档划分为多个分句;按照设置的至少一个特征,从多个分句中确定若干个摘要句;按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中, 每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主 题内容上的相关性设置。7. 如权利要求6所述的方法,其特征在于,所述按照设置的至少一个特征,从多个分句 中确定若干个摘要句之前所述方法还包括按照设置的过滤规则将所述多个分句进行过滤,确定摘要候选句。8. 如权利要求6所述的方法,其特征在于,所述设置的至少一个特征包括 按照每个分句与摘要主题中心句的相似程度设置的特征,其中,所述摘要主题中心句由所述每篇文档中出现频率较高的至少一个词组成;按照每个分句与该分句所在的文档对应的文档中心句的相似程度设置的特征,其中, 文档中心句由所述文档中出现频率较高的至少一个词组成;禾口根据每个分句位于其所在文档中的位置信息设置的特征中的一个或任意几个的组合。9. 如权利要求6所述的方法,其特征在于,当排序规则根据摘要句位于文档的位置信 息设置时,将所述若干个摘要句进行排序包括当两个摘要句属于同一篇文档时,按照两个摘要句位于所述文档中的位置信息进行排序;当第一摘要句属于第一文档,第二摘要句属于第二文档时,计算第二文档中的每个分 句与所述第一摘要句的相似度,根据计算的相似度最大值与设置的相似度阈值,将所述第 一摘要句与第二摘要句进行排序。10. 如权利要求9所述的方法,其特征在于,所述根据计算的相似度最大值与设置的相 似度阈值,将所述第一摘要句与第二摘要句进行排序包括当所述相似度最大值大于设置的相似度阈值时,确定所述相似度最大值对应的所述第 二文档中的第一分句,根据所述第二文档中的第一分句与所述第二摘要句在所述第二文档 中的位置信息,将所述第一摘要句与第二摘要句进行排序;当所述相似度最大值不大于设置的相似度阈值时,确...
【专利技术属性】
技术研发人员:贾候萍,万小军,黄小江,杨建武,肖建国,
申请(专利权)人:北京大学,北大方正集团有限公司,北京方正电子政务信息科技有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。