当前位置: 首页 > 专利查询>北京大学专利>正文

一种多文档摘要的生成方法及装置制造方法及图纸

技术编号:4332240 阅读:327 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种多文档摘要的生成方法及装置,用以解决现有技术中生成的多文档摘要的可读性差的问题。该方法从多篇文档中选择若干个摘要句;按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。如本发明专利技术提出的方案,充分考虑了摘要句间的连续性和与主题内容的相关性,从而可以有效的提高生成的多文档摘要的可读性。

【技术实现步骤摘要】

本专利技术涉及语言文字处理
,尤其涉及一种多文档摘要的生成方法及装置
技术介绍
多文档摘要可以为含有多篇文档的文档集提供一种压縮的文本描述,从而解决该 文档集中信息超载的问题,进而方便用户快速了解该文档集的内容。目前,也有一些多文档 摘要的生成方法,但是由于多文档摘要中每个句子可能来自于不同的文档,而每个文档的 写作风格不同,发表的时间不同,并且所依赖的背景知识可能也不同,因此,将这些句子进 行排序构成摘要时,往往在某些词上会出现指代称谓不明,并且上下文不连贯的情况。这样 的多文档摘要很可能不能帮助读者快速了解该文档集的主要内容,并且还可能引起歧义, 从而造成读者阅读上的困难。 经过排序生成多文档的摘要时,合理的排序方法可以显著提高多文档摘要的可读 性。现有技术中,在进行排序生成多文档摘要时,可以推算出某个话题下包含的潜在有用信 息,根据该有用信息确定句子之间的顺序,但是该方法局限于某些特定的领域的话题,应用 范围收到了明显的限制。或者,当从每个文档中选择出几个摘要句子后,将该选择出来的句 子随机进行排序,没有考虑这些句子在时间上的连续性及话题内容上的连续性,因此,生成 的多文档摘要在时间上的连续性或话题上连续性较差。 因此,按照现有技术中多文档摘要的生成方法,生成的多文档摘要的可读性不高, 从而影响了读者的阅读。
技术实现思路
有鉴于此,本专利技术实施例提供一种多文档摘要的生成方法及装置,用以解决现有技术中生成的多文档摘要的可读性不高的问题。 本专利技术实施例提供的一种多文档摘要的生成方法,包括 从多篇文档中选择若干个摘要句; 按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其 中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘 要主题内容上的相关性设置。 本专利技术实施例提供的一种多文档摘要的生成方法,包括 将每篇文档划分为多个分句; 按照设置的至少一个特征,从多个分句中确定若干个摘要句; 按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其 中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘 要主题内容上的相关性设置。 本专利技术实施例提供的一种多文档摘要的生成装置,包括 摘要句选择模块,用于从多篇文档中选择若干个摘要句; 摘要句排序模块,用于按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。 本专利技术实施例提供的一种多文档摘要的生成装置,包括 划分模块,用于将每篇文档划分为多个分句; 摘要句选择模块,用于按照设置的至少一个特征,从多个分句中确定若干个摘要 句; 摘要句排序模块,用于按照设置的至少一种排序规则将所述若干个摘要句进行排 序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位 置信息或摘要句与摘要主题内容上的相关性设置。 本专利技术实施例提供了一种多文档摘要的生成方法及装置,该方法通过从多篇文档 中选择出的若干个摘要句,按照摘要句包含的日期信息、摘要句位于文档的位置信息或摘 要句与摘要主题内容上的相关性,将该若干个摘要句排序生成多文档摘要,因此,本专利技术实 施例充分考虑了摘要句间的连续性和与主题内容的相关性,从而可以有效的提高生成的多 文档摘要的可读性。附图说明 图1为本专利技术实施例提供的一种生成多文档摘要的方法流程图; 图2为本专利技术实施例提供的从摘要候选句中选择摘要句的具体实施过程; 图3为本专利技术实施例提供的根据设置的至少一个特征,确定每个摘要候选句的总分值的流程图; 图4为本专利技术实施例提供的一种多文档摘要的生成装置结构示意图; 图5为本专利技术实施例提供的另一种多文档摘要的生成装置结构示意图。具体实施例方式本专利技术实施例中为了提高生成的多文档摘要的可读性,充分考虑了摘要句间的连 续性或每个摘要句与该多篇文档的主题内容的连续性,如图1所示,提供了一种多文档摘 要的生成方法,具体包括以下步骤 S101 :从多篇文档中选择若干个摘要句; 选择该摘要句的方法可以是任意选择,也可以是按照一定的规则或顺序选择。 S102 :按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘 要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句 与摘要主题内容上的相关性设置。 或者,在本专利技术实施例中,也可以首先,将每篇文档划分为多个分句。可以按照标 点符号将每篇文档划分为多个分句。 然后,按照设置的至少一个特征,从多个分句中确定若干个摘要句。其中,该设置 的至少一个特征包括按照每个分句与摘要主题中心句的相似程度设置的特征,其中,所述摘要主题中心句由所述每篇文档中出现频率较高的至少一个词组成;按照每个分句与该分句所在的文档对应的文档中心句的相似程度设置的特征,其中,文档中心句由所述文档中出现频率较高的至少一个词组成;和,根据每个分句位于其所在文档中的位置信息设置的特征中的一个或任意几个的组合。 最后,按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。 下面结合说明书附图,对本专利技术实施例进行详细说明。 在本专利技术实施例中,首先,需要将选定的多篇文档中的每篇文档,划分为多个分句。在将每篇文档划分为多个分句的过程中,可以根据文档中的标点符号进行划分,将两个结尾标点符号之间的内容作为一个完整的分句,并且在每个分句的结尾处包括对应的结尾标点符号,第一个分句为从文档的起始点到第一个结尾标点符号之间的内容。其中,结尾标点符号包括句号、问号、感叹号或省略号等。 然后,对划分出的每个分句按照过滤规则进行过滤,选择出摘要候选句。其中过滤规则包括过滤掉不完整的分句,该不完整的分句包括由过短的词组或无标点的词串构成的分句;过滤掉非陈述语态的分句,该非陈述语态的分句包括疑问句和祈使句,例如以问号结尾的疑问句的分句;过滤掉其他不满足条件的分句,主要包括省略分句和对话分句。例如分句中包括省略号的分句,或含有冒号和双引号的分句。 当然,也可以不对该每个分句按照过滤规则进行过滤,直接将划分后的分句作为摘要候选句进行后续处理。采用该过滤的方法可以减少后续处理的计算量,从而有效的提高多文档摘要的生成效率。 将文档划分为分句,过滤得到满足条件的分句,即摘要候选句后,从该摘要候选句中选择出摘要句,如图2所示,从摘要句候选句中选择摘要句的具体实施过程包括 S201 :根据设置的至少一个特征,确定每个摘要候选句相对每个特征的重要性分值。 其中,该设置的至少一个特征包括按照每个分句与摘要主题中心句的相似程度设置的特征,其中,摘要主题中心句由多文档中出现频率较高的至少一个词语组成;按照每个分句与该分句所在的文档对应的文档中心句的相似程度设置的特征,其中,文档中心句由该文档中出现频率较高的至少一个词语组成;和,根据每个分句位于其所在文档中的位置信息设置的特征中的一个或任意几个的组合。 S202 :根据每个摘要候选句相对每个特征的重要性分值,确定每个本文档来自技高网...

【技术保护点】
一种多文档摘要的生成方法,其特征在于,包括:从多篇文档中选择若干个摘要句;按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。

【技术特征摘要】
一种多文档摘要的生成方法,其特征在于,包括从多篇文档中选择若干个摘要句;按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。2. 如权利要求1所述的方法,其特征在于,当排序规则根据摘要句位于文档的位置信 息设置时,将所述若干个摘要句进行排序包括当两个摘要句属于同一篇文档时,按照两个摘要句位于所述文档中的位置信息进行排序;当第一摘要句属于第一文档,第二摘要句属于第二文档时,计算第二文档中的每个分 句与所述第一摘要句的相似度,根据计算的相似度最大值与设置的相似度阈值,将所述第 一摘要句与第二摘要句进行排序。3. 如权利要求2所述的方法,其特征在于,所述根据计算的相似度最大值与设置的相 似度阈值,将所述第一摘要句与第二摘要句进行排序包括当所述相似度最大值大于设置的相似度阈值时,确定所述相似度最大值对应的所述第 二文档中的第一分句,根据所述第二文档中的第一分句与所述第二摘要句在所述第二文档中的位置信息,将所述第一摘要句与第二摘要句进行排序;当所述相似度最大值不大于设置的相似度阈值时,确定第一文档中第一摘要句之后的 任意第二分句,与第二文档中第二摘要句之前的任意第三分句的先后顺序,根据所述第二 分句与第三分句的先后顺序,将所述第一摘要句与第二摘要句进行排序。4. 如权利要求3所述的方法,其特征在于,所述根据所述第二分句与所述第三分句的 先后顺序,将所述第一摘要句与第二摘要句进行排序包括当所述第二分句排列在所述第三分句之前时,则所述第一摘要句排列在所述第二摘要 句之前。5. 如权利要求1所述的方法,其特征在于,当排序规则根据摘要句与摘要主题内容上 的相关性设置时,将所述若干个摘要句进行排序包括计算摘要句与摘要主题中心句的相似度,根据所述相似度将每个摘要句进行排序,其 中,所述摘要主题中心句由所述多篇文档中出现频率较高的至少一个词组成。6. —种多文档摘要的生成方法,其特征在于,包括 将每篇文档划分为多个分句;按照设置的至少一个特征,从多个分句中确定若干个摘要句;按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中, 每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主 题内容上的相关性设置。7. 如权利要求6所述的方法,其特征在于,所述按照设置的至少一个特征,从多个分句 中确定若干个摘要句之前所述方法还包括按照设置的过滤规则将所述多个分句进行过滤,确定摘要候选句。8. 如权利要求6所述的方法,其特征在于,所述设置的至少一个特征包括 按照每个分句与摘要主题中心句的相似程度设置的特征,其中,所述摘要主题中心句由所述每篇文档中出现频率较高的至少一个词组成;按照每个分句与该分句所在的文档对应的文档中心句的相似程度设置的特征,其中, 文档中心句由所述文档中出现频率较高的至少一个词组成;禾口根据每个分句位于其所在文档中的位置信息设置的特征中的一个或任意几个的组合。9. 如权利要求6所述的方法,其特征在于,当排序规则根据摘要句位于文档的位置信 息设置时,将所述若干个摘要句进行排序包括当两个摘要句属于同一篇文档时,按照两个摘要句位于所述文档中的位置信息进行排序;当第一摘要句属于第一文档,第二摘要句属于第二文档时,计算第二文档中的每个分 句与所述第一摘要句的相似度,根据计算的相似度最大值与设置的相似度阈值,将所述第 一摘要句与第二摘要句进行排序。10. 如权利要求9所述的方法,其特征在于,所述根据计算的相似度最大值与设置的相 似度阈值,将所述第一摘要句与第二摘要句进行排序包括当所述相似度最大值大于设置的相似度阈值时,确定所述相似度最大值对应的所述第 二文档中的第一分句,根据所述第二文档中的第一分句与所述第二摘要句在所述第二文档 中的位置信息,将所述第一摘要句与第二摘要句进行排序;当所述相似度最大值不大于设置的相似度阈值时,确...

【专利技术属性】
技术研发人员:贾候萍万小军黄小江杨建武肖建国
申请(专利权)人:北京大学北大方正集团有限公司北京方正电子政务信息科技有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1