基于句子特征分数加权的抽取式文本摘要生成方法及装置制造方法及图纸

技术编号:32969587 阅读:12 留言:0更新日期:2022-04-09 11:32
本发明专利技术公开了一种基于句子特征分数加权的抽取式文本摘要生成方法及装置,通过在句子打分式基础模型得到的基础模型分数增加标题词汇特征、首句特征和句长特征,采用句子打分式基础模型计算出主题集中句子i的基础模型分数S

【技术实现步骤摘要】
基于句子特征分数加权的抽取式文本摘要生成方法及装置


[0001]本专利技术涉及文档摘要提取领域,具体涉及一种基于句子特征分数加权的抽取式文本摘要生成方法及装置。

技术介绍

[0002]当代的网络背景下,人们接收信息的途径越来越多,接收信息的数量也随之变得庞大。对于新闻报告类题材来说,同一事件有可能由多家媒体机构报道发布,而这些报道除了措辞之外,在信息上多数只有事件不同方面细节程度的差别。对于读者来说,面对庞杂的信息,高效获取更为全面信息的诉求愈发突出。抽取式自动多文档文本摘要则是一种从同一主题的多个文档中直接抽取包含主要信息的句子而形成一篇摘要性文档的任务。
[0003]文档文本摘要任务所需的数据集一般是包含单个或多个主题的文档所组成的数据集。将相同主题的多个文档整理成一个主题集,即每个主题集中包含多个同一主题的文档。数据集中的主题个数与主题集的数量一致。多文档文本摘要任务的目标是将每个主题集各生成一篇摘要。目前主要由句子打分式模型(如TextRank,各类神经网络等)计算出的每个句子的分数。句子打分式模型是根据句子包含的信息量、重要程度等维度对每一个句子进行的打分,这些句子的模型分数经过排序后可以作为抽取的标准,分数达到标准的对应句子将被抽出组成目标生成的摘要文档。现有的抽取式自动多文档文本摘要方法中在文本特征表示和算法模型上进行了大量的探索和实践,但较少细节地针对特定文体特点进行特征提取尝试,导致抽取的摘要文本准确度低、模型性能较差。

技术实现思路

[0004]针对上述提到的直接由句子打分式模型抽取摘要准确度低、模型性能较差等问题。本申请的实施例的目的在于提出了一种基于句子特征分数加权的抽取式文本摘要生成方法及装置,来解决以上
技术介绍
部分提到的技术问题。
[0005]第一方面,本申请的实施例提供了一种基于句子特征分数加权的抽取式文本摘要生成方法,包括以下步骤:
[0006]S1,获取主题集中各个文档标题的词汇频率和所有句子的平均长度,基于词汇频率得到标题词表,其中主题集中包括多个同一主题的文档;
[0007]S2,采用句子打分式基础模型计算出主题集中句子i的基础模型分数S
i
,基于标题词表中词汇的个数以及句子i中出现标题词表中的词汇的个数计算得到标题词汇特征分数F
h
,响应于句子i为首句得到首句特征分数F
f
,基于平均长度与句子i的长度计算得到句长特征分数F
l

[0008]S3,将基础模型分数S
i
、标题词汇特征分数F
h
、首句特征分数F
f
、句长特征分数F
l
相乘得到句子i的句子分数Score
i

[0009]S4,重复步骤S2

S3得到主题集中所有句子的句子分数,并基于句子分数在主题集中提取出目标摘要。
[0010]在一些实施例中,步骤S1中基于词汇频率得到标题词表,具体包括:提取词汇频率超过预设频率阈值的词汇组成标题词表。
[0011]在一些实施例中,步骤S2中句子打分式基础模型为基于神经网络的句子打分模型。
[0012]在一些实施例中,步骤S2中基于标题词表中词汇的个数以及句子i中出现标题词表中的词汇的个数计算得到标题词汇特征分数F
h
,具体采用下式计算:
[0013][0014]其中,w
h
为标题词汇的特征权重,h为标题词表中词汇的个数,t为句子i中出现标题词表中的词汇的个数。
[0015]在一些实施例中,步骤S2中响应于句子i为首句得到首句特征分数F
f
,具体包括,判断句子i是否为首句,若是,则采用下式计算首句特征分数F
f

[0016]F
f
=w
f

[0017]其中,w
f
为首句的特征权重,否则,w
f
的取值为1,首句特征分数F
f
为1。
[0018]在一些实施例中,步骤S2中基于平均长度与句子i的长度计算得到句长特征分数F
l
,具体采用下式计算:
[0019][0020]其中,w
l
为句长的特征权重,L
avg
为平均长度,L
i
为句子i的长度。
[0021]在一些实施例中,步骤S4中的基于句子分数在主题集中提取出目标摘要,具体包括:将所有句子的句子分数进行排序,将满足预设分数阈值的句子筛选出并抽取出来,组合成目标摘要。
[0022]第二方面,本申请的实施例提供了一种基于句子特征分数加权的抽取式文本摘要生成装置,包括:
[0023]参数计算模块,被配置为获取主题集中各个文档标题的词汇频率和所有句子的平均长度,基于词汇频率得到标题词表,其中主题集中包括多个同一主题的文档;
[0024]分数计算模块,被配置为采用句子打分式基础模型计算出主题集中句子i的基础模型分数S
i
,基于标题词表中词汇的个数以及句子i中出现标题词表中的词汇的个数计算得到标题词汇特征分数F
h
,响应于句子i为首句得到首句特征分数F
f
,基于平均长度与句子i的长度计算得到句长特征分数F
l

[0025]综合模块,被配置为将基础模型分数S
i
、标题词汇特征分数F
h
、首句特征分数F
f
、句长特征分数F
l
相乘得到句子分数Score
i

[0026]提取模块,被配置为重复执行分数计算模块和综合模块得到主题集中所有句子的句子分数,并基于句子分数在主题集中提取出目标摘要。
[0027]第三方面,本申请的实施例提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
[0028]第四方面,本申请的实施例提供了一种计算机可读存储介质,其上存储有计算机
程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
[0029]相比于现有技术,本专利技术具有以下有益效果:
[0030](1)本专利技术针对新闻报告类文体的特性,提出一些针对性的句子层面特征加权加入句子打分式基础模型,以提高基于句子分数抽取摘要的准备性。
[0031](2)本专利技术的基于句子特征分数加权的抽取式文本摘要生成方法在不改变句子打分式基础模型的网络结构的基础上,对句子分数计算方式进行优化,提高模型的性能。
[0032](3)本专利技术的基于句子特征分数加权的抽取式文本摘要生成方法融入了标题词汇特征、首句特征、句长特征作为主题集中摘要提取的标准,使得文本摘要抽取的准确度更高,颗粒度更本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于句子特征分数加权的抽取式文本摘要生成方法,其特征在于,包括以下步骤:S1,获取主题集中各个文档标题的词汇频率和所有句子的平均长度,基于所述词汇频率得到标题词表,其中所述主题集中包括多个同一主题的文档;S2,采用句子打分式基础模型计算出所述主题集中句子i的基础模型分数S
i
,基于所述标题词表中词汇的个数以及所述句子i中出现所述标题词表中的词汇的个数计算得到标题词汇特征分数F
h
,响应于所述句子i为首句得到首句特征分数F
f
,基于所述平均长度与所述句子i的长度计算得到句长特征分数F
l
;S3,将所述基础模型分数S
i
、标题词汇特征分数F
h
、首句特征分数F
f
、句长特征分数F
l
相乘得到所述句子i的句子分数Score
i
;S4,重复步骤S2

S3得到所述主题集中所有句子的句子分数,并基于所述句子分数在所述主题集中提取出目标摘要。2.根据权利要求1所述的基于句子特征分数加权的抽取式文本摘要生成方法,其特征在于,所述步骤S1中基于所述词汇频率得到标题词表,具体包括:提取所述词汇频率超过预设频率阈值的词汇组成所述标题词表。3.根据权利要求1所述的基于句子特征分数加权的抽取式文本摘要生成方法,其特征在于,所述步骤S2中句子打分式基础模型为基于神经网络的句子打分模型。4.根据权利要求1所述的基于句子特征分数加权的抽取式文本摘要生成方法,其特征在于,所述步骤S2中基于所述标题词表中词汇的个数以及所述句子i中出现所述标题词表中的词汇的个数计算得到标题词汇特征分数F
h
,具体采用下式计算:其中,w
h
为标题词汇的特征权重,h为所述标题词表中词汇的个数,t为所述句子i中出现所述标题词表中的词汇的个数。5.根据权利要求1所述的基于句子特征分数加权的抽取式文本摘要生成方法,其特征在于,所述步骤S2中响应于所述句子i为首句得到首句特征分数F
f
,具体包括,判断所述句子i是否为首句,若是,则采用下式计算所述首句特征分数F
f
:F
f
=w
f
;其中,w
f
为首句的特征权重,否则...

【专利技术属性】
技术研发人员:李依宁肖龙源李威
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1