【技术实现步骤摘要】
基于句子特征分数加权的抽取式文本摘要生成方法及装置
[0001]本专利技术涉及文档摘要提取领域,具体涉及一种基于句子特征分数加权的抽取式文本摘要生成方法及装置。
技术介绍
[0002]当代的网络背景下,人们接收信息的途径越来越多,接收信息的数量也随之变得庞大。对于新闻报告类题材来说,同一事件有可能由多家媒体机构报道发布,而这些报道除了措辞之外,在信息上多数只有事件不同方面细节程度的差别。对于读者来说,面对庞杂的信息,高效获取更为全面信息的诉求愈发突出。抽取式自动多文档文本摘要则是一种从同一主题的多个文档中直接抽取包含主要信息的句子而形成一篇摘要性文档的任务。
[0003]文档文本摘要任务所需的数据集一般是包含单个或多个主题的文档所组成的数据集。将相同主题的多个文档整理成一个主题集,即每个主题集中包含多个同一主题的文档。数据集中的主题个数与主题集的数量一致。多文档文本摘要任务的目标是将每个主题集各生成一篇摘要。目前主要由句子打分式模型(如TextRank,各类神经网络等)计算出的每个句子的分数。句子打分式模型是根据句子包含的信息量、重要程度等维度对每一个句子进行的打分,这些句子的模型分数经过排序后可以作为抽取的标准,分数达到标准的对应句子将被抽出组成目标生成的摘要文档。现有的抽取式自动多文档文本摘要方法中在文本特征表示和算法模型上进行了大量的探索和实践,但较少细节地针对特定文体特点进行特征提取尝试,导致抽取的摘要文本准确度低、模型性能较差。
技术实现思路
[0004]针对上述提到的直接由句子打分 ...
【技术保护点】
【技术特征摘要】
1.一种基于句子特征分数加权的抽取式文本摘要生成方法,其特征在于,包括以下步骤:S1,获取主题集中各个文档标题的词汇频率和所有句子的平均长度,基于所述词汇频率得到标题词表,其中所述主题集中包括多个同一主题的文档;S2,采用句子打分式基础模型计算出所述主题集中句子i的基础模型分数S
i
,基于所述标题词表中词汇的个数以及所述句子i中出现所述标题词表中的词汇的个数计算得到标题词汇特征分数F
h
,响应于所述句子i为首句得到首句特征分数F
f
,基于所述平均长度与所述句子i的长度计算得到句长特征分数F
l
;S3,将所述基础模型分数S
i
、标题词汇特征分数F
h
、首句特征分数F
f
、句长特征分数F
l
相乘得到所述句子i的句子分数Score
i
;S4,重复步骤S2
‑
S3得到所述主题集中所有句子的句子分数,并基于所述句子分数在所述主题集中提取出目标摘要。2.根据权利要求1所述的基于句子特征分数加权的抽取式文本摘要生成方法,其特征在于,所述步骤S1中基于所述词汇频率得到标题词表,具体包括:提取所述词汇频率超过预设频率阈值的词汇组成所述标题词表。3.根据权利要求1所述的基于句子特征分数加权的抽取式文本摘要生成方法,其特征在于,所述步骤S2中句子打分式基础模型为基于神经网络的句子打分模型。4.根据权利要求1所述的基于句子特征分数加权的抽取式文本摘要生成方法,其特征在于,所述步骤S2中基于所述标题词表中词汇的个数以及所述句子i中出现所述标题词表中的词汇的个数计算得到标题词汇特征分数F
h
,具体采用下式计算:其中,w
h
为标题词汇的特征权重,h为所述标题词表中词汇的个数,t为所述句子i中出现所述标题词表中的词汇的个数。5.根据权利要求1所述的基于句子特征分数加权的抽取式文本摘要生成方法,其特征在于,所述步骤S2中响应于所述句子i为首句得到首句特征分数F
f
,具体包括,判断所述句子i是否为首句,若是,则采用下式计算所述首句特征分数F
f
:F
f
=w
f
;其中,w
f
为首句的特征权重,否则...
【专利技术属性】
技术研发人员:李依宁,肖龙源,李威,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。