一种基于TextRank与多维语义特征融合的自动摘要方法及系统技术方案

技术编号:34861278 阅读:23 留言:0更新日期:2022-09-08 08:04
本发明专利技术公开了一种基于TextRank与多维语义特征融合的自动摘要方法及系统,通过对预处理后的新闻进行新闻关键词提取、新闻主题的获取、句子的特征信息以及句子的向量表示,将句子与主题相似度、句子与标题相似度、关键词覆盖率、是否含特征词四种因素作为影响句子权重的影响因素,并将它们和TextRank原分数以一种优化的组合应用到自动摘要中,将TextRank分数和句子特征分数相加取平均数得到句子综合分数,利用MMR算法计算句子间的相似度来去除冗余度较高的句子,最后根据相似度排序按设定个数取前n个句子作为摘要,高了原有公式去除冗余句的效率,能够准确获取新闻的摘要内容,大大提高了新闻内容概况准确性,从而帮助人们减少阅读的时间。少阅读的时间。少阅读的时间。

【技术实现步骤摘要】
一种基于TextRank与多维语义特征融合的自动摘要方法及系统


[0001]专利技术属于自然语言处理
,具体涉及一种基于TextRank与多维语义特征融合的自动摘要方法及系统。

技术介绍

[0002]在如今的互联网时代,大量的新闻出现在人们的日常生活中,这就使得人们需要花费更多精力和足够时间在庞大的信息库中去搜索和甄别我们感兴趣的内容,使得我们对想要了解的信息资源的获取变得尤为不便,而文本摘要技术可以在不更改文章含义和不丢失其重要信息的前提下,将原本复杂且繁多的文本用一种简要的新闻文摘来表示,从而帮助人们减少阅读的时间。
[0003]目前,自动文摘实现方法主要分为抽取式方法和生成式方法。其中抽取式摘是从原文中直接抽取出能够代表该篇文章关键信息和其主体内容的句子,在不改变其语法结构的前提下将其作为摘要。而生成式摘要是根据对输入原始文本的理解来形成摘要,模型试图去理解文本的内容,可以生成原文中没有的单词,更加接近摘要的本质,具有生成高质量摘要的潜力。然而此方法不仅需要高质量的训练数据,且难度较大,生成出的的摘要经常出现语序错误、长度依赖等问题,摘要的质量还远远达不到实际应用的要求,因此研究如何完善抽取式摘要具有更重要的研究意义。
[0004]目前,抽取式摘要主要有基于主题建模、图模型、特征评分和序列标注四种方法。其中,基于图的方法是将句子看成是图的一个顶点,句子与句子间的相似度构成连接顶点的边,通过迭代计算句子权重来对句子排序从而得到摘要,该方法不需要训练数据,就可以直接利用文章自身信息得到摘要,因而成为目前的主流方法。经典的图模型算法TextRank于2004年Mihalcea首次提出,该方法通过迭代计算句子间相似度来对句子打分,以筛选出文本中的关键句子构成摘要。之后的研究都基于此方法改进而来。张璐等人认为句子中关键词的覆盖率越高,则该句子越重要,在DUC2002数据集上的ROUGE分数比TextRank提高了13%

30%。李峰等人将关键词扩展融入,使摘要的效果得到了提升,但忽略了其他主题、语义等其他影响摘要效果的因素。余珊珊人等人通过将标题,段落,特殊句子,句子位置和长度等信息引入到TextRank网络图的构造中,并提出了改进后的句子相似度计算方法,从而提高了TextRank算法的效果。S.Sehgal将文章与标题的相似度加入到句子的权重计算中,提高了文本摘要的准确性。曹洋等人分别比较了不同相似度计算方法的自动文摘效果,选择了其中最优的相似度计算方法,并结合句子位置、线索词与经典TextRank来计算句子的权重。余传明等人提出了基于最大边界相关度的抽取式文本摘要模型,该模型将最大边界相关度(MMR)与深度学习相结合,综合考虑句子与全文相似度、关键词以及位置信息等特征以抽取摘要。刘志明等人提出一种基于主题的情感摘要方法,通过LDA模型得到文章主题,再融合传统多特征来提取目的摘要。
[0005]上述的相关研究,虽然都对促进了抽取式摘要的发展,但在基于TextRank对句子
打分时,都存在因素考虑不全的问题,仅考虑一种因素,或者虽然同时考虑了多种因素,但忽略了文章的主题因素。利用LDA模型抽取出文章主题但是忽略了新闻特征词对句子权重的影响。同时在针对特定领域的时候,上述相关研究生成的摘要可能并不包含该领域正真正关心的内容。

技术实现思路

[0006]本专利技术的目的在于提供一种基于TextRank与多维语义特征融合的自动摘要方法及系统,以克服现有技术的不足。
[0007]一种基于TextRank与多维语义特征融合的自动摘要方法,包括以下步骤:
[0008]S1,对原始新闻除去无用的符号、空格;
[0009]S2,对预处理后的新闻进行新闻关键词提取、新闻主题的获取、句子的特征信息以及句子的向量表示;
[0010]S3,将步骤S2获取的新闻关键词、新闻主题、句子的特征信息以及句子的向量表示转化成各自的特征分数,然后将各自的特征分数按比例相加得到句子特征分数;同时采用TextRank方法对句子的向量表示进行巨资建相似度计算,得到句子的TextRank分数,将TextRank分数和句子特征分数相加取平均数得到句子综合分数;
[0011]S4,利用MMR算法计算句子间的相似度来去除冗余度较高的句子,最后根据相似度排序按设定个数取前n个句子作为摘要。
[0012]优选的,新闻关键词通过TF

IDF方法和新闻所属领域的领域词共同得到;新闻主题的获取由LDA模型通过无监督方法训练得到;句子的特征信息则是判断句中是否含有特征词;句子的向量表示则是通过Word2vec深度学习的方法训练出词向量,进而得到句向量。
[0013]优选的,根据词语权重的加权公式在TF

IDF算法得到候选关键词的基础上进行加权后得到候选关键词:
[0014]weight(i,M)=h
×
count(i,M)
[0015]其中,表示单词i在文本M中的权重;表示单词i在文本M出现的频率,由TF

IDF算法计算得出;h为词性影响因子,根据名词和动词不同的重要性可分别赋予不同的权重。
[0016]优选的,对特定领域建立出一个该领域较为关心的领域词词典,若文中含有定义的领域词,则将该领域词和上述经过TF

IDF算法得出的候选关键词一起提出作为本文的关键词。
[0017]优选的,采用基于LDA(Latent Dirichlet Allocation)主题生成模型来得到文档的主题分布和句子的主题分布,其中,文档的主题分布可直接由LDA生成模型的参数得到,句子的主题分布公式如下:
[0018][0019]其中,P(W
i
|T)表示该主题下词语W
i
的分布概率,由LDA模型参数φ得到;len(S)表示句子S的长度。
[0020]优选的,句子的特征信息包括关键词:据报道、据说、总而言之、表明、因此和显然。
[0021]优选的,利用加和取平的方式的得到句向量,通过句向量来表示句子的整体语义信息:
[0022][0023]其中,表示句子S的句向量;表示构成句子的各个词语的空间向量;n为句子长度;由word2vec计算得出的一个k维的空间向量组成。
[0024]优选的,句子关键词覆盖率得分:
[0025][0026]其中,weight(j,M)表示得到的候选关键词权重;m表示句子S中含有的候选关键词个数;n表示句子S中含有的领域词个数;W表示领域词的权重,为了平衡候选关键词权重;
[0027]句子与主题相似度得分:
[0028]Theme(S)=1

JS(P||Q)
[0029]通过1

JS(P||Q),可以得到若文档主题和句子主题相关性越大,则句子权重越大的句子权重计算公式,且值域范围依然控制在0

1之间;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于TextRank与多维语义特征融合的自动摘要方法,其特征在于,包括以下步骤:S1,对原始新闻除去无用的符号、空格;S2,对预处理后的新闻进行新闻关键词提取、新闻主题的获取、句子的特征信息以及句子的向量表示;S3,将步骤S2获取的新闻关键词、新闻主题、句子的特征信息以及句子的向量表示转化成各自的特征分数,然后将各自的特征分数按比例相加得到句子特征分数;同时采用TextRank方法对句子的向量表示进行巨资建相似度计算,得到句子的TextRank分数,将TextRank分数和句子特征分数相加取平均数得到句子综合分数;S4,利用MMR算法计算句子间的相似度来去除冗余度较高的句子,最后根据相似度排序按设定个数取前n个句子作为摘要。2.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法,其特征在于,新闻关键词通过TF

IDF方法和新闻所属领域的领域词共同得到;新闻主题的获取由LDA模型通过无监督方法训练得到;句子的特征信息则是判断句中是否含有特征词;句子的向量表示则是通过Word2vec深度学习的方法训练出词向量,进而得到句向量。3.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法,其特征在于,根据词语权重的加权公式在TF

IDF算法得到候选关键词的基础上进行加权后得到候选关键词:weight(i,M)=h
×
count(i,M)其中,表示单词i在文本M中的权重;表示单词i在文本M出现的频率,由TF

IDF算法计算得出;h为词性影响因子,根据名词和动词不同的重要性可分别赋予不同的权重。4.根据权利要求3所述的一种基于TextRank与多维语义特征融合的自动摘要方法,其特征在于,对特定领域建立出一个该领域较为关心的领域词词典,若文中含有定义的领域词,则将该领域词和上述经过TF

IDF算法得出的候选关键词一起提出作为本文的关键词。5.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法,其特征在于,采用基于LDA(Latent Dirichlet Allocation)主题生成模型来得到文档的主题分布和句子的主题分布,其中,文档的主题分布可直接由LDA生成模型的参数得到,句子的主题分布公式如下:其中,P(W
i
|T)表示该主题下词语W
i
的分布概率,由LDA模型参数φ得到;len(S)表示句子S的长度。6.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法,其特征在于,句子的特征信息包括关键词:据报道、据说、总而言之、表明、因此和显然。7.根据...

【专利技术属性】
技术研发人员:徐飞贠曼刘军彭佳佳
申请(专利权)人:中国人民解放军六三七六八部队
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1