【技术实现步骤摘要】
一种基于TextRank与多维语义特征融合的自动摘要方法及系统
[0001]专利技术属于自然语言处理
,具体涉及一种基于TextRank与多维语义特征融合的自动摘要方法及系统。
技术介绍
[0002]在如今的互联网时代,大量的新闻出现在人们的日常生活中,这就使得人们需要花费更多精力和足够时间在庞大的信息库中去搜索和甄别我们感兴趣的内容,使得我们对想要了解的信息资源的获取变得尤为不便,而文本摘要技术可以在不更改文章含义和不丢失其重要信息的前提下,将原本复杂且繁多的文本用一种简要的新闻文摘来表示,从而帮助人们减少阅读的时间。
[0003]目前,自动文摘实现方法主要分为抽取式方法和生成式方法。其中抽取式摘是从原文中直接抽取出能够代表该篇文章关键信息和其主体内容的句子,在不改变其语法结构的前提下将其作为摘要。而生成式摘要是根据对输入原始文本的理解来形成摘要,模型试图去理解文本的内容,可以生成原文中没有的单词,更加接近摘要的本质,具有生成高质量摘要的潜力。然而此方法不仅需要高质量的训练数据,且难度较大,生成出的的摘要经常出现语序错误、长度依赖等问题,摘要的质量还远远达不到实际应用的要求,因此研究如何完善抽取式摘要具有更重要的研究意义。
[0004]目前,抽取式摘要主要有基于主题建模、图模型、特征评分和序列标注四种方法。其中,基于图的方法是将句子看成是图的一个顶点,句子与句子间的相似度构成连接顶点的边,通过迭代计算句子权重来对句子排序从而得到摘要,该方法不需要训练数据,就可以直接利用文章自身信息得到摘要,因 ...
【技术保护点】
【技术特征摘要】
1.一种基于TextRank与多维语义特征融合的自动摘要方法,其特征在于,包括以下步骤:S1,对原始新闻除去无用的符号、空格;S2,对预处理后的新闻进行新闻关键词提取、新闻主题的获取、句子的特征信息以及句子的向量表示;S3,将步骤S2获取的新闻关键词、新闻主题、句子的特征信息以及句子的向量表示转化成各自的特征分数,然后将各自的特征分数按比例相加得到句子特征分数;同时采用TextRank方法对句子的向量表示进行巨资建相似度计算,得到句子的TextRank分数,将TextRank分数和句子特征分数相加取平均数得到句子综合分数;S4,利用MMR算法计算句子间的相似度来去除冗余度较高的句子,最后根据相似度排序按设定个数取前n个句子作为摘要。2.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法,其特征在于,新闻关键词通过TF
‑
IDF方法和新闻所属领域的领域词共同得到;新闻主题的获取由LDA模型通过无监督方法训练得到;句子的特征信息则是判断句中是否含有特征词;句子的向量表示则是通过Word2vec深度学习的方法训练出词向量,进而得到句向量。3.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法,其特征在于,根据词语权重的加权公式在TF
‑
IDF算法得到候选关键词的基础上进行加权后得到候选关键词:weight(i,M)=h
×
count(i,M)其中,表示单词i在文本M中的权重;表示单词i在文本M出现的频率,由TF
‑
IDF算法计算得出;h为词性影响因子,根据名词和动词不同的重要性可分别赋予不同的权重。4.根据权利要求3所述的一种基于TextRank与多维语义特征融合的自动摘要方法,其特征在于,对特定领域建立出一个该领域较为关心的领域词词典,若文中含有定义的领域词,则将该领域词和上述经过TF
‑
IDF算法得出的候选关键词一起提出作为本文的关键词。5.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法,其特征在于,采用基于LDA(Latent Dirichlet Allocation)主题生成模型来得到文档的主题分布和句子的主题分布,其中,文档的主题分布可直接由LDA生成模型的参数得到,句子的主题分布公式如下:其中,P(W
i
|T)表示该主题下词语W
i
的分布概率,由LDA模型参数φ得到;len(S)表示句子S的长度。6.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法,其特征在于,句子的特征信息包括关键词:据报道、据说、总而言之、表明、因此和显然。7.根据...
【专利技术属性】
技术研发人员:徐飞,贠曼,刘军,彭佳佳,
申请(专利权)人:中国人民解放军六三七六八部队,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。