一种多主题文本摘要自动生成方法及系统技术方案

技术编号:38857400 阅读:14 留言:0更新日期:2023-09-17 10:02
本发明专利技术公开了一种多主题文本摘要自动生成方法及系统。涉及自然语言处理技术领域,其中方法包括:接收文本并进行问句识别,获取文本中所有的问句和问题;计算并基于文本中相邻问句的相似度,获取文本分割点,得到文本主题分布和分段文本;提取分段文本的关键词和关键短语;通过计算得到句子的向量表示;基于改进的TextRank算法构建网络图并计算得到句子权重,基于主题关联度的改进规则调整句子权重,根据句子权重大小排序得到摘要的候选语句;对摘要的候选语句进行冗余处理,汇总为文本摘要。本发明专利技术还公开了一种摘要生成系统,用于实现前述摘要生成方法,解决了文本中包含多个主题导致生成的摘要不通顺、摘要生成不全面的问题。题。题。

【技术实现步骤摘要】
一种多主题文本摘要自动生成方法及系统


[0001]本专利技术涉及自然语言处理
,更具体的说是涉及一种多主题文本摘要自动生成方法及系统。

技术介绍

[0002]目前,文本摘要技术主要分为抽取式摘要技术和生成式摘要技术,抽取式摘要是从原文本中抽取关键句子组成文本摘要,生成式摘要技术是随着深度学习的兴起才出现的,不再从原文中抽取句子,而是由训练好的模型根据语义生成文本摘要。基于统计的方法通常采用基于语言模型的技术,通过计算句子、段落和全文的概率值,选择概率最高的语句组成摘要。这类方法通常基于n

gram模型、TF

IDF等经典技术,并可以结合一些启发式的规则进行修正,然而,这些方法在处理长文本时存在着信息冗余、上下文丢失等问题,而且无法对生成的摘要进行可控的调整。近年来,基于深度学习的文本摘要自动生成方法受到了广泛关注,这类方法主要采用神经网络模型来建模文本的语义信息,并通过解码器生成摘要。其中,基于编码

解码模型的方法,如循环神经网络(Recurrent Neural Network,RNN)、长短时记忆网络(Long Short

Term Memory,LSTM)等,通常采用注意力机制和beam search等技术进行优化。此外,生成对抗网络(Generative Adversarial Networks,GAN)和变分自编码器(Variational Auto Encoder,VAE)等生成模型也被应用于文本摘要自动生成中,通过学习数据分布实现更好的生成效果。这些方法可以生成更加准确、连贯和有语义的摘要,但需要大量的训练数据和计算资源。
[0003]但是,目前主流的文本摘要自动生成方法主要是针对一段文字如一篇新闻报道等包含单一主题的文本,进行摘要自动生成;而多数文本比如问答对话文本,通常包含多个子主题,使用现有的摘要自动生成方法难免会出现子主题遗漏,摘要生成不全面的问题。
[0004]因此,文本包含多个主题导致生成的摘要不通顺、摘要生成不全面是本领域技术人员亟需解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种多主题文本摘要自动生成方法及系统,解决了文本包含多个主题导致生成的摘要不通顺、摘要生成不全面的问题。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]一种多主题文本摘要自动生成方法,其特征在于,包括:
[0008]接收需要生成摘要的文本;
[0009]对接收到的文本进行问句识别,获取文本中所有问句;
[0010]计算文本中相邻问句的相似度,根据相似度获取文本分割点,得到文本主题分布,并按照主题分布对文本进行分段,得到分段文本;
[0011]提取分段文本的关键词,统计分段文本总字数和句子数,计算句子平均长度,以句子平均长度为滑动窗口,将连续出现的关键词组成关键短语,作为主题关联度的调整依据;
[0012]利用Word2Vector模型得到词向量,与词语的TF

IDF值加权计算得到句子的向量表示;
[0013]以句子的向量表示为网页节点,基于改进的TextRank算法对分段文本构建网络图,通过网络图计算得到句子权重,基于主题关联度的改进规则调整句子权重,并根据句子权重大小排序得到摘要候选语句;
[0014]对摘要候选语句进行冗余处理,汇总为文本摘要。
[0015]进一步地,对接收到的文本进行问句识别,具体包括以下步骤:
[0016]通过BERT

Base Chinese模型对文本句子进行处理,得到所有句子的向量编码矩阵,经词嵌入层加上位置编码信息,得到携带字位置信息的向量编码矩阵;
[0017]将向量编码矩阵输入到Transformer编码器中,提取文本句子的上下文关系信息,并将其转化为向量表示;
[0018]将向量表示输入到MSCNN中,通过不同尺度卷积核捕捉不同粒度词语信息,提取不同尺度的特征值向量,拼接后得到文本中句子的特征向量表示;
[0019]将特征向量表示输入到Softmax激活函数进行句子类别判别,判断句子是否为问句,得到文本中的所有问句。
[0020]进一步地,计算文本中相邻问句的相似度,具体方法如下:
[0021]将两个待计算相似度的问句X1和X2通过共享权重的网络G
w
(X)映射至向量空间,完成文本特征提取,利用相似度计算函数计算向量空间距离作为相似度值E
w
,计算公式如下:
[0022]E
w
(X1,X2)=f(G
w
(X1),G
w
(X2))
[0023]其中G
w
(X)为子网络模型,f(
·
)为相似度计算函数。
[0024]进一步地,获取文本分割点,具体方法如下:
[0025]根据计算出的文本中相邻问句的相似度值绘制相似度曲线,使用最近邻插值找到相似度曲线局部极小值作为文本分割点。
[0026]进一步地,提取分段文本的关键词,使用TF

IDF方法,包括以下步骤:
[0027]S401、将分段文本按照词语的边界进行切割,得到若干个词语;
[0028]S402、对于每个词语,统计其在文本中出现的次数,作为该词语的词频TF;
[0029]S403、对于每个词语,统计在所有文本中出现该词语的文本数,计算逆文档频率IDF值,计算公式为:IDF=log(N/n),其中N是总文本数,n是出现该词语的文本数;
[0030]S404、对于每个词语,将其词频TF与逆文档频率IDF相乘,得到该词语的TF

IDF值,计算公式为:TF

IDF=TF*IDF;
[0031]S405、将所有词语按照TF

IDF值从大到小排序,选取TF

IDF值最高的前K个词语作为文本的关键词;
[0032]S406、对于选出的关键词,进行去掉停用词、合并同义词操作,以得到精准关键词。
[0033]进一步地,构建网络图的具体方法如下:
[0034]以句子的向量表示为网页节点,句间相似度作为节点链接分数构建网络图。
[0035]进一步地,基于主题关联度的改进规则,具体包括以下内容:
[0036]根据句子时间序列调整句子权重,每一个分段文本的首部和尾部权重设置为1,中间内容的权重设置为0;
[0037]根据主题关联度调整句子权重,包含关键词和关键短语的句子权重设置为1,不包
关键词和关键短语的句子权重设置为0;
[0038]根据句子长度过滤句子,长度指数L为当前句子长度,L
m
为分段文本中最长的句子长度,将长度指数C
L
<0.2和C
L
>0.8本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多主题文本摘要自动生成方法,其特征在于,包括:接收需要生成摘要的文本;对接收到的文本进行问句识别,获取文本中所有问句;计算文本中相邻问句的相似度,根据相似度获取文本分割点,得到文本主题分布,并按照主题分布对文本进行分段,得到分段文本;提取分段文本的关键词,并根据分段文本总字数和句子数计算句子平均长度,以句子平均长度为滑动窗口,将连续出现的关键词组成关键短语,作为主题关联度的调整依据;利用Word2Vector模型得到词向量,与词语的TF

IDF值加权计算得到句子的向量表示;以句子的向量表示为网页节点,基于改进的TextRank算法对分段文本构建网络图,通过网络图计算得到句子权重,基于主题关联度的改进规则调整句子权重,并根据句子权重大小排序得到摘要候选语句;对摘要候选语句进行冗余处理,汇总为文本摘要。2.根据权利要求1所述的一种多主题文本摘要自动生成方法,其特征在于,对接收到的文本进行问句识别,具体包括以下步骤:通过BERT

BaseChinese模型对文本句子进行处理,得到所有句子的向量编码矩阵,经词嵌入层加上位置编码信息,得到携带字位置信息的向量编码矩阵;将向量编码矩阵输入到Transformer编码器中,提取文本句子的上下文关系信息,并将其转化为向量表示;将向量表示输入到MSCNN中,通过不同尺度卷积核捕捉不同粒度词语信息,提取不同尺度的特征值向量,拼接后得到文本中句子的特征向量表示;将特征向量表示输入到Softmax激活函数进行句子类别判别,判断句子是否为问句,得到文本中的所有问句。3.根据权利要求2所述的一种多主题文本摘要自动生成方法,其特征在于,计算文本中相邻问句的相似度,具体方法如下:将两个待计算相似度的问句X1和X2通过共享权重的网络G
w
(X)映射至向量空间,完成文本特征提取,利用相似度计算函数计算向量空间距离作为相似度值E
w
,计算公式如下:E
w
(X1,X2)=f(G
w
(X1),G
w
(X2))其中G
w
(X)为子网络模型,f(
·
)为相似度计算函数。4.根据权利要求1所述的一种多主题文本摘要自动生成方法,其特征在于,获取文本分割点,具体方法如下:根据计算出的文本中相邻问句的相似度值绘制相似度曲线,使用最近邻插值找到相似度曲线局部极小值作为文本分割点。5.根据权利要求1所述的一种多主题文本摘要自动生成方法,其特征在于,提取分段文本的关键词,使用TF

IDF方法,包括以下步骤:S401、将分段文本按照词语的边界进行切割,得到若干个词语;S402、对于每个词语,统计其在文本中出现的次数,作为该词语的词频TF;S403、对于每个词语,统计在所有文本中出现该词语的文本数,计算逆文档频率IDF值,计算公式为:IDF=log(N/n),其中N是总文本数,n是出现该词语的文本数;S404、对于每个词语,将其词频TF与逆文档频率IDF相乘,得到该词语的TF

IDF值,计算
公...

【专利技术属性】
技术研发人员:张子卓王裕恒柳永利张绍阳李亮
申请(专利权)人:西安图讯信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1