【技术实现步骤摘要】
一种多主题文本摘要自动生成方法及系统
[0001]本专利技术涉及自然语言处理
,更具体的说是涉及一种多主题文本摘要自动生成方法及系统。
技术介绍
[0002]目前,文本摘要技术主要分为抽取式摘要技术和生成式摘要技术,抽取式摘要是从原文本中抽取关键句子组成文本摘要,生成式摘要技术是随着深度学习的兴起才出现的,不再从原文中抽取句子,而是由训练好的模型根据语义生成文本摘要。基于统计的方法通常采用基于语言模型的技术,通过计算句子、段落和全文的概率值,选择概率最高的语句组成摘要。这类方法通常基于n
‑
gram模型、TF
‑
IDF等经典技术,并可以结合一些启发式的规则进行修正,然而,这些方法在处理长文本时存在着信息冗余、上下文丢失等问题,而且无法对生成的摘要进行可控的调整。近年来,基于深度学习的文本摘要自动生成方法受到了广泛关注,这类方法主要采用神经网络模型来建模文本的语义信息,并通过解码器生成摘要。其中,基于编码
‑
解码模型的方法,如循环神经网络(Recurrent Neural Network,RNN)、长短时记忆网络(Long Short
‑
Term Memory,LSTM)等,通常采用注意力机制和beam search等技术进行优化。此外,生成对抗网络(Generative Adversarial Networks,GAN)和变分自编码器(Variational Auto Encoder,VAE)等生成模型也被应用于文本摘要自动生成中,通过学习 ...
【技术保护点】
【技术特征摘要】
1.一种多主题文本摘要自动生成方法,其特征在于,包括:接收需要生成摘要的文本;对接收到的文本进行问句识别,获取文本中所有问句;计算文本中相邻问句的相似度,根据相似度获取文本分割点,得到文本主题分布,并按照主题分布对文本进行分段,得到分段文本;提取分段文本的关键词,并根据分段文本总字数和句子数计算句子平均长度,以句子平均长度为滑动窗口,将连续出现的关键词组成关键短语,作为主题关联度的调整依据;利用Word2Vector模型得到词向量,与词语的TF
‑
IDF值加权计算得到句子的向量表示;以句子的向量表示为网页节点,基于改进的TextRank算法对分段文本构建网络图,通过网络图计算得到句子权重,基于主题关联度的改进规则调整句子权重,并根据句子权重大小排序得到摘要候选语句;对摘要候选语句进行冗余处理,汇总为文本摘要。2.根据权利要求1所述的一种多主题文本摘要自动生成方法,其特征在于,对接收到的文本进行问句识别,具体包括以下步骤:通过BERT
‑
BaseChinese模型对文本句子进行处理,得到所有句子的向量编码矩阵,经词嵌入层加上位置编码信息,得到携带字位置信息的向量编码矩阵;将向量编码矩阵输入到Transformer编码器中,提取文本句子的上下文关系信息,并将其转化为向量表示;将向量表示输入到MSCNN中,通过不同尺度卷积核捕捉不同粒度词语信息,提取不同尺度的特征值向量,拼接后得到文本中句子的特征向量表示;将特征向量表示输入到Softmax激活函数进行句子类别判别,判断句子是否为问句,得到文本中的所有问句。3.根据权利要求2所述的一种多主题文本摘要自动生成方法,其特征在于,计算文本中相邻问句的相似度,具体方法如下:将两个待计算相似度的问句X1和X2通过共享权重的网络G
w
(X)映射至向量空间,完成文本特征提取,利用相似度计算函数计算向量空间距离作为相似度值E
w
,计算公式如下:E
w
(X1,X2)=f(G
w
(X1),G
w
(X2))其中G
w
(X)为子网络模型,f(
·
)为相似度计算函数。4.根据权利要求1所述的一种多主题文本摘要自动生成方法,其特征在于,获取文本分割点,具体方法如下:根据计算出的文本中相邻问句的相似度值绘制相似度曲线,使用最近邻插值找到相似度曲线局部极小值作为文本分割点。5.根据权利要求1所述的一种多主题文本摘要自动生成方法,其特征在于,提取分段文本的关键词,使用TF
‑
IDF方法,包括以下步骤:S401、将分段文本按照词语的边界进行切割,得到若干个词语;S402、对于每个词语,统计其在文本中出现的次数,作为该词语的词频TF;S403、对于每个词语,统计在所有文本中出现该词语的文本数,计算逆文档频率IDF值,计算公式为:IDF=log(N/n),其中N是总文本数,n是出现该词语的文本数;S404、对于每个词语,将其词频TF与逆文档频率IDF相乘,得到该词语的TF
‑
IDF值,计算
公...
【专利技术属性】
技术研发人员:张子卓,王裕恒,柳永利,张绍阳,李亮,
申请(专利权)人:西安图讯信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。