一种生成类别引导的新闻文摘方法及辅助阅读系统技术方案

技术编号:39419278 阅读:19 留言:0更新日期:2023-11-19 16:08
本发明专利技术公开一种生成类别引导的新闻文摘方法及辅助阅读系统,对新闻文本预分类,灵活引入该分类结果,从而使类别引导的摘要既能对原始文本进行准确概括,又能针对该类别生成详细内容,满足关注该类别下摘要信息用户的需要

【技术实现步骤摘要】
一种生成类别引导的新闻文摘方法及辅助阅读系统


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种类别引导的新闻文摘方法及辅助阅读系统


技术介绍

[0002]随着互联网技术蓬勃发展和信息化水平的飞速提高,人们获取信息

传递信息的方式越来越方便

快捷,大量繁杂的信息充斥在互联网中,信息过载的现象日益严重

不同于图像和语音,文本这种表达方式并不直观,阅读过多的内容会缩短对特定主题的注意时间,导致人们难以获取真正需要的信息

基于此背景,对文本内容处理的研究也不断深入

细分,如何从大量数据中准确提供所需要信息的研究也就此展开,这一相关领域被称之为:文本摘要

[0003]从自动文本摘要技术被提出以来,抽取式文本摘要一直是研究重点,该方法主要识别文本中重要的词语或句子,然后从中筛选并拼凑形成摘要,从结果上来说,确实能够解决摘要生成问题,但其只是部分原始文本的机械拼接,上下文转折通常比较生硬,不适合作为正式的参考摘要用来阅读

后来又产生了生成式文本摘要,该方法借鉴了人类的习惯,生成的摘要不再是对原始文本的简单提取,而是在理解文本主要内容的基础上,进行归纳和总结,其更加符合人类构造摘要的方式

[0004]生成式方法虽然比较新颖,但传统的生成式摘要仅对文本内容进行全面的总结概括,没有额外的分类信息作为指导,无法对某个突出的类别生成针对性的详细摘要
r/>
技术实现思路

[0005]本专利技术目的是提供一种类别引导的新闻文摘方法及生成所述类别引导的新闻文摘的辅助阅读系统,以解决现有摘要生成方法针对性不强,无法对某个突出的文本类别生成针对性的详细摘要的问题

[0006]为实现以上目的,本专利技术技术方案为:
[0007]一种生成类别引导的新闻文摘的方法,包括以下步骤:
[0008]101、
构建文本分类模块,将图卷积神经网络和预训练语言模型共同训练;
[0009]102、
构建分类损失计算模块,对文本分类模块进行参数优化,得到优化后的文本分类模块;
[0010]103、
将待处理的文本输入至优化后的文本分类模块,得到文本类别信息,构建注意力模块,针对分类模块得到的文本类别信息进行处理,得到文本当前类别分布下词汇的贡献矩阵;
[0011]104、
构建文本摘要模块,引入注意力模块的结果;
[0012]105、
构建摘要损失计算模块,针对文本摘要模块进行参数优化,得到优化后的文本摘要模块;
[0013]106、
将待处理文本输入至优化后的文本摘要模块,生成类别引导的目标摘要

[0014]进一步的是,步骤
101
中所述文本分类模块的构建方法包括以下步骤:
[0015]步骤一:批量获取原始新闻文本,对文本进行去停用词

分词处理,得到等待生成摘要的文本;
[0016]步骤二:根据等待生成摘要的文本构建分类模块中的图卷积神经网络;
[0017]步骤三:使用预训练语言模型对图卷积网络节点进行编码,将等待生成摘要的文本输入预训练语言模型中,并联合图卷积网络进行训练,形成文分类模块,所述的文分类模块包括图卷积网络及预训练语言模型

[0018]其中,步骤二中所述的图卷积神经网络的构建通过
S1

S5
步骤实现:
[0019]S1
:将等待生成摘要的文本中的全部词汇和每个文档设置为图的节点,设置相同节点的权值为1;
[0020]S2
:使用
TF

IDF
词频

逆文档频率构建词汇节点和文档节点间边关系,词汇节点和文档节点间边权值通过
TF

IDF
计算所得;
[0021]S3
:使用
PPMI
正点互信息构建不同词汇节点间边关系,不同词汇节点间边权值通过
PPMI
计算所得;
[0022]S4
:使用
Jaccard
相似度构建不同文档节点间边关系,
Jaccard
系数的阈值取
0.5
‑1之间任意的小数,如果
Jaccard
系数大于设定的阈值,则不同文档节点间边权值为
Jaccard
系数计算所得,步骤
S4
中,如果
Jaccard
系数小于设定的阈值,则不同文档节点间边权值为0;
[0023]S1

S4
步骤中的文档是指步骤一中等待生成摘要的文本;
[0024]S5
:未经
S1

S4
处理过的边权值都置为0;
[0025]通过
S1

S5
计算得到图卷积网络的邻接矩阵
A
,所述邻接矩阵
A
中的元素即为
S1

S5
计算得到的节点间边权值;
[0026]进一步的是,步骤
102
中所述分类损失计算模块构建方法是:
[0027]步骤一:定义文本分类模块联合训练的损失函数
l

[0028][0029]n
为文档的数量,
i
表示第
i
个文本,
m
为总的文本类别数量,
j
表示第
j
个类别,
y
ij
为第
i
个文本的类别标签,
Z
ij
为第
i
个文本被预测为第
j
类的概率,经公式
(4)
计算得到全部对文本的预测和真实类别标签的交叉熵损失;
[0030]公式
(4)

Z
由公式
(3)
计算得到,公式
(3)
由公式
(2)
得出,具体说明如下:
[0031]第一层图卷积网络输出的特征是
L1:
[0032][0033]L1包含第一层图卷积网络输出的词汇和文档嵌入:
[0034]由第一层图卷积网络输出的文本特征得到第二层图卷积网络输出的文本特征将第二层图卷积网络输出的文本特征输入至
Softmax
分类器中得到对应分布
Z,
其中包含第二层图卷积网络输出的词汇和文档嵌入;
[0035][0036]公式
(2)
及公式
(3)
中:
L0是预训练模型表示的节点嵌入,
ρ
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种生成类别引导的新闻文摘方法,其特征在于,包括以下步骤:
101、
构建文本分类模块,将图卷积神经网络和预训练语言模型共同训练;
102、
构建分类损失计算模块,对文本分类模块进行参数优化,得到优化后的文本分类模块;
103、
将待处理的文本输入至优化后的文本分类模块,得到文本类别信息,构建注意力模块,针对分类模块得到的文本类别信息进行处理,得到文本类别分布下词汇的贡献矩阵;
104、
构建文本摘要模块,引入注意力模块的结果;
105、
构建摘要损失计算模块,针对文本摘要模块进行参数优化,得到优化后的文本摘要模块;
106、
将待处理文本输入至优化后的文本摘要模块,生成类别引导的目标摘要
。2.
根据权利要求1所述的一种生成类别引导的新闻文摘方法,其特征在于,步骤
101
中所述文本分类模块的构建方法包括以下步骤:步骤一:批量获取原始新闻文本,对文本进行去停用词

分词处理,得到等待生成摘要的文本;步骤二:根据等待生成摘要的文本构建分类模块中的图卷积神经网络;步骤三:使用预训练语言模型对图卷积网络节点进行编码,将等待生成摘要的文本输入预训练语言模型中,并联合图卷积网络进行训练,形成文分类模块,所述的文分类模块包括图卷积网络及预训练语言模型;其中步骤二中,所述的图卷积神经网络的构建通过
S1

S5
步骤实现:
S1
:将等待生成摘要的文本全部词汇和每个文档设置为图的节点,设置相同节点的权值为1;
S2
:使用
TF

IDF
词频

逆文档频率构建词汇节点和文档节点间边关系,词汇节点和文档节点间边权值通过
TF

IDF
计算所得;
S3
:使用
PPMI
正点互信息构建不同词汇节点间边关系,不同词汇节点间边权值通过
PPMI
计算所得;
S4
:使用
Jaccard
相似度构建不同文档节点间边关系,
Jaccard
系数的阈值取
0.5
‑1之间任意的小数,如果
Jaccard
系数大于设定的阈值,则不同文档节点间边权值为
Jaccard
系数计算所得,步骤
S4
中,如果
Jaccard
系数小于设定的阈值,则不同文档节点间边权值为0;
S1

S4
步骤中的文档是指步骤一中等待生成摘要的文本;
S5
:未经
S1

S4
处理过的边权值都置为0;通过
S1

S5
计算得到图卷积网络的邻接矩阵
A
,所述邻接矩阵
A
中的元素即为
S1

S5
计算得到的节点间边权值
。3.
根据权利要求1所述的一种生成类别引导的新闻文摘方法,其特征在于,步骤
102
中所述分类损失计算模块构建方法是:步骤一:定义文本分类模块联合训练的损失函数
l

n
为文本的数量,
i
表示第
i
个文本,
m
为总的文本类别数量,
j
表示第
j
个类别,
y
ij
为第
i
个文本的类别标签,
Z
ij
为第
i
个文本被预测为第
j
类的概率,经公式
(4)
计算得到全部对文本的
预测和真实类别标签的交叉熵损失;第一层图卷积网络输出的特征是
L1:
L1包含第一层图卷积网络输出的词汇和文档嵌入:由第一层图卷积网络输出的文本特征得到第二层图卷积网络输出的文本特征将第二层图卷积网络输出的文本特征输入至
Softmax
分类器中得到对应分布
Z,
其中包含第二层图卷积网络输出的词汇和文档嵌入;公式
(2)
及公式
(3)
中:
L0是预训练模型表示的节点嵌入,
ρ
是一个
RELU
激活函数,是图卷积网络的邻接矩阵
A
的归一化矩阵,
W0是第一层的图卷积网络参数矩阵,
W1是第二层的图卷积网络参数矩阵,
W0及
W1随机初始化参数矩阵,公式
(4)

Z
由公式
(3)
计算得到,公式
(3)
由公式
(2)
得出;步骤二:使用随机梯度下降算法更新参数
W0及
W1,使所述损失函数值
l
最小,当
l
最小时,文本分类模块为最优模块
。4.
根据权利要求1所述的一种生成类别引导的新闻文摘方法,其特征在于,步骤
103
中所述文本类别信息是一个新闻文本的类别分布矩阵
D
class
,其中矩阵
D
class
行表示所有的新闻文本,矩阵
D
class
列表示相应文本类别,矩阵
D
class
中元素表示元素所在行对应的新闻文本为元素所在列文本类别的概率大小,
D
class
如下所示:其中
class1‑
class
m
是指
m
种文本类别,
d1‑
d
n

n
个新闻文本,
P1表示新闻文本对应一个文本类别概率的大小
。5.
根据权利要求1所述的一种生成类别引导的新闻文摘方法,其特征在于,步骤
103
中所述注意力模块构建方法是:采用基于单层神经网络的
Softmax
模型作为注意力模块的模型,将词汇及类别形成的二元组数据输入所述模型,得到词汇对每一类的得分;将所述得分输入一个
Sigmoid
激活函数,则所述得分化为0‑1区间内的数;将所述0‑1的区间内数输入
Softmax
函数,得到词汇对每一类的注意力矩阵

【专利技术属性】
技术研发人员:刘永坚孟智超解庆汤梦姿白立华
申请(专利权)人:武汉理工大学重庆研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1