System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本摘要生成方法和装置、电子设备及存储介质制造方法及图纸_技高网

文本摘要生成方法和装置、电子设备及存储介质制造方法及图纸

技术编号:43776735 阅读:2 留言:0更新日期:2024-12-24 16:14
本申请实施例提供了一种文本摘要生成方法和装置、电子设备及存储介质,属于信息提取和人工智能技术领域。该方法包括:获取训练文本序列及样本摘要文本,并利用初始文本摘要抽取模型对训练文本序列及样本摘要文本进行编码,得到文本编码向量及样本摘要向量;基于文本编码向量的隐状态,确定文本编码向量中文本词向量的注意力权重;对文本编码向量进行关键向量提取,得到预测摘要向量;基于预测摘要向量和样本摘要向量计算初始文本摘要抽取模型的摘要损失数据及预测摘要分值;对初始文本摘要抽取模型进行参数调整,得到目标文本摘要抽取模型;最后利用目标文本摘要抽取模型对目标文本序列进行摘要生成。本申请实施例能够提高文本摘要生成的精准度。

【技术实现步骤摘要】

本申请涉及信息提取和人工智能,尤其涉及一种文本摘要生成方法和装置、电子设备及存储介质


技术介绍

1、摘要是对文本要点的提取,以便用户能够快速理解文本的核心内容,例如,通过读取保险产品介绍文本的摘要,能够帮助用户快速明确该保险产品介绍文本所介绍的保险产品及该保险产品的基本信息。

2、目前,常见的文本摘要生成方法多为利用自动摘要工具或文本分析工具对目标文本进行摘要生成,但是基于该方法生成的文本摘要往往难以精准地提取目标文本的关键信息,导致文本摘要晦涩难懂,因此如何提高文本摘要生成的精准度,成为了亟待解决的技术问题。


技术实现思路

1、本申请实施例的主要目的在于提出一种文本摘要生成方法和装置、电子设备及存储介质,旨在提高文本摘要生成的精准度。

2、为实现上述目的,本申请实施例的第一方面提出了一种文本摘要生成方法,所述方法包括:

3、获取训练文本序列,并利用预先构建的初始文本摘要抽取模型对所述训练文本序列进行编码,得到文本编码向量,其中,所述文本编码向量包括文本词向量及所述文本词向量的隐状态;

4、获取所述训练文本序列的摘要,得到样本摘要文本,并利用所述初始文本摘要抽取模型对所述样本摘要文本进行编码,得到样本摘要向量;

5、基于所述隐状态,确定所述文本词向量的注意力权重;

6、基于所述隐状态、所述注意力权重及预设的解码器内注意力机制,对所述文本编码向量进行关键向量提取,得到预测摘要向量;

7、基于所述预测摘要向量和所述样本摘要向量计算所述初始文本摘要抽取模型的摘要损失数据;

8、对所述预测摘要向量进行评估,得到预测摘要分值;

9、基于所述摘要损失数据及所述预测摘要分值,对所述初始文本摘要抽取模型进行参数调整,得到目标文本摘要抽取模型;

10、获取目标文本序列,并利用所述目标文本摘要抽取模型对所述目标文本序列进行摘要生成。

11、在一些实施例,所述基于所述隐状态、所述注意力权重及预设的解码器内注意力机制,对所述文本编码向量进行关键向量提取,得到预测摘要向量,包括:

12、基于所述隐状态、所述注意力权重及所述解码器内注意力机制,对所述文本编码向量进行词向量采样,得到预测摘要词向量;

13、基于所述注意力权重及预设的指针生成器,计算所述预测摘要词向量的词向量替换概率;

14、基于所述词向量替换概率及所述预测摘要词向量,确定目标摘要词向量;

15、对所述目标摘要词向量进行拼接,得到所述预测摘要向量。

16、在一些实施例,所述基于所述隐状态、所述注意力权重及预设的解码器内注意力机制,对所述文本编码向量进行词向量采样,得到预测摘要词向量,包括:

17、基于所述文本词向量的所述注意力权重及所述隐状态,生成所述文本词向量的上下文向量;

18、合并所述隐状态及所述上下文向量,得到合并向量;

19、对所述合并向量进行向量激活处理,得到所述文本词向量的生成概率分布;

20、基于所述生成概率分布,对所述文本编码向量进行词向量选取,得到所述预测摘要词向量。

21、在一些实施例,所述基于所述词向量替换概率及所述预测摘要词向量,确定目标摘要词向量,包括:

22、将所述词向量替换概率与预设的概率阈值进行数值对比,得到数值对比结果;

23、若所述数值对比结果表示所述词向量替换概率大于所述概率阈值,则将所述预测摘要词向量作为所述目标摘要词向量;

24、若所述数值对比结果表示所述词向量替换概率小于或等于所述概率阈值,则对所述预测摘要词向量进行词性解析,得到摘要词组词性;

25、从预设的词组数据库中筛选出与所述摘要词组词性相同的词组作为目标词组;

26、对所述目标词组进行编码,得到所述目标摘要词向量。

27、在一些实施例,所述样本摘要向量包括样本摘要词向量,所述基于所述预测摘要向量和所述样本摘要向量计算所述初始文本摘要抽取模型的摘要损失数据,包括:

28、计算所述目标摘要词向量与所述样本摘要词向量之间的损失数据,得到摘要词组损失数据;

29、计算所述预测摘要向量与所述样本摘要向量之间的损失数据,得到摘要文本损失数据;

30、对所述摘要词组损失数据及所述摘要文本损失数据进行合并处理,得到所述摘要损失数据。

31、在一些实施例,所述对所述预测摘要向量进行评估,得到预测摘要分值,包括:

32、计算所述预测摘要向量中所述预测摘要词向量的词组注意力权重;

33、对所述词组注意力权重进行激活处理,得到所述预测摘要词向量的预测摘要词组分值;

34、合并所述预测摘要词组分值,得到所述预测摘要分值。

35、在一些实施例,所述基于所述隐状态,确定所述文本词向量的注意力权重,包括:

36、基于所述文本词向量的编码顺序,将所述文本词向量逐次作为目标词向量,其中,所述编码顺序是指所述初始文本摘要抽取模型输出所述文本词向量的顺序;

37、将所述目标词向量的所述隐状态作为目标状态,并计算所述目标状态与每个所述隐状态的相似度,得到隐状态相似度;

38、对所述隐状态相似度进行激活处理,得到所述注意力权重。

39、为实现上述目的,本申请实施例的第二方面提出了一种文本摘要生成装置,所述装置包括:

40、文本序列编码模块,用于获取训练文本序列,并利用预先构建的初始文本摘要抽取模型对所述训练文本序列进行编码,得到文本编码向量,其中,所述文本编码向量包括文本词向量及所述文本词向量的隐状态;

41、摘要文本编码模块,用于获取所述训练文本序列的摘要,得到样本摘要文本,并利用所述初始文本摘要抽取模型对所述样本摘要文本进行编码,得到样本摘要向量;

42、注意力权重计算模块,用于基于所述隐状态,确定所述文本词向量的注意力权重;

43、摘要向量预测模块,用于基于所述隐状态、所述注意力权重及预设的解码器内注意力机制,对所述文本编码向量进行关键向量提取,得到预测摘要向量;

44、摘要损失计算模块,用于基于所述预测摘要向量和所述样本摘要向量计算所述初始文本摘要抽取模型的摘要损失数据;

45、摘要向量评分模块,用于对所述预测摘要向量进行评估,得到预测摘要分值;

46、模型参数调整模块,用于基于所述摘要损失数据及所述预测摘要分值,对所述初始文本摘要抽取模型进行参数调整,得到目标文本摘要抽取模型;

47、摘要文本生成模块,用于获取目标文本序列,并利用所述目标文本摘要抽取模型对所述目标文本序列进行摘要生成。

48、为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序本文档来自技高网...

【技术保护点】

1.一种文本摘要生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述隐状态、所述注意力权重及预设的解码器内注意力机制,对所述文本编码向量进行关键向量提取,得到预测摘要向量,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述隐状态、所述注意力权重及预设的解码器内注意力机制,对所述文本编码向量进行词向量采样,得到预测摘要词向量,包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述词向量替换概率及所述预测摘要词向量,确定目标摘要词向量,包括:

5.根据权利要求2所述的方法,其特征在于,所述样本摘要向量包括样本摘要词向量,所述基于所述预测摘要向量和所述样本摘要向量计算所述初始文本摘要抽取模型的摘要损失数据,包括:

6.根据权利要求2所述的方法,其特征在于,所述对所述预测摘要向量进行评估,得到预测摘要分值,包括:

7.根据权利要求1-6任一项所述的方法,其特征在于,所述基于所述隐状态,确定所述文本词向量的注意力权重,包括:

8.一种文本摘要生成装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的文本摘要生成方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的文本摘要生成方法。

...

【技术特征摘要】

1.一种文本摘要生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述隐状态、所述注意力权重及预设的解码器内注意力机制,对所述文本编码向量进行关键向量提取,得到预测摘要向量,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述隐状态、所述注意力权重及预设的解码器内注意力机制,对所述文本编码向量进行词向量采样,得到预测摘要词向量,包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述词向量替换概率及所述预测摘要词向量,确定目标摘要词向量,包括:

5.根据权利要求2所述的方法,其特征在于,所述样本摘要向量包括样本摘要词向量,所述基于所述预测摘要向量和所述样本摘要向量计算所述初始文本摘...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1