一种摘要生成模型的训练方法及相关装置制造方法及图纸

技术编号：40202674 阅读：8 留言：0更新日期：2024-02-02 22:15

本申请公开一种摘要生成模型的训练方法及相关装置；方法包括：初始生成模型包括编码器、融合器和解码器，将第一批量样本中第一样本文本、第一样本图像和第一样本摘要输入编码器，编码输出第一文本向量、第一图像向量、第一对象向量和第一摘要分词向量。将第一文本向量和第一图像向量输入融合器，跨模态融合输出第一融合向量；将第一融合向量和第一样本摘要的第一表示向量输入解码器，解码输出第一概率密度。通过最大化第一概率密度、第一对象向量与第一摘要分词向量之间的第一相似度、最小化第一对象向量与多个第二摘要分词向量之间的多个第二相似度，训练初始生成模型的模型参数得到摘要生成模型。该方法提升摘要生成模型的摘要效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，特别是涉及一种摘要生成模型的训练方法及相关装置。

技术介绍

1、目前，用户可以在内容浏览平台上浏览文本和图像等多模态内容。为了便于用户快速地、便捷地理解多模态内容的主要信息，可以通过摘要生成模型生成文本和图像对应的摘要。

2、相关技术中，摘要生成模型的训练方法是指：将样本文本、样本图像和样本摘要形成的训练样本输入初始生成模型，以输出样本摘要对应的概率密度，通过最大化概率密度训练初始生成模型得到摘要生成模型。

3、然而，上述训练方法仅通过最大化概率密度训练初始生成模型，只学习到样本文本和样本图像形成的多模态内容与样本摘要之间的关联关系，并未学习其他有效的关联关系，导致摘要生成模型的摘要效果和摘要质量较差。

技术实现思路

1、为了解决上述技术问题，本申请提供了一种摘要生成模型的训练方法及相关装置，使得摘要生成模型能够生成对应文本和图像的、更加贴切的多语言摘要，以提高摘要生成模型的生成精确度，从而提升摘要生成模型的摘要效果和摘要质量。

2、本申请实施例公开了如下技术方案：

3、一方面，本申请实施例提供一种摘要生成模型的训练方法，所述方法包括：

4、通过初始生成模型中编码器，对第一批量样本中第一样本文本、所述第一样本文本对应的第一样本图像和第一样本摘要进行编码，获得所述第一样本文本的第一文本向量、所述第一样本图像的第一图像向量、所述第一样本图像的第一对象向量和所述第一样本摘要的第一摘要分词向量；

5、

6、通过所述初始生成模型中解码器，对所述第一融合向量和所述第一样本摘要的第一表示向量进行解码，获得所述第一样本摘要对应的第一概率密度；

7、根据最大化所述第一概率密度，最大化所述第一对象向量与所述第一摘要分词向量之间的第一相似度、并最小化所述第一对象向量与多个第二摘要分词向量之间的多个第二相似度，对所述初始生成模型的模型参数进行训练，获得所述摘要生成模型；所述多个第二摘要分词向量是通过所述初始生成模型中编码器对所述第一批量样本中不同于所述第一样本文本的多个第二样本文本对应的多个第二样本摘要进行编码得到的。

8、另一方面，本申请实施例提供一种摘要生成模型的训练方法，所述方法包括：

9、通过初始生成模型中编码器，对第三样本文本和所述第三样本文本对应的第三样本图像进行编码，获得所述第三样本文本的第三文本向量和所述第三样本图像的第三图像向量；

10、通过所述初始生成模型中融合器，对所述第三文本向量和所述第三图像向量进行跨模态融合，获得第三融合向量；

11、通过所述初始生成模型中解码器，对所述第三融合向量和所述第三样本文本对应的第三样本摘要的第三表示向量、所述第三样本文本对应的第四样本摘要的第四表示向量进行解码，获得所述第三样本摘要对应的第三解码向量和第三概率密度、以及所述第四样本摘要对应的第四解码向量和第四概率密度；所述第三样本文本和所述第三样本摘要属于相同语言，所述第三样本文本和所述第四样本摘要属于不同语言；

12、根据最大化所述第三概率密度、最大化所述第四概率密度、最大化所述第三解码向量与所述第四解码向量之间的第三相似度，对所述初始生成模型的模型参数进行训练，获得所述摘要生成模型。

13、另一方面，本申请实施例提供一种摘要生成模型的训练装置，所述装置包括：第一编码单元、第一融合单元、第一解码单元和第一训练单元；

14、所述第一编码单元，用于通过初始生成模型中编码器，对第一批量样本中第一样本文本、所述第一样本文本对应的第一样本图像和第一样本摘要进行编码，获得所述第一样本文本的第一文本向量、所述第一样本图像的第一图像向量、所述第一样本图像的第一对象向量和所述第一样本摘要的第一摘要分词向量；

15、所述第一融合单元，用于通过所述初始生成模型中融合器，对所述第一文本向量和所述第一图像向量进行跨模态融合，获得第一融合向量；

16、所述第一解码单元，用于通过所述初始生成模型中解码器，对所述第一融合向量和所述第一样本摘要的第一表示向量进行解码，获得所述第一样本摘要对应的第一概率密度；

17、所述第一训练单元，用于根据最大化所述第一概率密度，最大化所述第一对象向量与所述第一摘要分词向量之间的第一相似度、并最小化所述第一对象向量与多个第二摘要分词向量之间的多个第二相似度，对所述初始生成模型的模型参数进行训练，获得所述摘要生成模型；所述多个第二摘要分词向量是通过所述初始生成模型中编码器对所述第一批量样本中不同于所述第一样本文本的多个第二样本文本对应的多个第二样本摘要进行编码得到的。

18、另一方面，本申请实施例提供一种摘要生成模型的训练装置，所述装置包括：第二编码单元、第二融合单元、第二解码单元和第二训练单元；

19、所述第二编码单元，用于通过初始生成模型中编码器，对第三样本文本和所述第三样本文本对应的第三样本图像进行编码，获得所述第三样本文本的第三文本向量和所述第三样本图像的第三图像向量；

20、所述第二融合单元，用于通过所述初始生成模型中融合器，对所述第三文本向量和所述第三图像向量进行跨模态融合，获得第三融合向量；

21、所述第二解码单元，用于通过所述初始生成模型中解码器，对所述第三融合向量和所述第三样本文本对应的第三样本摘要的第三表示向量、所述第三样本文本对应的第四样本摘要的第四表示向量进行解码，获得所述第三样本摘要对应的第三解码向量和第三概率密度、以及所述第四样本摘要对应的第四解码向量和第四概率密度；所述第三样本文本和所述第三样本摘要属于相同语言，所述第三样本文本和所述第四样本摘要属于不同语言；

22、所述第二训练单元，用于根据最大化所述第三概率密度、最大化所述第四概率密度、最大化所述第三解码向量与所述第四解码向量之间的第三相似度，对所述初始生成模型的模型参数进行训练，获得所述摘要生成模型。

23、另一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器以及存储器：

24、所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

25、所述处理器用于根据所述计算机程序中的指令执行前述任一方面所述的方法。

26、另一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行前述任一方面所述的方法。

27、另一方面，本申请实施例提供一种计算机程序产品，包括计算机程序，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行前述任一方面所述的方法。

28、由上述一个技术方案可以看出，首先，不仅将第一批量样本中第一样本文本、第一样本文本对应的第一样本图像输入初始生成模型中编本文档来自技高网...

【技术保护点】

1.一种摘要生成模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，生成损失函数用于最大化所述第一概率密度，对比损失函数用于最大化所述第一相似度、并最小化所述多个第二相似度；所述根据最大化所述第一概率密度，最大化所述第一对象向量与所述第一摘要分词向量之间的第一相似度、并最小化所述第一对象向量与多个第二摘要分词向量之间的多个第二相似度，对所述初始生成模型的模型参数进行训练，获得所述摘要生成模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述生成损失和所述对比损失，对所述初始生成模型的模型参数进行训练，获得所述摘要生成模型，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述第一对象向量的获得步骤，包括：

5.根据权利要求1-3任一项所述的方法，其特征在于，所述第一摘要分词向量的获得步骤，包括：

6.根据权利要求1-3任一项所述的方法，其特征在于，所述第一样本文本和所述第一样本摘要属于相同语言或不同语言。

7.一种摘要生成模型的训练方法，其特征在于，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，第一损失函数用于最大化所述第三概率密度、并最大化所述第三相似度，第二损失函数用于最大化所述第四概率密度、并最大化所述第三相似度；所述根据最大化所述第三概率密度、最大化所述第四概率密度、最大化所述第三解码向量与所述第四解码向量之间的第三相似度，对所述初始生成模型的模型参数进行训练，获得所述摘要生成模型，包括：

9.根据权利要求8所述的方法，其特征在于，所述第一损失函数包括第一子损失函数，所述第一子损失函数用于最大化所述第三概率密度，所述第二损失函数包括第二子损失函数，所述第二子损失函数用于最大化所述第四概率密度；所述根据所述第三概率密度、所述第三相似度和所述第一损失函数进行损失计算，获得第一损失，包括：

10.根据权利要求9所述的方法，其特征在于，所述第一系数和所述第二系数的确定步骤，包括：

11.一种摘要生成模型的训练装置，其特征在于，所述装置包括：第一编码单元、第一融合单元、第一解码单元和第一训练单元；

12.一种摘要生成模型的训练装置，其特征在于，所述装置包括：第二编码单元、第二融合单元、第二解码单元和第二训练单元；

13.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行权利要求1-10任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行权利要求1-10任一项所述的方法。

...

【技术特征摘要】

1.一种摘要生成模型的训练方法，其特征在于，所述方法包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述第一对象向量的获得步骤，包括：

5.根据权利要求1-3任一项所述的方法，其特征在于，所述第一摘要分词向量的获得步骤，包括：

6.根据权利要求1-3任一项所述的方法，其特征在于，所述第一样本文本和所述第一样本摘要属于相同语言或不同语言。

7.一种摘要生成模型的训练方法，其特征在于，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，第一损失函数用于最大化所述第三概率密度、并最大化所述第三相似度，第二损失函数用于最大化所述第四概率密度、并最大化所述第三相似度；所述根据最大化所述第三概率密度、最大化所述第四概率密...

【专利技术属性】
技术研发人员：梁云龙，孟凡东，徐金安，陈钰枫，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人