用于对话响应生成系统的系统和方法技术方案

技术编号:33111103 阅读:14 留言:0更新日期:2022-04-17 00:01
提供了一种用于训练对话响应生成系统的计算机实现方法和对话响应生成系统。该方法包括:布置用于对话响应生成或视频描述的第一多模式编码器

【技术实现步骤摘要】
【国外来华专利技术】用于对话响应生成系统的系统和方法


[0001]本专利技术总体上涉及用于训练对话响应生成系统的系统和方法,并且尤其涉及用于对话响应生成系统的训练系统和训练方法以及由其训练的对话响应生成系统。

技术介绍

[0002]可以处理口语对话的人机界面彻底改变了我们与智能手机数字助理、汽车导航系统、语音控制的智能扬声器和面向人的机器人交互的方式。展望未来,此类系统将需要适应其它输入模式(包括视觉)的能力,以在不同的用户上下文中生成足够的响应或处理训练期间无法使用的新情况。然而,当前最先进的对话系统缺乏处理此类动态场景所需的多模式感官输入(例如视觉、声音和文本)的有效模型,因此可能无法在会话中生成合适的响应。
[0003]为了与人类就用户周围的环境信息进行交互,系统需要了解环境的上下文和用户的自然语言输入。这种场景感知对话方法对于现实世界应用的人机界面是必不可少的。为了响应人类行为,机器需要使用由任何类型的物理信号(特征)(诸如音频和视频等)组成的多模式信息来理解场景。用自然语言描述场景的多模式信息的语义表示是帮助生成系统响应的最有效方式。因此,需要开发通过多模式场景理解来提高对话响应生成质量的方法。
[0004]最近,提出了一种使用多模式信息处理的新对话任务,被称为视听场景感知对话(AVSD)。AVSD专注于用于对话系统的响应语句生成,旨在回答用户关于所提供视频的问题,其中,系统可以使用视频中的视听信息以及直到用户最后一个问题的对话历史。可选地,解释视频剪辑的手动视频描述语句也可用作系统的输入。最近在第7届对话系统技术挑战赛(7
th Dialog System Technology Challenge,DSTC7)中提出的对AVSD任务的方法表明,声音、视觉和文本信息的多模式融合可有效提高响应质量。此外,发现当应用从“手动”视频描述语句中提取的文本特征时,可以实现最佳性能。然而,这样的手动视频描述语句在现实世界中是不可用的,这在部署期间带来了挑战。
[0005]为了在推理阶段不使用手动视频描述语句来提高响应生成的性能,需要一种新方法来转移通过在训练时应用手动视频描述语句获得的性能增益以生成更准确的响应。

技术实现思路

[0006]根据本专利技术的一些实施方式,可以提供一种用于训练对话响应生成系统的计算机实现方法和对话响应生成系统。该方法可以包括:布置用于对话响应生成或视频描述的第一多模式编码器

解码器,第一多模式编码器

解码器具有第一输入端和第一输出端,其中,第一多模式编码器

解码器已经通过利用训练视频描述语句训练视听数据集而被预训练;布置用于对话响应生成的第二多模式编码器

解码器,第二多模式编码器

解码器具有第二输入端和第二输出端;向第一多模式编码器

解码器的第一输入端提供具有第一对应视频描述语句的第一视听数据集,其中,第一编码器

解码器基于具有第一对应描述语句的第一视听数据集生成第一输出值;将不包括第一对应视频描述语句的第一视听数据集提供给第二多模式编码器

解码器。在这种情况下,第二多模式编码器

解码器基于没有第一对应视
频描述语句的第一视听数据集生成第二输出值。
[0007]在某些情况下,从第一多模式编码器

解码器输出的自动视频描述语句可以被输入到第二多模式编码器

解码器中以用于对话响应生成。此外,视频描述特征(其是从用于自动视频描述的第一多模式编码器

解码器提取的上下文向量)可以嵌入到第二多模式编码器

解码器中以用于对话响应生成,以考虑多模式信息的语义表示,从而使用自然语言描述场景。
[0008]此外,在某些情况下,当使用手动视频描述语句训练用于对话响应生成(教师网络)的第一多模式编码器

解码器时,可以训练第二多模式编码器

解码器(学生网络),以将由教师网络获得以用于对话响应生成的性能增益转移到学生网络。
[0009]此外,上述从用于视频描述的第一多模式编码器

解码器输出的上下文向量可以嵌入到第二多模式编码器

解码器中以用于对话响应生成,其中,可以使用从第一多模式编码器

解码器获得的自动视频描述语句而不是手动描述语句。在这种情况下,可以组合上述实施方式以使用自动视频描述网络的输出和输出的中间表示,基于视听场景理解来生成更准确的对话响应。
[0010]将参考附图进一步解释当前公开的实施方式。所示的附图不一定按比例绘制,而是重点通常放在说明当前公开的实施方式的原理上。
附图说明
[0011][图1][0012]图1是示出根据本公开的一些实施方式的多模式融合系统的框图。
[0013][图2A][0014]图2A是示出根据本公开的实施方式的使用多模式融合方法的AVSD系统的框图。
[0015][图2B][0016]图2B是示出根据本专利技术的一些实施方式的用于AVSD系统的学生

教师学习系统的框图。
[0017][图3][0018]图3是示出根据本专利技术的实施方式的如何使用自动视频描述编码器

解码器来训练AVSD系统的图。
[0019][图4][0020]图4示出根据本专利技术的一些实施方式的视频场景感知对话数据集的统计数据。
[0021][图5A][0022]图5A示出根据本专利技术的实施方式的具有单个参考的AVSD试验推理集的评估结果。
[0023][图5B][0024]图5B示出根据本专利技术的实施方式的针对每个响应具有六个参考的AVSD正式推理集的评估结果。
具体实施方式
[0025]虽然上面标出的附图阐述了当前公开的实施方式,但如讨论中所指出的,也可以构思其它实施方式。本公开通过表示而非限制的方式呈现说明性实施方式。本领域技术人
员可以设计出许多其它修改和实施方式,这些修改和实施方式落入当前公开的实施方式的原理的范围和精神内。
[0026]以下描述仅提供示例性实施方式,并不旨在限制本公开的范围、可应用性或配置。而是,示例性实施方式的以下描述将为本领域技术人员提供用于实现一个或更多个示例性实施方式的可行描述。在不脱离如所附权利要求中阐述的所公开的主题的精神和范围的情况下,可以想到可以在元件的功能和布置中做出的各种改变。
[0027]图1是示出根据本专利技术的一些实施方式的多模式融合系统的框图。
[0028]本公开基于多模式“融合”系统200,其从包括多个模式211的输入数据生成上下文向量220。在一些情况下,多模式融合系统200接收输入特征,所述输入特征包括文本特征201、图像(视频)特征202、声音特征203和从视频特征202提取的运动特征并生成与输入特征211相关的对话系统响应231,如图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于训练对话响应生成系统的计算机实现方法,所述计算机实现方法包括以下步骤:布置具有第一输入端和第一输出端的第一多模式编码器

解码器,其中,所述第一多模式编码器

解码器已经通过用训练描述训练视听数据集而进行了预训练;布置具有第二输入端和第二输出端的第二多模式编码器

解码器;将具有第一对应描述语句的第一视听数据集提供给所述第一多模式编码器

解码器的所述第一输入端,其中,第一基于注意力的编码器

解码器基于具有所述第一对应描述语句的第一视听数据集生成第一输出值;将不包括所述第一对应描述语句的第一视听数据集提供给所述第二多模式编码器

解码器,其中,所述第二多模式编码器

解码器基于没有所述第一对应描述语句的第一视听数据集生成第二输出值,其中,优化器模块更新所述第二多模式编码器

解码器的第二网络参数,直到所述第一输出值和所述第二输出值之间的误差减小到预定范围为止,其中,所述误差是基于损失函数计算的。2.根据权利要求1所述的计算机实现方法,其中,所述损失函数是交叉熵损失函数。3.根据权利要求2所述的计算机实现方法,所述损失函数合并所述第一多模式编码器

解码器的上下文向量和所述第二多模式编码器

解码器的上下文向量之间的均方差。4.根据权利要求1所述的计算机实现方法,其中,不更新所述第一多模式编码器

解码器的第一参数。5.根据权利要求1所述的计算机实现方法,其中,所述优化器模块基于交叉熵损失函数更新所述第一多模式编码器

解码器的第一参数。6.根据权利要求1所述的计算机实现方法,其中,所述优化器模块使用反向传播方法更新所述第二多模式编码器

解码器的第二网络参数。7.根据权利要求1所述的计算机实现方法,所述计算机实现方法还包括:将第二视听数据集提供给所述第一多模式编码器

解码器的所述第一输入端以生成第三视听数据集,其中,所生成的第三视听数据集被进一步提供给所述第二多模式编码器

解码器以进一步更新所述第二网络参数。8.一种用于训练对话响应生成系统的系统,所述系统包括:存储器和一个或更多个存储设备,所述存储器和所述一个或更多存储设备存储根据权利要求1所述的计算机实现方法的指令;一个或更多个处理器,所述一个或更多个处理器与所述存储器和所述一个或更多个存储设备连接,当由所述一个或更多个处理器执行时,所述存储器和所述一个或更多个存储设备能够操作以使得所述一个或更多个处理器执行包括以下步骤的操作:布置具有第一输入端和第一输出端的第一多模式编码器

解码器,其中,所述第一多模式编码器

解码器已经通过用训练描述训练视听数据集而进行了预训练;布置具有第二输入端和第二输出端的第二多模式编码器

解码器;将具有第一对应描述语句的第一视听数据集提供给所述第一多模式编码器

解码器的第一输入端,其中,第一基于注意力的编码器

解码器基于具有所述第一对应描述语句的第一视听数据集生成第一输出值;将不包括所述第一对应描述语句的第一视听数据集提供给所述第二多模式编码器


码器,其中,所述第二多模式编码器

解码器基于没有所述第一对应描述语句的第一视听数据集生成第二输出值,其中,优化器模块更新...

【专利技术属性】
技术研发人员:堀智织A
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1