用于对话响应生成系统的系统和方法技术方案

技术编号：33111103 阅读：14 留言：0更新日期：2022-04-17 00:01

提供了一种用于训练对话响应生成系统的计算机实现方法和对话响应生成系统。该方法包括：布置用于对话响应生成或视频描述的第一多模式编码器

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于对话响应生成系统的系统和方法

[0001]本专利技术总体上涉及用于训练对话响应生成系统的系统和方法，并且尤其涉及用于对话响应生成系统的训练系统和训练方法以及由其训练的对话响应生成系统。

技术介绍

[0002]可以处理口语对话的人机界面彻底改变了我们与智能手机数字助理、汽车导航系统、语音控制的智能扬声器和面向人的机器人交互的方式。展望未来，此类系统将需要适应其它输入模式(包括视觉)的能力，以在不同的用户上下文中生成足够的响应或处理训练期间无法使用的新情况。然而，当前最先进的对话系统缺乏处理此类动态场景所需的多模式感官输入(例如视觉、声音和文本)的有效模型，因此可能无法在会话中生成合适的响应。
[0003]为了与人类就用户周围的环境信息进行交互，系统需要了解环境的上下文和用户的自然语言输入。这种场景感知对话方法对于现实世界应用的人机界面是必不可少的。为了响应人类行为，机器需要使用由任何类型的物理信号(特征)(诸如音频和视频等)组成的多模式信息来理解场景。用自然语言描述场景的多模式信息的语义表示是帮助生成系统响应的最有效方式。因此，需要开发通过多模式场景理解来提高对话响应生成质量的方法。
[0004]最近，提出了一种使用多模式信息处理的新对话任务，被称为视听场景感知对话(AVSD)。AVSD专注于用于对话系统的响应语句生成，旨在回答用户关于所提供视频的问题，其中，系统可以使用视频中的视听信息以及直到用户最后一个问题的对话历史。可选地，解释视频剪辑的手动视频描述语句也可用作系统的输入。最近在第7届对话系统...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于训练对话响应生成系统的计算机实现方法，所述计算机实现方法包括以下步骤：布置具有第一输入端和第一输出端的第一多模式编码器
‑
解码器，其中，所述第一多模式编码器
‑
解码器已经通过用训练描述训练视听数据集而进行了预训练；布置具有第二输入端和第二输出端的第二多模式编码器
‑
解码器；将具有第一对应描述语句的第一视听数据集提供给所述第一多模式编码器
‑
解码器的所述第一输入端，其中，第一基于注意力的编码器
‑
解码器基于具有所述第一对应描述语句的第一视听数据集生成第一输出值；将不包括所述第一对应描述语句的第一视听数据集提供给所述第二多模式编码器
‑
解码器，其中，所述第二多模式编码器
‑
解码器基于没有所述第一对应描述语句的第一视听数据集生成第二输出值，其中，优化器模块更新所述第二多模式编码器
‑
解码器的第二网络参数，直到所述第一输出值和所述第二输出值之间的误差减小到预定范围为止，其中，所述误差是基于损失函数计算的。2.根据权利要求1所述的计算机实现方法，其中，所述损失函数是交叉熵损失函数。3.根据权利要求2所述的计算机实现方法，所述损失函数合并所述第一多模式编码器
‑
解码器的上下文向量和所述第二多模式编码器
‑
解码器的上下文向量之间的均方差。4.根据权利要求1所述的计算机实现方法，其中，不更新所述第一多模式编码器
‑
解码器的第一参数。5.根据权利要求1所述的计算机实现方法，其中，所述优化器模块基于交叉熵损失函数更新所述第一多模式编码器
‑
解码器的第一参数。6.根据权利要求1所述的计算机实现方法，其中，所述优化器模块使用反向传播方法更新所述第二多模式编码器
‑
解码器的第二网络参数。7.根据权利要求1所述的计算机实现方法，所述计算机实现方法还包括：将第二视听数据集提供给所述第一多模式编码器
‑
解码器的所述第一输入端以生成第三视听数据集，其中，所生成的第三视听数据集被进一步提供给所述第二多模式编码器
‑
解码器以进一步更新所述第二网络参数。8.一种用于训练对话响应生成系统的系统，所述系统包括：存储器和一个或更多个存储设备，所述存储器和所述一个或更多存储设备存储根据权利要求1所述的计算机实现方法的指令；一个或更多个处理器，所述一个或更多个处理器与所述存储器和所述一个或更多个存储设备连接，当由所述一个或更多个处理器执行时，所述存储器和所述一个或更多个存储设备能够操作以使得所述一个或更多个处理器执行包括以下步骤的操作：布置具有第一输入端和第一输出端的第一多模式编码器
‑
解码器，其中，所述第一多模式编码器
‑
解码器已经通过用训练描述训练视听数据集而进行了预训练；布置具有第二输入端和第二输出端的第二多模式编码器
‑
解码器；将具有第一对应描述语句的第一视听数据集提供给所述第一多模式编码器
‑
解码器的第一输入端，其中，第一基于注意力的编码器
‑
解码器基于具有所述第一对应描述语句的第一视听数据集生成第一输出值；将不包括所述第一对应描述语句的第一视听数据集提供给所述第二多模式编码器
‑
解
码器，其中，所述第二多模式编码器
‑
解码器基于没有所述第一对应描述语句的第一视听数据集生成第二输出值，其中，优化器模块更新...

【专利技术属性】
技术研发人员：堀智织，A，
申请(专利权)人：三菱电机株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人