一种基于语义图的多模态对话方法和系统技术方案

技术编号：41612841 阅读：2 留言：0更新日期：2024-06-13 02:17

本发明专利技术公开了一种基于语义图的多模态对话方法和系统。该方法的步骤包括：将视频内容编码为视频特征；使用语义图生成模块，根据视频和对话历史分别生成视频和对话历史对应的语义图；使用语义图路径选择模块，从视频语义图和对话语义图中找到和当前对话最相关的由节点和边组成的路径；将视频特征、相关路径和当前对话内容输入回复生成模块，回复生成模块生成针对当前对话内容的回复。本发明专利技术通过将视频和对话内容解析成相同模式的语义图实现了对视频和对话历史的共同理解，可以满足视频‑文本多模态对话任务的需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理领域，具体涉及一种对视频内容和对话历史构建语义图，并基于语义图中的信息实现根据视频内容进行多轮对话的方法和系统。该方法通过将视频和对话内容解析成相同模式的语义图实现了对视频和对话历史的共同理解，可以满足视频-文本多模态对话任务的需求。

技术介绍

1、根据视频内容进行多轮对话是通用人工智能研究中的一个重要任务。具体来说，完成这个任务要求模型要拥有以下两方面的能力：视频理解能力，即能从视频中识别出其中的人物、物品、动作等语义概念，并理解这些概念之间的关系；多轮对话能力，即能识别对话历史中的关键信息并生成合理、流畅的回复。

2、语义图是(semantic graph)是一种很好的对视频和文本两种模态的信息进行联合理解和推理的方式。语义图的定义比较宽泛，可以指任何用图结构对视频/文本中的语义信息进行表示的方式。在本专利技术中，“语义图”特指以名词/对象为节点、以动词/动作/位置关系等对象之间的关系为边的，对对象和及对象间的关系进行结构化的表示的数据结构。语义图使用同样的数据结构对视频和文本中的语义信息进行表示，因此很适合对二者中的内容进行联合理解。此外，人们还可以根据语义图的内容理解模型的推理过程，使得模型具有更强的可解释性。

技术实现思路

1、针对现有技术中存在的问题和语义图的优点，本专利技术提供了一种基于语义图的根据视频内容实现多轮对话的方法和系统。

2、本专利技术的技术方案为：

3、一种基于语义图的多模态对话方法，其步骤包括：

4、将视频内容编码为视频特征；

5、根据视频和对话历史，分别生成视频和对话历史对应的语义图，即视频语义图和对话历史语义图；

6、从视频语义图和对话历史语义图中选择和当前对话最相关的由节点和边组成的路径；

7、根据视频特征、选择出的路径和当前对话内容生成回复。

8、一种基于语义图的多模态对话系统，其包括：

9、视频编码模块，用于将视频内容编码为视频特征；

10、语义图生成模块，用于根据视频和对话历史，分别生成视频语义图和对话历史语义图；

11、语义图路径选择模块，用于从视频语义图和对话历史语义图中选择和当前对话最相关的由节点和边组成的路径；

12、回复生成模块，用于根据视频特征、选择出的路径和当前对话内容生成回复。

13、进一步的，视频编码模块采用视频编码模型(一般是在视频上预训练过的神经网络)将视频转换为视频特征h∈rt×n，其中t表示视频的长度，n表示特征向量的维度。本专利技术中默认使用的编码模型是i3d(一个现有的开源的在视频上预训练的神经网络)。

14、进一步的，语义图生成模块分为视频语义图生成模块和对话历史语义图生成模块两个模块。例如本专利技术中的默认设定是：

15、对话历史语义图生成模块包含一个共指消解模型和一个信息抽取模型openie(一个现有的开源的信息抽取模型)。对于对话历史中的句子，先使用共指消解模型先将句子中表示同一个对象的代词不同名词表示替换为同一个名词；然后再使用信息抽取模型从句子中抽取出若干[主语，谓语，宾语]三元组组成三元组列表。将三元组列表中所有主语和宾语作为节点，谓语作为边，并将相同的节点合并，即可构成表征对话历史语义信息的语义图，即对话历史语义图；

16、视频语义图生成模块则在对话历史语义图生成模块的基础上增加了一个图片标注模型，对于视频内容，先根据视频中的信息密度预先定义一些关键帧，使用blip-2为代表的图片标注模型获取关键帧图片对应的文本描述，最后再根据文本描述，利用前文所述的对话历史语义图生成模块生成关键帧图片的语义图，各关键帧图片的语义图构成视频语义图。

17、进一步的，本专利技术使用语义图路径选择模块从视频语义图和对话历史语义图中分别选出若干条和问题相关的路径，分别称为视频相关路径pathv和对话历史相关路径pathu。语义图路径选择模块分为视频语义图路径选择和对话历史语义图路径选择两个模块。这两个模块的工作方式相同，包括以下步骤：

18、首先根据句子和节点的表示的相似度，分别对视频语义图和文本语义图中的所有节点进行排序，并找到相似度最高的节点作为路径初始节点：

19、

20、其中v表示视频模态或对话历史(文本)模态；e1表示要寻找的路径初始节点；n表示语义图中所有节点组成的集合，e为n中的一个节点；e表示文本编码模型，例如sentencebert或词嵌入向量；un表示当前对话。

21、在找到路径中第t步的节点et后，使用如下公式寻找第t步中根据当前节点选择下一步中的边r的概率：

22、

23、其中表示所有以为起点的边组成的集合；ht-1是另一个模态的路径选择模块发送来的状态信息；exp表示指数函数；g是评估一条边r被选择的概率的函数，其定义为：

24、

25、其中wa表示一个全连接层中可学习的权重参数；将概率最大的边rt及这条边的终点et+1加入路径。

26、进一步的，前文提到两个模态的路径选择模块会在选择路径的每一步互相传递一个自身状态信息ht。ht通过循环神经网络不断更新：

27、ht＝rnn(ht-1,f)

28、

29、其中和表示本模态的路径选择模块的上一个步骤选择的节点和边；和表示另一个模态的路径选择模块的上一个步骤中选择的节点和边；rnn表示循环神经网络，wc表示一个全连接层中可学习的权重参数。

30、进一步的，相关路径选择步骤需要进行的轮数是可以预先设定的，例如如果预先设定共要运行m次相关路径选择步骤，那么语义图路径选择模块最终就会返回长度为m的视频路径和对话历史路径

31、进一步的，如果需要路径选择模块从语义图中选择多条路径，可以在路径初始节点选择阶段选择多个相似度较高的初始节点，或在每一步保留多个选择概率较大的边加入路径。

32、进一步的，本专利技术使用以gpt-2为代表的文本生成模型作为回复生成模块。回复生成模块以视频特征、视频路径、对话历史路径和当前对话内容作为输入。具体地讲，文本生成模型的输入为：[wvh，embed(pathv),embed(pathu),embed(un)]，其中wv表示将视频特征向量转换到回复生成模块的编码空间的线性层；embed()表示回复生成模块的嵌入层(embedding layer)，用于将文本转换为特征向量；h表示视频特征；pathv表示视频路径；pathu表示对话历史路径；un表示当前对话内容；[…]表示对方括号中的向量进行拼接。回复生成模块会根据上述输入自回归地生成针对当前内容的回复。

33、本专利技术的有益效果是：

34、本专利技术通过将视频和对话内容解析成相同模式的语义图实现了对视频和对话历史的共同理解，可以满足视频-文本多模态对话任务的需求。本专利技术的设计使得语义图生成部分和语义图理解/推理本文档来自技高网...

【技术保护点】

1.一种基于语义图的多模态对话方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，采用以下步骤生成所述对话历史语义图：对于对话历史中的句子，先使用共指消解模型先将句子中表示同一个对象的代词不同名词表示替换为同一个名词，然后使用信息抽取模型从句子中抽取出若干[主语，谓语，宾语]三元组组成三元组列表，将三元组列表中所有主语和宾语作为节点，谓语作为边，并将相同的节点合并，即得到对话历史语义图。

3.根据权利要求1所述的方法，其特征在于，采用以下步骤生成所述视频语义图：对于视频内容，先根据视频中的信息密度预先定义关键帧，使用图片标注模型获取关键帧图片对应的文本描述，然后根据文本描述生成关键帧图片的语义图，各关键帧图片的语义图构成视频语义图。

4.根据权利要求1所述的方法，其特征在于，所述从视频语义图和对话历史语义图中选择和当前对话最相关的由节点和边组成的路径，包括：

5.根据权利要求4所述的方法，其特征在于，在视频语义图路径选择和对话历史语义图路径选择过程中，在选择路径的每一步互相传递一个自身状态信息ht，ht通过循环神经网络不断更新：

6.根据权利要求5所述的方法，其特征在于，如果需要从语义图中选择多条路径，则在路径初始节点选择阶段选择多个相似度较高的初始节点，或在每一步保留多个选择概率较大的边加入路径。

7.根据权利要求1所述的方法，其特征在于，所述根据视频特征、选择出的路径和当前对话内容生成回复，是使用以GPT-2为代表的文本生成模型，以视频特征、视频路径、对话历史路径和当前对话内容作为输入，然后自回归地生成针对当前内容的回复。

8.一种基于语义图的多模态对话系统，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一项所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一项所述的方法。

...

【技术特征摘要】

1.一种基于语义图的多模态对话方法，其特征在于，包括以下步骤：

4.根据权利要求1所述的方法，其特征在于，所述从视频语义图和对话历史语义图中选择和当前对话最相关的由节点和边组成的路径，包括：

5.根据权利要求4所述的方法，其特征在于，在视频语义图路径选择和对话历史语义图路径选择过程中，...

【专利技术属性】
技术研发人员：赵东岩，王越千，汪宇轩，郑子隆，
申请(专利权)人：北京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人