当前位置: 首页 > 专利查询>天津大学专利>正文

基于反事实常识因果推理的视觉对话生成方法及装置制造方法及图纸

技术编号:38814655 阅读:10 留言:0更新日期:2023-09-15 19:53
本发明专利技术公开了一种基于反事实常识因果推理的视觉对话生成方法及装置,方法包括:将常识引入视觉对话任务,构建基于常识融合的视觉对话因果图,计算输入特征对答案预测的总效应;基于视觉对话因果图,构建其对应的反事实因果图;针对反事实因果图,根据自然直接效应估计引入的常识产生的有害偏差对答案预测的影响,并将其从总效应中去除;采用模型集成训练视觉对话模型,以交叉熵和KL散度损失作为训练目标得到答案预测结果;将图像特征、对话历史特征、常识特征及当前问题特征进行整合,送入解码器中,最小化损失函数,优化网络参数,最后为灾害救援现场提供真实的灾害环境信息。装置包括:处理器和存储器。处理器和存储器。处理器和存储器。

【技术实现步骤摘要】
基于反事实常识因果推理的视觉对话生成方法及装置


[0001]本专利技术涉及视觉对话生成领域,尤其涉及一种基于反事实常识因果推理的视觉对话生成方法及装置。

技术介绍

[0002]随着计算机视觉技术和自然语言处理技术的飞速发展,视觉和语言交互的多模态领域受到了广泛关注。从图像描述
[1]、场景图生成
[2]、视觉问答
[3],再到视觉对话
[4],研究者们致力于提高计算机与人类进行持续性交互的能力。其中,视觉对话任务一直是多模态领域的研究重点,它需要智能体不断地根据已有的图像信息和历史问答中所蕴含的文本信息来推理出当前问题的答案,人类与智能体之间的对话将持续多轮。因此,视觉对话任务需要智能体有较强的人机交互能力,基于此,视觉对话在帮助视障人群、灾害救援任务等领域有很大的应用价值。
[0003]近年来,在视觉对话领域涌现出了许多优秀的工作。例如:基于循环神经网络的方法
[4]使用循环神经网络及其变体来编码视觉

语言的多模态特征进而得到答案,基于注意力机制的方法
[5][6]主要使用注意力机制来更精细化的提取回答当前问题所需要的图像信息、对话历史中的上下文信息等,基于图结构的方法
[7][8]主要使用图结构来编码图像、对话历史或者当前问题,赋予智能体更强的推理能力来生成答案。它们都是基于已有的图像信息和历史问答中蕴含的文本信息来推理出答案。但是在一些更为复杂的对话场景中,仅仅利用这些信息是远远不够的,智能体还需要像人类一样利用外部的常识知识来辅助答案生成,这往往被研究者们所忽略,从而限制了智能体人机交互能力的提高。例如:在火灾救援现场,智能体可以先一步进入火灾地点拍照并实时地回答救援人员的问题。当救援人员问到“火灾现场有煤气罐吗”的问题时,若智能体不具备“煤气罐在厨房里”等相关常识,将不会关注厨房区域,进而不能正确的回答救援人员的问题。
[0004]目前仅有基于知识的结构化网络方法(SKANet)
[9]以及基于多结构的常识知识推理方法(RMK)
[10]等将外部常识知识引入了视觉对话任务,并取得了一系列进展。它们都是从外部常识库中提取常识知识,再经编码后融入多模态信息进而得到答案。但是上述框架都是基于这样一个潜在的假设:这些常识知识总是会对答案生成产生正面影响。尽管它们通过计算图像描述与常识知识的语义相似度、通过图嵌入算法(TransE算法)构造常识知识图谱进而计算节点之间的余弦距离等,过滤出与当前对话不相关的常识,然而,常识中蕴含的一些“有害偏差”仍然没有被去除,它将会对答案生成产生负面影响。例如:用于检索常识知识的图像标签或者图像描述中的关键词在常识知识中出现频率较高,其可能会干扰智能体生成答案甚至使智能体生成含有这些高频词的错误答案。例如:智能体若具备了“煤气罐”相关的常识,当回答救援人员“火灾现场有煤气罐吗”的问题时,智能体可能会过于关注含有高频词“煤气罐”的错误答案,从而不能给救援人员提供正确的信息,增加了救援难度。
[0005]基于此研究现状,目前面临的挑战主要有以下三个方面:(1)如何更加有效的选取并利用与图像和当前对话相关的常识知识来辅助答案生成;(2)如何量化常识中蕴含的“有
害偏差”对答案生成的负面影响;(3)如何从总体上去除常识对答案生成的负面影响进而只保留常识对答案生成的正面影响,从而提高智能体在灾害救援现场时的答案预测精度,来辅助救援人员更好的了解灾害现场环境、制定救援计划、展开救援工作等。

技术实现思路

[0006]本专利技术提供了一种基于反事实常识因果推理的视觉对话生成方法及装置,本专利技术构建基于常识融合的视觉对话事实因果图,从基于该因果图演绎的视觉对话生成的答案预测分数中减去常识对答案生成的自然直接效应,此过程保留了常识对答案生成的正面影响的同时,去除了常识中蕴含的“有害偏差”对答案生成的负面影响,从而提高智能体在灾害救援现场的人机交互能力,为救援人员提供更真实详尽的灾害环境信息,详见下文描述:
[0007]一种基于反事实常识因果推理的视觉对话生成方法,所述方法包括:
[0008]对提取出的常识三元组,构建常识子图,使用注意图卷积网络对子图进行编码得到常识特征;
[0009]将常识引入视觉对话任务,构建基于常识融合的视觉对话因果图,计算输入特征对答案预测的总效应;基于视觉对话因果图,构建其对应的反事实因果图;
[0010]针对反事实因果图,根据自然直接效应估计引入的常识产生的有害偏差对答案预测的影响,并将其从总效应中去除;
[0011]采用模型集成训练视觉对话模型,以交叉熵和KL散度损失作为训练目标得到答案预测结果;
[0012]将图像特征、对话历史特征、常识特征及当前问题特征进行整合,送入解码器中,最小化损失函数,优化网络参数,最后为灾害救援现场提供真实的灾害环境信息。
[0013]其中,所述常识三元组为:提取数据库的训练集、验证集和测试集样本中与每个视觉对话单元相关的常识;提取出的常识三元组具体操作为:
[0014]用Faster R

CNN框架检测出物体标签,并根据每个标签对应的置信分数选出分数最高的前若干个物体标签;同理针对图像描述选出分数最高的前若干个关键词;
[0015]其中,所述基于视觉对话因果图,构建其对应的反事实因果图为:
[0016]通过将I、Q、H、C分别赋予空值,即I=i*,Q=q*,H=h*和C=c*,进而有K=k*,阻断I、Q、H和K对答案A预测产生的影响;
[0017]常识C在反事实的世界中一次可同时被赋予两个值,即C=c*和C=c;前者用以得到K=k*,而后者与答案A直接连接来评估常识C对答案预测A的自然直接效应。
[0018]第二方面、一种基于反事实常识因果推理的视觉对话生成装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。
[0019]第三方面、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。
[0020]本专利技术提供的技术方案的有益效果是:
[0021]1、本专利技术将外部常识知识引入现有的视觉对话任务中,智能体不仅能根据已有的图像信息和对话历史上下文信息进行推理,还能利用来自常识知识中的信息来生成答案;
现有的视觉对话方法往往忽略了常识知识在视觉对话生成过程中的重要作用;本专利技术关注智能体在推理答案时所需的信息来源,常识知识的引入使智能体人机交互能力不断提高,有效提升了答案生成精度;
[0022]2、本专利技术在将常识知识引入视觉对话任务的同时,考虑了常识中蕴含的“有害偏差”对答案生成的负面影响,构建了基于常识融合的反事实因果图,将该负面影响量化为常识对答案生成的自然直接效应;而现有的基于常识融合的视觉本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于反事实常识因果推理的视觉对话生成方法,其特征在于,所述方法包括:对提取出的常识三元组,构建常识子图,使用注意图卷积网络对子图进行编码得到常识特征;将常识引入视觉对话任务,构建基于常识融合的视觉对话因果图,计算输入特征对答案预测的总效应;基于视觉对话因果图,构建其对应的反事实因果图;针对反事实因果图,根据自然直接效应估计引入的常识产生的有害偏差对答案预测的影响,并将其从总效应中去除;采用模型集成训练视觉对话模型,以交叉熵和KL散度损失作为训练目标得到答案预测结果;将图像特征、对话历史特征、常识特征及当前问题特征进行整合,送入解码器中,最小化损失函数,优化网络参数,最后为灾害救援现场提供真实的灾害环境信息。2.根据权利要求1所述的一种基于反事实常识因果推理的视觉对话生成方法,其特征在于,所述常识三元组为:提取数据库的训练集、验证集和测试集样本中与每个视觉对话单元相关的常识;提取出的常识三元组具体操作为:用Faster R

CNN框架检测出物体标签,并根据每个标签对应的置信分数选出分数最高的前若干个物体标签;同理针对图像描述选出分数最高的前若干个关键词。3.根据权利要求1所述的一种基于反事实常识因果推理的视觉对话生成方法,其特征在于,所述使用注意图卷积网络对子图进行编码得到常识特征为:使用aGCN编码常识子图G
c
更新当前节点特征z
i
;其中,W是可学习的线性转换矩阵;N(i)是第i个节点的相邻节点的集合;s是非线性激活函数sigmoid;L是aGCN网络的卷积层数;a
ij
是第i个节点特征z
i
与第j个节点特征z
j
之间的预定义权重;所有更新后的节点特征进行平均池化后输出常识特征c。4.根据权利要求1所述的一种基于反事实常识因果推理的视觉对话生成方法,其特征在于,所述将常识引入视觉对话任务,构建基于常识融合的视觉对话因果图具体为:使用视觉编码器从图像中提取视觉特征,在因果图中将视觉特征记为节点I;在因果图中将其分别表示为节点Q和节点H,常识特征在因果图中记为节点C;之后,子图(I

K,Q

K,H

K,H

Q

K,C

K)表示视觉对话模型中的编码器输入H,Q,I,C,输出多模态特征K;问题特征Q与多模态特征K输入判别式解码器或生成式解码器产生当前问题的答案A,对应的子图为Q

A和K

A。5.根据权利要求1所述的一种基于反事实常识因果推理的视觉对话生成方法,其特征在于,所述计算输入特征对答案预测的总效应为:首先,对输入变量H,Q,I,C分别赋予具体的观测值和空值,即I=i,Q=q,H=h,C=c和I=i
*
,Q=q
*<...

【专利技术属性】
技术研发人员:刘安安黄晨曦徐宁张勇东
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1