基于反事实常识因果推理的视觉对话生成方法及装置制造方法及图纸

技术编号：38814655 阅读：10 留言：0更新日期：2023-09-15 19:53

本发明专利技术公开了一种基于反事实常识因果推理的视觉对话生成方法及装置，方法包括：将常识引入视觉对话任务，构建基于常识融合的视觉对话因果图，计算输入特征对答案预测的总效应；基于视觉对话因果图，构建其对应的反事实因果图；针对反事实因果图，根据自然直接效应估计引入的常识产生的有害偏差对答案预测的影响，并将其从总效应中去除；采用模型集成训练视觉对话模型，以交叉熵和KL散度损失作为训练目标得到答案预测结果；将图像特征、对话历史特征、常识特征及当前问题特征进行整合，送入解码器中，最小化损失函数，优化网络参数，最后为灾害救援现场提供真实的灾害环境信息。装置包括：处理器和存储器。处理器和存储器。处理器和存储器。

全部详细技术资料下载

【技术实现步骤摘要】
基于反事实常识因果推理的视觉对话生成方法及装置

[0001]本专利技术涉及视觉对话生成领域，尤其涉及一种基于反事实常识因果推理的视觉对话生成方法及装置。

技术介绍

[0002]随着计算机视觉技术和自然语言处理技术的飞速发展，视觉和语言交互的多模态领域受到了广泛关注。从图像描述
[1]、场景图生成
[2]、视觉问答
[3]，再到视觉对话
[4]，研究者们致力于提高计算机与人类进行持续性交互的能力。其中，视觉对话任务一直是多模态领域的研究重点，它需要智能体不断地根据已有的图像信息和历史问答中所蕴含的文本信息来推理出当前问题的答案，人类与智能体之间的对话将持续多轮。因此，视觉对话任务需要智能体有较强的人机交互能力，基于此，视觉对话在帮助视障人群、灾害救援任务等领域有很大的应用价值。
[0003]近年来，在视觉对话领域涌现出了许多优秀的工作。例如：基于循环神经网络的方法
[4]使用循环神经网络及其变体来编码视觉
‑
语言的多模态特征进而得到答案，基于注意力机制的方法
[5][6]主要使用注意力机制来更精细化的提取回答当前问题所需要的图像信息、对话历史中的上下文信息等，基于图结构的方法
[7][8]主要使用图结构来编码图像、对话历史或者当前问题，赋予智能体更强的推理能力来生成答案。它们都是基于已有的图像信息和历史问答中蕴含的文本信息来推理出答案。但是在一些更为复杂的对话场景中，仅仅利用这些信息是远远不够的，智能体还需要像人类一样利用外部的常识知识来...

【技术保护点】

【技术特征摘要】
1.一种基于反事实常识因果推理的视觉对话生成方法，其特征在于，所述方法包括：对提取出的常识三元组，构建常识子图，使用注意图卷积网络对子图进行编码得到常识特征；将常识引入视觉对话任务，构建基于常识融合的视觉对话因果图，计算输入特征对答案预测的总效应；基于视觉对话因果图，构建其对应的反事实因果图；针对反事实因果图，根据自然直接效应估计引入的常识产生的有害偏差对答案预测的影响，并将其从总效应中去除；采用模型集成训练视觉对话模型，以交叉熵和KL散度损失作为训练目标得到答案预测结果；将图像特征、对话历史特征、常识特征及当前问题特征进行整合，送入解码器中，最小化损失函数，优化网络参数，最后为灾害救援现场提供真实的灾害环境信息。2.根据权利要求1所述的一种基于反事实常识因果推理的视觉对话生成方法，其特征在于，所述常识三元组为：提取数据库的训练集、验证集和测试集样本中与每个视觉对话单元相关的常识；提取出的常识三元组具体操作为：用Faster R
‑
CNN框架检测出物体标签，并根据每个标签对应的置信分数选出分数最高的前若干个物体标签；同理针对图像描述选出分数最高的前若干个关键词。3.根据权利要求1所述的一种基于反事实常识因果推理的视觉对话生成方法，其特征在于，所述使用注意图卷积网络对子图进行编码得到常识特征为：使用aGCN编码常识子图G
c
更新当前节点特征z
i
；其中，W是可学习的线性转换矩阵；N(i)是第i个节点的相邻节点的集合；s是非线性激活函数sigmoid；L是aGCN网络的卷积层数；a
ij
是第i个节点特征z
i
与第j个节点特征z
j
之间的预定义权重；所有更新后的节点特征进行平均池化后输出常识特征c。4.根据权利要求1所述的一种基于反事实常识因果推理的视觉对话生成方法，其特征在于，所述将常识引入视觉对话任务，构建基于常识融合的视觉对话因果图具体为：使用视觉编码器从图像中提取视觉特征，在因果图中将视觉特征记为节点I；在因果图中将其分别表示为节点Q和节点H，常识特征在因果图中记为节点C；之后，子图(I
→
K,Q
→
K,H
→
K,H
→
Q
→
K,C
→
K)表示视觉对话模型中的编码器输入H,Q,I,C，输出多模态特征K；问题特征Q与多模态特征K输入判别式解码器或生成式解码器产生当前问题的答案A，对应的子图为Q
→
A和K
→
A。5.根据权利要求1所述的一种基于反事实常识因果推理的视觉对话生成方法，其特征在于，所述计算输入特征对答案预测的总效应为：首先，对输入变量H,Q,I,C分别赋予具体的观测值和空值，即I＝i,Q＝q,H＝h,C＝c和I＝i
*
,Q＝q
*<...

【专利技术属性】
技术研发人员：刘安安，黄晨曦，徐宁，张勇东，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人