一种基于核心知识推理的场景图生成方法及控制系统技术方案

技术编号：44840816 阅读：2 留言：0更新日期：2025-04-01 19:38

本申请公开了一种基于核心知识推理的场景图生成方法，属于深度学习技术领域。针对现有技术中，预测许多无意义或知识表达少的标签，还会出现过度预测的问题。本申请的方法中，目标检测过程在数据集中提取出图像中的目标边界框和场景布局，并得到粗略的实体标签；然后二者分别被送入核心实体推理与核心关系推理中进行知识提取；视觉部分通过对场景图中基于外观和空间的视觉信息进行挖掘，对图像中的主宾进行由粗到细的提取以得到核心主体；常识部分通过重新连接主客体对再与上下文特征空间中的常识进行匹配，得出主宾对的核心关系。本申请的优点为，核心知识推理方法经过合理的去偏策略，挖掘潜在的核心知识使模型生成更为准确且关系丰富的场景图。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于核心知识推理的场景图生成方法及控制系统，属于深度学习。

技术介绍

1、场景图生成作为一项复杂的视觉理解任务已经在视觉问答、图像检索、视觉关系检测及图像字幕等任务中显示出了优越的结果。它通过将图像建模为一个图，分离出实体以及实体对之间的关系。其中实体(包含主体和客体)用节点表示，关系用有向边表示，共同组成三元组。然而由于场景图中大多含有复杂的场景或多样的关系，造成了机器视觉的感知缺陷，严重影响了模型的推理能力。基于此，模型只能输出相对较少的实体或简单的关系，从而忽略掉大量有意义的场景知识。

2、知识推理，作为人工智能现阶段研究最主要的课题，能够实现整合大量分散数据为结构化知识的能力。知识图一般被建模为三元组形式，这与场景图知识的提取形式不谋而合。在知识工程研究的过程中，产生了各式各样的知识推理形式，如常识知识推理、语言知识等。专家也对此总结出了一部分知识库，如conceptnet、googleknowledgegraph、yago。这些普遍的知识表现形式大多都被开发人员尝试引入到sgg中进行指导模型预测。

3、现阶段，知识图谱已经成为了智能推荐系统、关系提取、问答等领域的支柱力量。知识图在各大领域的优势吸引着研究者尝试挖掘其在场景图中的潜力。正是因为知识图有着与场景图相同的分布与分析方式，常常被用来辅助场景图生成任务。然而，尽管知识图中的三元组形式能够分析非结构化知识分布以形成结构化表示，但是场景图中的知识总是结构化的且特定于场景的。这往往会使侧重于知识图研究的场景图过于依赖知识分布而

4、以往的工作往往预测许多无意义(单一实体)或知识表达少(简单的关系)的标签，有时甚至还会出现过度预测而产生较多错误结果。这是由于他们过于单纯地关注场景图视觉信息或者外部知识的应用。由此可见，构建一个有效的知识挖掘体系来获取全面的核心知识是深入理解视觉场景的关键一步。

技术实现思路

1、针对现有技术中存在的问题，本申请提出一种基于核心知识推理的场景图生成方法及控制系统，涉及认知知识中核心知识在深度学习领域应用于场景图生成的一种实现。本申请的方案，综合考虑模型提取丰富的语义特征和预测过程中提取到的稳定的场景信息来训练深度模型，可以有效提高核心语义表示，极大提高预测的准确率；并且本申请的方案有效的缓解了有意义的实体挖掘不足与长尾关系预测缺失的问题。

2、本专利技术采取的技术方案是，一种基于核心知识推理的场景图生成方法，包括以下步骤：

3、1)将数据集输入预训练的深度模型进行场景布局与实体标签的提取；

4、2)将提取到的布局与视觉图片送入核心实体推理模块，核心实体推理模块对场景图进行全局检测并挖掘实体节点；

5、深度模型的输入也就是数据集，它是以图片的形式输入进模型的，预训练的深度模型即为目标检测常用模型，提取出图片中存在的目标的空间位置与实体标签，此处所说的视觉图片为图片的视觉外观特征，纯净的视觉外观结合空间位置信息(布局)一起送入核心实体推理模块可以帮助模型快速定位并提取相应实体的细节特征。

6、核心实体推理模块获得核心实体位置pe、核心实体特征标签ne、对应的类得分c；

7、3)核心关系推理模块将常识实体进行有序联合，以生成不同的主宾对；

8、联合实体经过主体注意力头通道与客体注意力头通道；

9、联合实体为将获取到的实体特征分别以“主体-客体”或“客体-主体”的形式进行特征结合，以分别验证某一特征在作为主体或作为客体时的语义信息；

10、通过实体定位后按其不同的注意力分数在关系意识层计算实体和谓词的初始表示；

11、知识提取层进一步删除冗余的目标、谓词或三元组；

12、知识提取层通过计算主宾之间的余弦相似度，输出关系度量矩阵；

13、知识提取层是作为提取实体以主体或客体形式时所预测的谓词关系的筛选，它通过关系感知层感知到的对应的谓词关系分布概率与目标提取中获取到的数据集中的主客体对的共现频率作对比，从而输出更有价值的视觉实体特征；

14、4)贝叶斯推断过程将获得的核心实体与核心关系进行融合；

15、首先，标准化核心实体特征与核心关系特征，并把它们映射到相同的空间中；

16、计算出公共空间中的主体、客体及关系集合；

17、在此公共域中将核心知识被用作先验条件进行细化推理；

18、计算主体、关系、客体的最大后验分布。

19、优化的，上述基于核心知识推理的场景图生成方法，步骤1)中，深度模型为预训练目标识别模型resnext-101-fpn，将数据集输入目标检测器在imagenet数据集上进行预训练，训练数据集均为图像数据集；

20、步骤1)中，首先在目标数据集visual genome数据集上分别训练核心实体推理模块和核心关系推理模块，然后再与贝叶斯关系推理模块进行联合训练。

21、优化的，上述基于核心知识推理的场景图生成方法，在步骤2)中，核心知识由实体与关系中置信度最高的样本进行排列筛选后提取到的，核心知识提取过程包括：

22、将原始图像输入预训练目标检测模型，得到标注框与实例特征；

23、提取到的基本图像特征分别被送入核心实体推理模块与核心关系推理模块对样本概率进行更细致的预测；

24、输出高置信度的实体特征与关系特征在知识融合后作为核心知识。

25、优化的，上述基于核心知识推理的场景图生成方法，步骤3)与步骤4)中，采用交叉熵损失函数，并使用先验因子λ限制；

26、λ越大表示模型越相信视觉推理的结果，λ越小表示模型越相信内在的先验知识推论。

27、优化的，上述基于核心知识推理的场景图生成方法，在步骤2)中，pe，ne，c＝ffn(decoder(qe，fe))；

28、假设未检测到的实体或关系都使用填充，则核心实体推理后的视觉损失lvis定义为：

29、

30、其中，表示指示函数，lcls表示所有预测的交叉熵损失，lbox由l1损失和giou损失组成，用于匹配成功的预测。

31、优化的，上述基于核心知识推理的场景图生成方法，步骤3)中，知识提取层通过计算主宾之间的余弦相似度，以输出符合常识的关系度量矩阵：

32、m＝cos_sim(sub，obj)；

33、其中，sub为知识提取层获得的三元组中主体节点的嵌入表示，obj为知识提取层获得的三元组中客体节点的嵌入表示；

34、使用基于常识关系度量矩阵的交叉熵损失，衡量核心关系推理阶段获取的常识关系在生成场景图与真实场景图之间的认知语义的一致性；基于常识关系度量矩阵的交叉本文档来自技高网...

【技术保护点】

1.一种基于核心知识推理的场景图生成方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于核心知识推理的场景图生成方法，其特征在于：步骤1)中，深度模型为预训练目标识别模型ResNeXt-101-FPN，将数据集输入目标检测器在ImageNet数据集上进行预训练，训练数据集均为图像数据集；

3.根据权利要求1所述的基于核心知识推理的场景图生成方法，其特征在于：在步骤2)中，核心知识由实体与关系中置信度最高的样本进行排列筛选后提取到的，核心知识提取过程包括：

4.根据权利要求1所述的基于核心知识推理的场景图生成方法，其特征在于：步骤3)与步骤4)中，采用交叉熵损失函数，并使用先验因子λ限制；

5.根据权利要求1所述的基于核心知识推理的场景图生成方法，其特征在于：在步骤2)中，Pe,Ne,C＝FFN(Decoder(Qe,Fe))；

6.根据权利要求1所述的基于核心知识推理的场景图生成方法，其特征在于：步骤3)中，知识提取层通过计算主宾之间的余弦相似度，以输出符合常识的关系度量矩阵：

7.根据权利要求1所

...

【技术特征摘要】

1.一种基于核心知识推理的场景图生成方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于核心知识推理的场景图生成方法，其特征在于：步骤1)中，深度模型为预训练目标识别模型resnext-101-fpn，将数据集输入目标检测器在imagenet数据集上进行预训练，训练数据集均为图像数据集；

4.根据权利要求1所述的基于核心知识...

【专利技术属性】
技术研发人员：赵文仓，田娜，丁祥福，王莉，
申请(专利权)人：青岛科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人