一种图像处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号：31680037 阅读：16 留言：0更新日期：2022-01-01 10:25

本公开关于一种图像处理方法、装置、电子设备和存储介质，该方法包括：将待处理图像输入到图像检测模型中进行对象检测，得到待处理图像中至少两个对象分别对应的对象检测信息，将对象检测信息输入到视觉关系检测模型中进行视觉关系检测，得到两两对象间的视觉关系，该视觉关系为经过视觉关系检测模型对视觉关系对应的语义信息量进行调整后得到的，将视觉关系输入到场景图生成模型中进行场景图生成，得到待处理图像对应的目标场景图。该方法基于视觉关系检测模型，对两两对象间的视觉关系进行检测，可以提高视觉关系检测的准确性。可以提高视觉关系检测的准确性。可以提高视觉关系检测的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种图像处理方法、装置、电子设备和存储介质

[0001]本公开涉及图像处理
，尤其涉及一种图像处理方法、装置、电子设备和存储介质。

技术介绍

[0002]通过视觉关系检测可以生成标注有视觉关系的场景图，标注有视觉关系的场景图作为图像内容的结构化表示，是计算机视觉和自然语言之间的桥梁。生成标注有视觉关系的场景图后，可以根据场景图像，检测图像中的主语、谓语、宾语构成的视觉关系三元组。
[0003]相关技术中，在对待处理图像进行视觉关系检测时，容易混淆检测到的视觉关系，从而降低了视觉关系检测的准确性，也降低了标注有视觉关系的场景图的有效性。

技术实现思路

[0004]本公开提供一种图像处理方法、装置、电子设备和存储介质，以至少解决相关技术中视觉关系检测的准确性低，且标注有视觉关系的场景图像的有效性低的问题。本公开的技术方案如下：
[0005]根据本公开实施例的第一方面，提供一种图像处理方法，所述方法包括；
[0006]将待处理图像输入到图像检测模型中进行对象检测，得到所述待处理图像中至少两个对象分别对应的对象检测信息；
[0007]将所述对象检测信息输入到视觉关系检测模型中进行视觉关系检测，得到两两对象间的视觉关系，所述视觉关系表征所述待处理图像中两两对象间的交互关系；
[0008]将所述视觉关系和所述视觉关系对应的对象检测信息输入到场景图生成模型中进行场景图生成，得到所述待处理图像对应的目标场景图，所述目标场景图为标注有所述两两对象间的视觉关系的结构信息。r/>[0009]作为一个可选的实施例，所述视觉关系检测模型包括谓词识别网络，所述将所述对象检测信息输入到视觉关系检测模型中进行视觉关系检测，得到两两对象间的视觉关系包括：
[0010]将所述对象检测信息输入到所述谓词识别网络中进行两两对象间的谓语关系对应的谓词识别，得到目标谓词，所述目标谓词表征语义调整后的谓词；
[0011]根据所述目标谓词和所述目标谓词对应的对象，得到所述视觉关系。
[0012]作为一个可选的实施例，所述谓词识别网络包括初始相关度计算层和语义调整层，所述将所述对象检测信息输入到所述谓词识别网络中进行两两对象间的谓词识别，得到目标谓词包括：
[0013]将所述对象检测信息和预设谓词输入到所述初始相关度计算层中，对两两对象检测信息对应的谓词和每个预设谓词进行相关度计算，得到初始相关度分布信息，所述初始相关度分布信息表征语义调整前所述两两对象检测信息对应的谓词和所述每个预设谓词间的相关度；
[0014]将所述初始相关度分布信息输入到语义调整层中，基于所述预设矩阵对所述初始相关度分布信息进行谓词语义调整，得到所述目标相关度分布信息，所述目标相关度分布信息表征语义调整后所述两两对象检测信息对应的谓词和所述每个预设谓词间的相关度；
[0015]根据所述目标相关度分布信息，确定所述目标谓词。
[0016]作为一个可选的实施例，所述将所述初始相关度分布信息输入到语义调整层中，基于所述预设矩阵对所述初始相关度分布信息进行谓词语义调整，得到所述目标相关度分布信息包括：
[0017]根据所述初始相关度分布信息，确定初始谓词；
[0018]在所述初始谓词为通用谓词的情况下，基于所述预设矩阵中的语义调整矩阵，对所述初始相关度分布信息进行谓词语义调整，所述通用谓词表征所述预设谓词中使用概率大于预设阈值的谓词；
[0019]在所述初始谓词为非通用谓词的情况下，基于所述预设矩阵中的语义保持矩阵，将所述初始相关度分布信息确定为所述目标相关度分布信息，所述非通用谓词表征所述预设谓词中使用概率小于预设阈值的谓词。
[0020]作为一个可选的实施例，所述方法还包括：
[0021]将标注图像输入到所述图像检测模型中进行对象检测，得到所述标注图像中每个对象对应的训练对象检测信息，所述标注图像标注有所述两两对象间的参考视觉关系；
[0022]将所述训练对象检测信息输入到第一待训练模型中进行视觉关系检测，得到所述两两对象间的第一训练视觉关系，所述第一训练视觉关系表征通过所述第一待训练模型得到的所述标注图像中两两对象间的交互关系；
[0023]将所述第一训练视觉关系和所述第一训练视觉关系对应的训练对象检测信息输入到第二待训练模型中进行场景图生成，得到所述标注图像对应的第一训练场景图，所述第一训练场景图为标注有所述两两对象间第一训练视觉关系的结构信息；
[0024]根据所述第一训练视觉关系和所述参考视觉关系，对所述第一待训练模型和所述第二待训练模型进行训练，得到第一视觉关系检测模型和初始场景图生成模型。
[0025]作为一个可选的实施例，所述根据所述训练视觉关系和所述参考视觉关系，对所述第一待训练模型和所述第二待训练模型进行训练，得到所述第一视觉关系检测模型和所述初始场景图生成模型之后，所述方法还包括：
[0026]对所述参考视觉关系中每个参考谓词对应的词频信息进行检测；
[0027]根据预设的词频分段信息和所述词频信息，对所述参考谓词进行分类，得到每个标注图像对应的参考谓词类型；
[0028]将所述第一视觉关系检测模型和预设矩阵进行组合，得到第二视觉关系检测模型；
[0029]将所述训练对象检测信息输入到所述第二视觉关系检测模型中进行视觉关系检测，得到所述两两对象间的第二训练视觉关系，所述第二训练视觉关系表征在存在预设矩阵的情况下所述标注图像中两两对象间的交互关系；
[0030]将所述第二训练视觉关系和所述第一训练视觉关系对应的训练对象检测信息输入到所述初始场景图生成模型中进行场景图生成，得到所述标注图像对应的第二训练场景图，所述第二训练场景图为标注有所述两两对象间的第二训练视觉关系的结构信息；
[0031]基于所述每个标注图像对应的参考谓词类型、所述第二训练视觉关系和所述参考视觉关系，对所述第二视觉关系检测模型和所述初始场景图生成模型进行调整，得到所述视觉关系检测模型和所述场景图生成模型。
[0032]作为一个可选的实施例，所述方法包括：
[0033]将所述训练对象检测信息输入到所述第一视觉关系检测模型中进行视觉关系检测，得到所述两两对象间的初始视觉关系，所述初始视觉关系表征通过第一视觉关系检测模型得到的所述标注图像中两两对象间的交互关系；
[0034]将所述初始视觉关系和所述第一训练视觉关系对应的训练对象检测信息输入到所述初始场景图生成模型中进行场景图生成，得到所述标注图像对应的初始场景图，所述初始场景图为标注有所述两两对象间的初始视觉关系的结构信息；
[0035]根据所述初始视觉关系中的谓词和所述参考视觉关系中的参考谓词，确定初始矩阵；
[0036]根据所述初始矩阵对应的归一化矩阵和所述初始矩阵对应的单位矩阵，得到预设矩阵。
[0037]根据本公开实施例的第二方面，提供一种图像处理装置，所述装置包括；
[0038]对象检测模块，被本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种图像处理方法，其特征在于，所述方法包括：将待处理图像输入到图像检测模型中进行对象检测，得到所述待处理图像中至少两个对象分别对应的对象检测信息；将所述对象检测信息输入到视觉关系检测模型中进行视觉关系检测，得到两两对象间的视觉关系，所述视觉关系表征所述待处理图像中的两两对象间的交互关系；将所述视觉关系和所述视觉关系对应的对象检测信息输入到场景图生成模型中进行场景图生成，得到所述待处理图像对应的目标场景图，所述目标场景图为标注有所述两两对象间的视觉关系的结构信息。2.根据权利要求1所述的图像处理方法，其特征在于，所述视觉关系检测模型包括谓词识别网络，所述将所述对象检测信息输入到视觉关系检测模型中进行视觉关系检测，得到两两对象间的视觉关系包括：将所述图像检测模型输出的对象检测信息输入到所述谓词识别网络中进行两两对象间的谓语关系对应的谓词识别，得到目标谓词，所述目标谓词表征语义调整后的谓词；根据所述目标谓词和所述目标谓词对应的对象，得到所述视觉关系。3.根据权利要求2所述的图像处理方法，其特征在于，所述谓词识别网络包括初始相关度计算层和语义调整层，所述将所述对象检测信息输入到所述谓词识别网络中进行两两对象间的谓词识别，得到目标谓词包括：将所述对象检测信息和预设谓词输入到所述初始相关度计算层中，对两两对象检测信息对应的谓词和每个预设谓词进行相关度计算，得到初始相关度分布信息，所述初始相关度分布信息表征语义调整前所述两两对象检测信息对应的谓词和所述每个预设谓词间的相关度；将所述初始相关度分布信息输入到语义调整层中，基于所述预设矩阵对所述初始相关度分布信息进行谓词语义调整，得到所述目标相关度分布信息，所述目标相关度分布信息表征语义调整后所述两两对象检测信息对应的谓词和所述每个预设谓词间的相关度；根据所述目标相关度分布信息，确定所述目标谓词。4.根据权利要求3所述的图像处理方法，其特征在于，所述将所述初始相关度分布信息输入到语义调整层中，基于所述预设矩阵对所述初始相关度分布信息进行谓词语义调整，得到所述目标相关度分布信息包括：根据所述初始相关度分布信息，确定初始谓词；在所述初始谓词为通用谓词的情况下，基于所述预设矩阵中的语义调整矩阵，对所述初始相关度分布信息进行谓词语义调整，所述通用谓词表征所述预设谓词中使用概率大于预设阈值的谓词；在所述初始谓词为非通用谓词的情况下，基于所述预设矩阵中的语义保持矩阵，将所述初始相关度分布信息确定为所述目标相关度分布信息，所述非通用谓词表征所述预设谓词中使用概率小于预设阈值的谓词。5.根据权利要求1所述的图像处理方法，其特征在于，所述方法还包括：将标注图像输入到所述图像检测模型中进行对象检测，得到所述标注图像中每个对象对应的训练对象检测信息，所述标注图像标注有两两对象间的参考视觉关系；将所述训练对象检测信息输入到第一待训练模型中进行视觉关系检测，得到两两对象
间的第一训练视觉关系，所述第一训练视觉关系表征通过所述第一待训练模型得到的所述标注图像中两两对象间的交互关系；将所述第一训练视觉关系和所述第一训练视觉关系对应的训练对象检测信息输入到第二待训练模型中进行场景图生成，得到所述标注图像对应的第一训练场景图，所述第一训练场景图为标注有所述两两对象间的第一训练视觉关系的结构信息；根据所述第一训练视觉关...

【专利技术属性】
技术研发人员：徐路，郭昱宇，高联丽，陈敏，王浩宇，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人