一种目标识别方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:39044801 阅读:15 留言:0更新日期:2023-10-10 11:57
本申请提供了一种目标识别方法、装置、电子设备及可读存储介质。所述方法包括:获取文本命令和待处理图像;提取文本命令中各待处理目标的文本向量;对待处理图像进行处理,获得各对象的图像向量,图像向量用于表征对象的图像信息;根据文本向量和图像向量,计算各待处理目标与各对象的相似度;选取目标相似度,目标相似度大于预设相似度;根据目标相似度,获得各待处理图像对应的图像向量。本申请通过相似度,查找到与文本命令中待处理目标对应的图像向量,以能在图像中识别对应待处理目标的对象,使得图中存在未知对象也能够识别。使得图中存在未知对象也能够识别。使得图中存在未知对象也能够识别。

【技术实现步骤摘要】
一种目标识别方法、装置、电子设备及可读存储介质


[0001]本申请属于图像
,尤其涉及一种目标识别方法、装置、电子设备及可读存储介质。

技术介绍

[0002]利用传统的目标检测算法或分割算法,例如基于深度学习的方法,进行识别、分割目标。利用深度学习方法识别、分割目标的方式,只能识别训练过程中出现的目标,使得无法识别未知的目标。

技术实现思路

[0003]本申请实施例提供了一种目标识别方法、装置、电子设备、可读存储介质及计算机程序产品,可以解决无法识别未知的目标的问题。
[0004]第一方面,本申请实施例提供了一种目标识别方法,包括:
[0005]获取文本命令和待处理图像;
[0006]提取所述文本命令中各待处理目标的文本向量;
[0007]对所述待处理图像进行处理,获得各对象的图像向量,所述图像向量用于表征所述对象的图像信息;
[0008]根据所述文本向量和所述图像向量,计算所述各待处理目标与所述各对象的相似度;
[0009]选取目标相似度,所述目标相似度大于预设相似度;
[0010]根据所述目标相似度,获得所述各待处理目标对应的图像向量。
[0011]在一个实施例中,获取文本命令之前,还包括:
[0012]获取用户的语音指令;
[0013]对所述语音指令进行处理,获得文本命令。
[0014]在一个实施例中,所述获得所述各待处理图像对应的图像向量之后,还包括:
[0015]根据所述文本命令和所述各待处理目标对应的图像向量,确定动作序列,所述动作序列包括至少一个动作指令;
[0016]向智能体发送所述动作序列,所述动作序列用于指示所述智能体执行所述动作指令,以使所述智能体完成所述文本命令。
[0017]在一个实施例中,所述提取所述文本命令中各待处理目标的文本向量,包括:
[0018]解析所述文本命令,获得所述各待处理目标的文本信息;
[0019]对每个所述文本信息进行编码,获得每个所述待处理目标的文本向量。
[0020]在一个实施例中,所述对所述待处理图像进行处理,获得各对象的图像向量,包括:
[0021]将所述待处理图像划分成多个图像块,每个所述图像块包括一个对象;
[0022]利用掩码,提取各图像块中的所述对象,获得所述各对象的物体图像;
[0023]对每个所述物体图像进行编码,获得每个所述对象的图像向量。
[0024]在一个实施例中,所述根据所述文本向量和所述图像向量,计算所述各待处理目标与所述各对象的相似度,包括:
[0025]将各文本向量与各图像向量进行点积运算,获得相似矩阵,所述相似矩阵的元素的值用于表征一个所述文本向量与一个所述图像向量之间的相似度,元素数量与向量数量相同,所述向量数量为所述文本向量的数量与所述图像向量的数量的相乘结果。
[0026]在一个实施例中,所述根据所述文本命令和所述各待处理目标对应的图像向量,确定动作序列,包括:
[0027]针对每个所述待处理目标,根据目标元素的所述目标文本向量和目标图像向量,获得所述待处理目标和对应的图像向量,所述目标元素的值大于所述预设相似度;
[0028]根据所述待处理目标对应的图像向量,确定所述待处理目标在所述待处理图像中的位置;
[0029]根据所述文本命令和每个所述待处理目标的所述位置,确定所述动作序列。
[0030]第二方面,本申请实施例提供了一种目标识别装置,包括:
[0031]获取模块,用于获取文本命令和待处理图像;
[0032]文本处理模块,用于提取所述文本命令中各待处理目标的文本向量;
[0033]图像处理模块,用于对所述待处理图像进行处理,获得各对象的图像向量,所述图像向量用于表征所述对象的图像信息;
[0034]相似度处理模块,用于根据所述文本向量和所述图像向量,计算所述各待处理目标与所述各对象的相似度;
[0035]还用于选取目标相似度,所述目标相似度大于预设相似度;
[0036]还用于根据所述目标相似度,获得所述各待处理目标对应的图像向量。
[0037]第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的方法。
[0038]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的方法。
[0039]第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面中任一项所述的方法。
[0040]本申请实施例与现有技术相比存在的有益效果是:
[0041]本申请实施例包括获取文本命令和待处理图像;提取文本命令中各待处理目标的文本向量;对待处理图像进行处理,获得各对象的图像向量,图像向量用于表征对象的图像信息;根据文本向量和图像向量,计算各待处理目标与各对象的相似度;选取目标相似度,目标相似度大于预设相似度;根据目标相似度,获得各待处理图像对应的图像向量,通过相似度,查找到与文本命令中待处理目标对应的图像向量,以能在图像中识别对应待处理目标的对象,使得图中存在未知对象也能够识别。
[0042]可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
[0043]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0044]图1是本申请一实施例提供的目标识别方法的第一种流程示意图;
[0045]图2是本申请一实施例提供的目标识别方法的第二种流程示意图;
[0046]图3是本申请一实施例提供的获取物体图像的流程示例图;
[0047]图4是本申请一实施例提供的获取相似矩阵的流程示例图;
[0048]图5是本申请一实施例提供的目标识别装置的结构示意图;
[0049]图6是本申请一实施例提供的电子设备的结构示意图。
具体实施方式
[0050]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0051]应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标识别方法,其特征在于,包括:获取文本命令和待处理图像;提取所述文本命令中各待处理目标的文本向量;对所述待处理图像进行处理,获得各对象的图像向量,所述图像向量用于表征所述对象的图像信息;根据所述文本向量和所述图像向量,计算所述各待处理目标与所述各对象的相似度;选取目标相似度,所述目标相似度大于预设相似度;根据所述目标相似度,获得所述各待处理目标对应的图像向量。2.根据权利要求1所述的方法,其特征在于,获取文本命令之前,还包括:获取用户的语音指令;对所述语音指令进行处理,获得文本命令。3.根据权利要求1所述的方法,其特征在于,所述获得所述各待处理图像对应的图像向量之后,还包括:根据所述文本命令和所述各待处理目标对应的图像向量,确定动作序列,所述动作序列包括至少一个动作指令;向智能体发送所述动作序列,所述动作序列用于指示所述智能体执行所述动作指令,以使所述智能体完成所述文本命令。4.根据权利要求1所述的方法,其特征在于,所述提取所述文本命令中各待处理目标的文本向量,包括:解析所述文本命令,获得所述各待处理目标的文本信息;对每个所述文本信息进行编码,获得每个所述待处理目标的文本向量。5.根据权利要求1所述的方法,其特征在于,所述对所述待处理图像进行处理,获得各对象的图像向量,包括:将所述待处理图像划分成多个图像块,每个所述图像块包括一个对象;利用掩码,提取各图像块中的所述对象,获得所述各对象的物体图像;对每个所述物体图像进行编码,获得每个所述对象的图像向量。6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述文本向量和所述图像向量,计算所述各待处理目标与所述各对象的相似度,包括:将...

【专利技术属性】
技术研发人员:陈加壹于非贺颖孙喜龙董淳光赵哲一
申请(专利权)人:人工智能与数字经济广东省实验室深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1