System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于指令解析的目标检测方法、设备及存储介质技术_技高网

基于指令解析的目标检测方法、设备及存储介质技术

技术编号:41820710 阅读:4 留言:0更新日期:2024-06-24 20:35
本申请实施例提供一种基于指令解析的目标检测方法、设备及存储介质,涉及目标检测技术领域。所述方法包括:获取用户的目标检测指令,确定对应于所述目标检测指令的指令解析结果;其中,所述指令解析结果包括目标类型信息和目标描述词;获取待识别图像,并识别出所述待识别图像中与所述目标类型信息相匹配的若干初始识别结果;调用预设的多模态大模型基于所述目标描述词对所述若干初始识别结果进行结果筛选,得到与所述目标检测指令对应的目标识别结果。本申请实施例通过对用户的检测指令进行语义解析,并根据解析的语义信息进行目标初步识别之后再从中筛选与用户具体意图匹配的识别结果,从而提高针对于复杂语义指令进行目标检测的准确性。

【技术实现步骤摘要】

本申请涉及目标检测,具体而言,涉及一种基于指令解析的目标检测方法、设备及存储介质


技术介绍

1、现有的基于用户指令的目标检测方案,主要是提取用户指令中的特定目标类型,然后从图像中识别出与目标类型相对应的目标检测结果。但是,由于缺乏对复杂语义结构的解析而无法理解用户的具体意图,因此目前的目标检测方案只能简单地检测到与用户意图目标对应的所有同类型目标,无法满足用户的具体检测需求。

2、综上,在针对于复杂语义指令的目标检测过程中至少存在准确性不高的问题。


技术实现思路

1、本申请实施例的目的在于提供一种基于指令解析的目标检测方法、设备及存储介质,用以提高针对于复杂语义指令进行目标检测的准确性。

2、第一方面,本申请实施例提供了一种基于指令解析的目标检测方法,包括:

3、获取用户的目标检测指令,确定对应于所述目标检测指令的指令解析结果;其中,所述指令解析结果包括目标类型信息和目标描述词;

4、获取待识别图像,并识别出所述待识别图像中与所述目标类型信息相匹配的若干初始识别结果;

5、调用预设的多模态大模型基于所述目标描述词对所述若干初始识别结果进行结果筛选,得到与所述目标检测指令对应的目标识别结果。

6、在本申请实施例中,通过对用户的检测指令进行语义解析,并根据解析的语义信息进行目标初步识别之后再从中筛选与用户具体意图匹配的识别结果,从而提高针对于复杂语义指令进行目标检测的准确性。

7、在一些可能的实施例中,所述调用预设的多模态大模型基于所述目标描述词对所述若干初始识别结果进行结果筛选,得到与所述目标检测指令对应的目标识别结果,包括:

8、确定对应于所述目标描述词的分类提示词和预期判别结果;

9、调用预设的多模态大模型基于所述分类提示词以获取对应于每一所述初始识别结果的语义判别结果,并将语义判别结果与所述预期判别结果相匹配的对应初始识别结果标记为所述目标识别结果。

10、在本申请实施例中,通过利用多模态大模型基于目标描述词对初始识别结果进行判别的方式,筛选出与用户具体意图对应的目标识别结果,从而进一步提高针对于复杂语义指令进行目标检测的准确性。

11、在一些可能的实施例中,所述调用预设的多模态大模型基于所述分类提示词以获取对应于每一所述初始识别结果的语义判别结果,并将语义判别结果与所述预期判别结果相匹配的对应初始识别结果标记为所述目标识别结果,包括:

12、从所述待识别图像中提取对应于所述初始识别结果的目标区域图像;

13、调用预设的多模态大模型基于所述分类提示词以获取对应于每一所述目标区域图像的语义判别结果;

14、当判断目标区域图像的语义判别结果与所述预期判别结果相匹配时,则将所述目标区域图像对应的初始识别结果标记为所述目标识别结果。

15、在本申请实施例中,通过提取初始识别结果对应的目标区域图像,作为多模态大模型进行语义判别的对象,进一步提高了针对于复杂语义指令进行目标检测的准确性。

16、在一些可能的实施例中,所述待识别图像是基于待识别视频进行截取得到的;

17、所述基于指令解析的目标检测方法还包括:

18、对所述待识别视频中的若干初始识别结果进行目标跟踪;

19、基于目标跟踪的结果对所述待识别视频中的目标识别结果进行标记。

20、在本申请实施例中,通过对视频数据中的初始识别结果进行目标跟踪,能够针对于视频数据识别与用户具体意图对应的目标,从而增加了针对于复杂语义指令进行目标检测的适用场景。

21、在一些可能的实施例中,所述调用预设的多模态大模型基于所述目标描述词对所述若干初始识别结果进行结果筛选,得到与所述目标检测指令对应的目标识别结果,具体为:

22、通过采用异步执行的方式,调用预设的多模态大模型基于所述目标描述词对所述若干初始识别结果进行结果筛选,得到与所述目标检测指令对应的目标识别结果。

23、在本申请实施例中,通过采用异步执行的方式来调用多模态大模型对初始识别结果进行结果筛选,从而提高了针对于复杂语义指令进行目标检测的效率。

24、在一些可能的实施例中,所述获取用户的目标检测指令,确定对应于所述目标检测指令的指令解析结果,包括:

25、获取用户的目标检测指令,并获取对应于所述目标检测指令的指令解析策略;

26、基于所述指令解析策略对所述目标检测指令进行解析,得到对应于所述目标检测指令的指令解析结果。

27、在本申请实施例中,通过根据目标检测指令获取相对应的指令解析策略来进行指令解析,从而进一步提高了针对于复杂语义指令进行目标检测的准确性和效率。

28、在一些可能的实施例中,所述获取用户的目标检测指令,并获取对应于所述目标检测指令的指令解析策略,包括:

29、获取用户的目标检测指令,并获取对应于所述目标检测指令的指令解析模板;所述指令解析模板包括样例检测指令以及与所述样例检测指令相对应的样例解析结果;

30、根据所述指令解析模板确定对应于所述目标检测指令的指令解析策略。

31、在本申请实施例中,通过根据目标检测指令获取相应的指令解析模板来确定目标检测指令的指令解析策略,从而进一步提高了针对于复杂语义指令进行目标检测的准确性和效率。

32、第二方面,本申请实施例提供了一种基于指令解析的目标检测装置,包括:

33、指令解析模块,用于获取用户的目标检测指令,确定对应于所述目标检测指令的指令解析结果;其中,所述指令解析结果包括目标类型信息和目标描述词;

34、初步识别模块,用于获取待识别图像,并识别出所述待识别图像中与所述目标类型信息相匹配的若干初始识别结果;

35、目标识别模块,用于调用预设的多模态大模型基于所述目标描述词对所述若干初始识别结果进行结果筛选,得到与所述目标检测指令对应的目标识别结果。

36、第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现第一方面任一实施例所述的方法。

37、第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时可实现第一方面任一实施例所述的方法。

38、第五方面,本申请实施例提供了一种计算机程序产品,所述的计算机程序产品包括计算机程序,其中,所述的计算机程序被处理器执行时可实现第一方面任一实施例所述的方法。

本文档来自技高网...

【技术保护点】

1.一种基于指令解析的目标检测方法,其特征在于,包括:

2.根据权利要求1所述的基于指令解析的目标检测方法,其特征在于,所述调用预设的多模态大模型基于所述目标描述词对所述若干初始识别结果进行结果筛选,得到与所述目标检测指令对应的目标识别结果,包括:

3.根据权利要求2所述的基于指令解析的目标检测方法,其特征在于,所述调用预设的多模态大模型基于所述分类提示词以获取对应于每一所述初始识别结果的语义判别结果,并将语义判别结果与所述预期判别结果相匹配的对应初始识别结果标记为所述目标识别结果,包括:

4.根据权利要求1所述的基于指令解析的目标检测方法,其特征在于,所述待识别图像是基于待识别视频进行截取得到的;

5.根据权利要求4所述的基于指令解析的目标检测方法,其特征在于,所述调用预设的多模态大模型基于所述目标描述词对所述若干初始识别结果进行结果筛选,得到与所述目标检测指令对应的目标识别结果,具体为:

6.根据权利要求1所述的基于指令解析的目标检测方法,其特征在于,所述获取用户的目标检测指令,确定对应于所述目标检测指令的指令解析结果,包括:

7.根据权利要求6所述的基于指令解析的目标检测方法,其特征在于,所述获取用户的目标检测指令,并获取对应于所述目标检测指令的指令解析策略,包括:

8.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现权利要求1-7任一所述的基于指令解析的目标检测方法。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-7任一所述的基于指令解析的目标检测方法。

10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的基于指令解析的目标检测方法。

...

【技术特征摘要】

1.一种基于指令解析的目标检测方法,其特征在于,包括:

2.根据权利要求1所述的基于指令解析的目标检测方法,其特征在于,所述调用预设的多模态大模型基于所述目标描述词对所述若干初始识别结果进行结果筛选,得到与所述目标检测指令对应的目标识别结果,包括:

3.根据权利要求2所述的基于指令解析的目标检测方法,其特征在于,所述调用预设的多模态大模型基于所述分类提示词以获取对应于每一所述初始识别结果的语义判别结果,并将语义判别结果与所述预期判别结果相匹配的对应初始识别结果标记为所述目标识别结果,包括:

4.根据权利要求1所述的基于指令解析的目标检测方法,其特征在于,所述待识别图像是基于待识别视频进行截取得到的;

5.根据权利要求4所述的基于指令解析的目标检测方法,其特征在于,所述调用预设的多模态大模型基于所述目标描述词对所述若干初始识别结果进行结果筛选,得到与所述目标检测指令对应的目标识别结果,具体为:

<...

【专利技术属性】
技术研发人员:林国森
申请(专利权)人:创新奇智合肥科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1