人物交互检测方法、模型训练方法及装置制造方法及图纸

技术编号：40759437 阅读：17 留言：0更新日期：2024-03-25 20:12

本公开提供了一种人物交互检测方法、模型训练方法及装置，涉及人工智能技术领域，具体涉及计算机视觉、深度学习、大模型等技术领域。该方法包括以下步骤：提取待检测图像的图像特征；获取初始查询矩阵；其中，所述初始查询矩阵包括多组查询集合；所述查询集合为用于提取人物交互关系的参数集合，所述查询集合包括至少一个查询向量，所述查询向量用于提取人物交互关系中与该查询向量对应的特征；基于解码器，对所述图像特征和所述初始查询矩阵进行特征融合处理，确定所述待检测图像所对应的检测结果。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，具体涉及计算机视觉、深度学习、大模型等，可应用于智慧城市等场景；尤其涉及一种人物交互检测方法、模型训练方法及装置。

技术介绍

1、人物交互检测，即定位出图片中的人、物体，并确定出人和物之间的交互行为的检测。

2、如何准确识别图像中的人物交互关系，是一个亟需解决的问题。

技术实现思路

1、本公开提供了一种人物交互检测方法、模型训练方法及装置，以准确识别出图像中的人物交互关系。

2、根据本公开的第一方面，提供了一种人物交互检测方法，其中，所述方法包括：

3、提取待检测图像的图像特征；

4、获取初始查询矩阵；其中，所述初始查询矩阵包括多组查询集合；所述查询集合为用于提取人物交互关系的参数集合，所述查询集合包括至少一个查询向量，所述查询向量用于提取人物交互关系中与该查询向量对应的特征；所述人物交互关系为人与物体之间的交互关系；

5、基于解码器，对所述图像特征和所述初始查询矩阵进行特征融合处理，确定所述待检测图像所对应的检测结果；其中，所述检测结果表征待检测图像中的人物交互关系。

6、根据本公开的第二方面，提供了一种提取待训练图像的图像特征；其中，所述待训练图像具有第一人物交互关系；

7、获取待训练查询矩阵；其中，所述待训练查询矩阵包括多组查询集合；所述查询集合为用于提取人物交互关系的参数集合，所述查询集合包括至少一个查询向量，所述查询向量用于提取人物交互关系中与该查询向量对应的特征；所述

8、基于初始解码器，对所述待训练图像的图像特征和所述待训练查询矩阵进行特征融合处理，得到所述待训练图像所对应的第二人物交互关系；

9、根据所述第一人物交互关系和第二人物交互关系，对所述待训练查询矩阵和所述初始解码器进行修正，得到训练好的解码器和初始查询矩阵。

10、根据本公开的第三方面，提供了一种人物交互检测装置，其中，所述装置包括：

11、第一提取单元，用于提取待检测图像的图像特征；

12、第一获取单元，用于获取初始查询矩阵；其中，所述初始查询矩阵包括多组查询集合；所述查询集合为用于提取人物交互关系的参数集合，所述查询集合包括至少一个查询向量，所述查询向量用于提取人物交互关系中与该查询向量对应的特征；所述人物交互关系为人与物体之间的交互关系；

13、第一处理单元，用于基于解码器，对所述图像特征和所述初始查询矩阵进行特征融合处理，确定所述待检测图像所对应的检测结果；其中，所述检测结果表征待检测图像中的人物交互关系。

14、根据本公开的第四方面，提供了一种模型训练装置，其中，所述装置包括：

15、第二提取单元，用于提取待训练图像的图像特征；其中，所述待训练图像具有第一人物交互关系；

16、第二获取单元，用于获取待训练查询矩阵；其中，所述待训练查询矩阵包括多组查询集合；所述查询集合为用于提取人物交互关系的参数集合，所述查询集合包括至少一个查询向量，所述查询向量用于提取人物交互关系中与该查询向量对应的特征；所述人物交互关系为人与物体之间的交互关系；

17、第二处理单元，用于基于初始解码器，对所述待训练图像的图像特征和所述待训练查询矩阵进行特征融合处理，得到所述待训练图像所对应的第二人物交互关系；

18、修正单元，用于根据所述第一人物交互关系和第二人物交互关系，对所述待训练查询矩阵和所述初始解码器进行修正，得到训练好的解码器和初始查询矩阵。

19、根据本公开的第五方面，提供了一种电子设备，包括：

20、至少一个处理器；以及

21、与所述至少一个处理器通信连接的存储器；其中，

22、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法，或者，以使所述至少一个处理器能够执行第二方面所述的方法。

23、根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面所述的方法，或者，所述计算机指令用于使所述计算机执行第二方面所述的方法。

24、根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法，或者，所述至少一个处理器执行所述计算机程序使得电子设备执行第二方面所述的方法。

25、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种人物交互检测方法，其中，所述方法包括：

2.根据权利要求1所述的方法，其中，所述至少一个查询向量包括第一查询向量、第二查询向量以及第三查询向量；

3.根据权利要求1或2所述的方法，其中，基于解码器，对所述图像特征和所述初始查询矩阵进行特征融合处理，确定所述待检测图像所对应的检测结果，包括：

4.根据权利要求3所述的方法，其中，根据各所述第二集合和所述图像特征，确定所述待检测图像所对应的检测结果，包括：

5.根据权利要求3或4所述的方法，其中，基于所述解码器的第二自注意力层，确定所述第一集合对应的组间相关性信息，包括：

6.根据权利要求3-5中任一项所述的方法，所述方法还包括：

7.根据权利要求1-6中任一项所述的方法，其中，提取待检测图像的图像特征，包括：

8.一种模型训练方法，其中，所述方法包括：

9.根据权利要求8所述的方法，其中，所述至少一个查询向量包括第一查询向量、第二查询向量以及第三查询向量；

10.根据权利要求8或9所述的方法，其中，基于初始解码器，对所

11.根据权利要求10所述的方法，其中，根据各所述第二集合和所述图像特征，确定所述待训练图像所对应的检测结果，包括：

12.根据权利要求10或11所述的方法，其中，基于所述初始解码器的第二自注意力层，确定所述第一集合对应的组间相关性信息，包括：

13.根据权利要求10-12中任一项所述的方法，所述方法还包括：

14.根据权利要求8-13中任一项所述的方法，其中，提取所述待训练图像所对应的图像特征，包括：

15.一种人物交互检测装置，其中，所述装置包括：

16.根据权利要求15所述的装置，其中，所述至少一个查询向量包括第一查询向量、第二查询向量以及第三查询向量；

17.根据权利要求15或16所述的装置，其中，第一处理单元，包括：

18.根据权利要求17所述的装置，其中，第三确定模块，包括：

19.根据权利要求17或18所述的装置，其中，第二确定模块，包括：

20.根据权利要求17-19中任一项所述的装置，所述装置还包括：

21.根据权利要求15-20中任一项所述的装置，其中，第一提取单元，包括：

22.一种模型训练装置，其中，所述装置包括：

23.根据权利要求22所述的装置，其中，所述至少一个查询向量包括第一查询向量、第二查询向量以及第三查询向量；

24.根据权利要求22或23所述的装置，其中，第二处理单元，包括：

25.根据权利要求24所述的装置，其中，第六确定模块，包括：

26.根据权利要求24或25所述的装置，其中，第五确定模块，包括：

27.根据权利要求24-26中任一项所述的装置，所述装置还包括：

28.根据权利要求22-27中任一项所述的装置，其中，第二提取单元，包括：

29.一种电子设备，包括：

30.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。

31.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-14中任一项所述方法的步骤。

...

【技术特征摘要】