基于环境感知网络发现视频中社会交互组的方法及系统技术方案

技术编号：41399784 阅读：5 留言：0更新日期：2024-05-20 19:24

本申请提供一种基于环境感知网络发现视频中社会交互组的方法及系统，包括：环境感知网络设计两类环境感知视觉线索来表示影响社会交互的因素；场景感知视觉线索，采用3D网络提取输入视频段特征作为视觉表示，利用编码器提取空时特征；人类感知视觉线索，利用边界框和感兴趣区域作为心理学中影响交互的姿态开放性、朝向和位置的视觉表示；从边界框中提取距离特征，从感兴趣区域中提取个人特征，距离特征和个人特征作为人类环境的视觉表示；将时空特征、距离特征和个人特征融合，获取高阶的社会交互强度特征，得到人与人之间的交互强度矩阵。本申请借用心理学，能从更为本质的角度去发现社会交互，利用深度学习的方法量化人与人之间的交互强度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机视觉，具体地，涉及一种基于环境感知网络发现视频中社会交互组的方法及系统。

技术介绍

1、社会交互是指试图影响或考虑他人主观体验或意图的行为。社会交互在人类社会中十分常见，并在人类的进化过程中起到重要作用。人们在进行社会交互形成的组称为社会交互组。发现社会交互组是人类社会行为分析中的一项基本任务，它可以很好地扩展到一些与群体相关的计算机视觉任务，例如群体异常检测，群体动作识别等。

2、目前针对社会交互识别的方法有：

3、(1)根据人与人之间的接近性来发现社会交互。这类方法一类特点是采用社会学中提出的f-formation，通过预先定义的形状，在视频中寻找和该形状匹配的人群，完成社会交互的发现，但是这类方法需要额外的信息，如人头部的朝向等，而这些信息难以从视频中直接捕获；

4、(2)根据预先定义的动作类别发现社会交互。这类方法的特点是根据预定义的交互类型动作完成视频中人与人之间的社会交互发现。但是，这类方法的最大缺点是需要给定具体的动作类别，而我们实际的社会交互是千变万化的，给定具体的动作类别是不足以覆盖全部类型的社会交互。

5、本申请人之前申请的专利技术cn114495159a，提出一种利用自注意力机制构建的社会交互组检测方法，能够仅从图像信息中实现图像中人与人之间交互强弱的量化，并识别出图像中的社会交互组。但是该专利仅是从图像角度完成社会交互的发现，针对具有时序信息的视频信息，并不能很好的去完成社会交互发现。

技术实现思路

1、针对现有技术中的缺陷，本申请的目的是提供一种基于环境感知网络发现视频中社会交互组的方法及系统。

2、本申请的一个方面，提供一种基于环境感知网络发现视频中社会交互组的方法，包括：

3、提供一环境感知网络，所述环境感知网络设计两类环境感知视觉线索来表示影响社会交互的因素，分别是场景感知视觉线索和人类感知视觉线索，每一类视觉线索由视觉表示和特征提取网络构成，其中：

4、所述场景感知视觉线索，采用3d网络提取输入视频段特征，作为视觉表示，并利用编码器提取空时特征；

5、所述人类感知视觉线索，利用边界框和感兴趣区域作为心理学中影响交互的姿态开放性、朝向和位置的视觉表示；其中，采用距离特征提取器从边界框中提取距离特征，采用个人特征提取器从感兴趣区域中提取个人特征，提取的距离特征和个人特征作为人类环境的视觉表示；

6、采用基于transformer的环境感知机制作为特征融合网络，将所述时空特征、距离特征和个人特征融合，获取高阶的社会交互强度特征；

7、对所述社会交互强度特征降维，得到人与人之间的交互强度矩阵，从而发现视频中社会交互组。

8、本申请采用考虑具有时序特征的场景视觉线索去完成社会交互发现，并采用基于transformer的环境感知机制作为特征融合网络，完成来自不同视觉线索的特征融合，能够自适应的去捕捉不同角度的人与人之间的社会交互信息。

9、可选地，所述场景感知视觉线索对应的是从全局角度考虑的人周围的静态目标和动态信息的场景环境；所述人类感知视觉线索对应的是从局部角度考虑的每个人除自己之外的周围其他人的外观和位置信息的人类环境。

10、可选地，所述采用3d网络提取输入视频段特征，作为视觉表示，并利用编码器提取空时特征，包括：利用在kinetics-400上预训练的i3d网络提取出输入视频特征xi作为场景的视觉表示；利用一个由卷积层、池化层和时域平均操作组成的编码器e1提取出时空特征st，作为场景特征。

11、可选地，所述利用边界框和感兴趣区域作为心理学中影响交互的姿态开放性、朝向和位置的视觉表示，其中：

12、利用每个人的边界框作为反应影响交互的距离信息的视觉表示，通过由相对位置编码和神经网络构成的距离特征提取器，获取任意两个人之间的距离特征d′ij，

13、利用每个人的感兴趣区域作为体现影响交互的姿态开放性和朝向的视觉表示，通过由空时编码器组成的个人特征提取器对其进行特征提取，获取每个人的个人特征hi。

14、可选地，所述采用基于transformer的环境感知机制将所述时空特征、距离特征和个人特征融合，获取高阶的社会交互强度特征，包括：

15、计算人类感知交互关系gij，用所述距离特征d′ij作为初始的gij；

16、利用图引导更新，对所述个人特征hi更新；

17、利用transformer编码器，结合所述空时特征st，对所述个人特征hi更新；

18、对更新的所述个人特征做负指数操作，获取成对的人关系pij；

19、利用滑动平均的方式获取最终的人类感知交互关系gij；

20、将人类感知交互关系和所述空时特征计算外积，获取社会交互强度特征i。

21、可选地，所述对所述社会交互强度特征降维，得到人与人之间的交互强度矩阵，包括：

22、利用仿射变换和对称性操作对所述社会交互强度特征降维，将所述社会交互强度特征转换为交互强度矩阵r。

23、可选地，所述利用仿射变换和对称性操作对所述社会交互强度特征降维，将所述社会交互强度特征转换为交互强度矩阵r，包括：

24、将高维的社会交互强度特征降维，并利用softmax操作将其限制在0-1之间，即：

25、x＝softmax(wsts+ms)，其中ws和ms均为可学习参数，x是概率模式矩阵；

26、采用一个对称性操作以保证交互强度矩阵的对称性，将其对角线元素赋值为0，从而获得交互强度矩阵r，即：

27、其中⊙表示哈达玛积，而u是对角线元素为0，其余元素为1的n×n矩阵。

28、可选地，所述方法还包括：

29、在得到所述交互强度矩阵后，针对视频中每对人之间的交互强度矩阵建立成对交互约束损失函数，利用交互临界损失lthr来增加区分度，利用平滑fβ损失函数lβ来缓解类别不平衡造成的分类不准确。

30、可选地，所述针对视频中每对人之间的交互强度矩阵建立成对交互约束损失函数，利用交互临界损失lthr来增加区分度，利用平滑fβ损失函数lβ来缓解类别不平衡造成的分类不准确，包括：

31、利用双曲正切函数对所述交互强度矩阵做阈值区分，即其中θ为阈值，c为超参数，然后利用数据集中给定的标签，即属于同一组的人赋予了相同的数字，获取真实的交互矩阵g，并计算损失函数为：

32、lthr＝-∑i,j[gijlog(cij)+(1-cij)log(1-cij)]，其中cij表示为任意两个人之间是否存在交互，属于同一组的人为存在交互，设定为1，不存在交互为0，而cij表示经过双曲正切函数处理后的任意两个人之间的交互强度矩阵，范围在0到1之间；

33、平滑fβ损失函数为：

34、

35、其中tp＝∑c⊙g,fp＝∑c⊙(1-g本文档来自技高网...

【技术保护点】

1.一种基于环境感知网络发现视频中社会交互组的方法，其特征在于，包括：

2.根据权利要求1所述的基于环境感知网络发现视频中社会交互组的方法，其特征在于，所述场景感知视觉线索对应的是从全局角度考虑的人周围的静态目标和动态信息的场景环境；

3.根据权利要求1所述的基于环境感知网络发现视频中社会交互组的方法，其特征在于，所述采用3D网络提取输入视频段特征，作为视觉表示，并利用编码器提取空时特征，包括：

4.根据权利要求1所述的基于环境感知网络发现视频中社会交互组的方法，其特征在于，所述利用边界框和感兴趣区域作为心理学中影响交互的姿态开放性、朝向和位置的视觉表示，其中：

5.根据权利要求1所述的基于环境感知网络发现视频中社会交互组的方法，其特征在于，所述采用基于Transformer的环境感知机制作为特征融合网络，将所述时空特征、距离特征和个人特征融合，获取高阶的社会交互强度特征，包括：

6.根据权利要求1所述的基于环境感知网络发现视频中社会交互组的方法，其特征在于，所述对所述社会交互强度特征降维，得到人与人之间的交互强度矩阵，包括：

7.根据权利要求6所述的基于环境感知网络发现视频中社会交互组的方法，其特征在于，所述利用仿射变换和对称性操作将所述社会交互强度特征降维，转换为交互强度矩阵R，包括：

8.根据权利要求1所述的基于环境感知网络发现视频中社会交互组的方法，其特征在于，还包括：

9.根据权利要求8所述的基于环境感知网络发现视频中社会交互组的方法，其特征在于，所述针对视频中每对人之间的交互强度矩阵建立成对交互约束损失函数，利用交互临界损失Lthr来增加区分度，利用平滑Fβ损失函数Lβ来缓解类别不平衡造成的分类不准确，包括：

10.一种基于环境感知网络发现视频中社会交互组的系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于环境感知网络发现视频中社会交互组的方法，其特征在于，包括：

3.根据权利要求1所述的基于环境感知网络发现视频中社会交互组的方法，其特征在于，所述采用3d网络提取输入视频段特征，作为视觉表示，并利用编码器提取空时特征，包括：

5.根据权利要求1所述的基于环境感知网络发现视频中社会交互组的方法，其特征在于，所述采用基于transformer的环境感知机制作为特征融合网络，将所述时空特征、距离特征和个人特征融合，获取高阶的...

【专利技术属性】
技术研发人员：杨华，于家祺，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人