System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于视听融合的机器人室内易混淆行为类识别方法技术_技高网

一种基于视听融合的机器人室内易混淆行为类识别方法技术

技术编号:43496219 阅读:4 留言:0更新日期:2024-11-29 17:03
本发明专利技术公开了一种基于视听融合的机器人室内易混淆行为类识别方法,使用视频在空间分布上的信息、时间差分上的特征信息以及音频中的类别信息对视频中的行为类进行整体识别。在音频信息的处理上,直接使用膨胀因果卷积处理原始音频信息,从而避免音频转化为其它信息格式过程中的信息损失。考虑到行为特征在视觉、声音上是不均匀分布的,本发明专利技术在解码器中引入了类别自适应的特征融合网络。融合网络通过引入类别混淆表构建了损失函数形成了自适应的训练范式。本发明专利技术使用深度网络对现有行为识别视频数据滤除杂音,并构建了室内场景下针对视觉易混淆行为的视频数据集,能够训练出收敛的视听融合的行为识别模型。

【技术实现步骤摘要】

本专利技术属于服务机器人感知,特别涉及室内服务机器人的视觉与听觉信息融合处理,为一种基于视听融合的机器人室内易混淆行为类识别方法,用于提高在复杂室内环境中对易混淆人类行为的识别准确性。


技术介绍

1、服务机器人在医院、养老院、家庭等室内环境中的应用日益广泛,它们需要具备对人类行为的准确识别能力,以便提供及时的响应和服务。在医疗和护理场景中,及时检测和响应病理性行为(如打喷嚏、咳嗽)对于监控患者健康状况至关重要;同时,对于老年人和儿童等群体,突发性意外行为(如跌倒、撞击)的快速识别和反应可以极大减少伤害风险。

2、目前,服务机器人在病理性行为、意外事件检测领域所用的主要技术包括:(1)基于人体关键点的姿态估计:姿态估计技术通常依赖于计算机视觉中的人体姿态估计算法,使用卷积神经网络(cnn)对图像中的人物进行特征提取,并通过递归神经网络(rnn)或图卷积网络(gcn)来预测人体关键点的位置。模型需要在包含各种病理性行为姿态的数据集上进行训练,例如,咳嗽、打喷嚏、跌倒等。通过分析关键点的变化,机器人能够识别出人体姿态的异常,如剧烈的咳嗽动作或不稳定的步态,从而判断是否存在病理性行为。(2)面部识别与表情分析:该类算法首先需要使用面部检测算法来定位视频中的人脸,而后通过分析面部视频流,使用深度学习算法来识别特定的面部表情或动作,这些可能与病理性行为相关。例如,打哈欠通常涉及嘴巴的张开和面部肌肉的伸展。该类算法使得服务机器人能够实时处理视频流,并快速响应检测到的表情变化。(3)声音识别与声学事件检测:该类算法需要使用高质量的麦克风阵列来捕捉环境声音,并通过梅尔频率倒谱系数(mfcc)等声学特征提取方法,将声音信号转换为机器可理解的特征向量,随后再进行分类。利用声音识别技术来检测特定的声响,如咳嗽或打喷嚏的声音。声学事件检测算法可以被设计来识别突发性声音事件,如跌倒或撞击产生的声音。(4)多模态融合技术:在决策层面,可以采用投票机制、贝叶斯方法或深度学习模型来综合不同模态的识别结果。在特征层面,可以设计特定的融合机制,如加权平均、特征拼接或使用注意力机制来选择性地强调某些特征。例如,结合面部表情分析和声音识别,以更准确地检测咳嗽行为。

3、然而,现有技术在室内复杂环境下对这些行为的识别面临挑战。视觉信息可能因环境遮挡和光照变化而不准确,而听觉信息可能受到背景噪声的干扰。此外,病理性行为和一些正常行为在视觉上具有高度相似性,使得仅依赖单一模态信息的识别系统难以区分。

4、尽管多模态学习在理论上可以提高识别的准确性,但实际实施中存在诸多挑战。大多数系统仅使用视频或音频中的一种数据源,无法充分利用多模态信息提高识别准确度。一些尝试融合多模态数据的系统,其特征融合策略较为简单,未能充分发挥视听信息的互补优势。现有系统对环境噪声和动态变化的适应性较差,容易受到干扰,影响识别效果。


技术实现思路

1、为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于视听融合的机器人室内易混淆行为类识别方法,可用于解决室内场景下的行为识别中常见的视觉易混淆类的误检问题,通过深度学习,使服务机器人更精确地理解人类行为。

2、为了实现上述目的,本专利技术采用的技术方案是:

3、本专利技术使用视频在空间分布上的信息、差分上的特征信息以及音频中的类别信息对视频中的行为类进行整体识别。在音频信息的处理上,直接使用膨胀因果卷积处理原始音频信息,从而避免音频转化为其它信息格式过程中的信息损失。考虑到行为特征在视觉、声音上是不均匀分布的,本专利技术在解码器中引入了类别自适应的特征融合网络。融合网络通过引入类别混淆表构建了损失函数形成了自适应的训练范式。针对现有行为识别视频数据集中声音存在大量干扰性噪音的问题,本专利技术使用深度网络进行杂音滤除,并通过适当的人工筛选构建了室内场景下针对视觉易混淆行为的视频数据集,该数据集中的行为具有无干扰的典型性声音,能够训练出收敛的视听融合的行为识别模型。

4、具体地,本专利技术一种基于视听融合的机器人室内易混淆行为类识别方法的过程可描述为:

5、对于视频数据,使用两个具有不同帧采样率、不同图像分辨率的支路分别进行两种不同层级的特征提取,第一个支路为时间流支路,该支路以较高的帧采样率对视频进行帧采样,通过对所得帧图像进行连续的三维卷积得到帧图像在时间差分上的特征;第二个支路为空间流支路,该支路以较低的帧采样率对视频进行帧采样,通过对所得帧图像进行连续的三维卷积提取保留在帧图像中的空间特征,将时间流支路的帧图像进行等比例缩小,以保证效率同步,从而提升三维卷积的速度与空间流支路平齐

6、也即,对视频数据,以空间流支路的帧采样率进行图像采样得到若干图像帧组成空间信息流,其中每个采样帧具有空间流支路的图像分辨率,从所述空间信息流提取空间流支路特征;并且,对所述视频数据,以时间流支路的帧采样率进行图像采样得到若干图像帧组成时间信息流,其中每个采样帧具有时间流支路的图像分辨率,从所述时间信息流提取时间流支路特征;其中,所述时间流支路的帧采样率大于所述空间流支路的帧采样率,所述时间流支路的图像分辨率小于所述空间流支路的图像分辨率。

7、对所述视频数据,以固定采样率进行音频采样得到若干音频组成的音频信息流,从所述音频信息流提取最终声音特征;

8、融合所述空间流支路特征和时间流支路特征得到最终视觉特征;

9、融合所述最终声音特征和最终视觉特征得到最终特征,并利用所述最终特征进行行为识别。

10、在具体实施中,所述空间流支路的帧采样率为每秒2帧,时间流支路的帧采样率为每秒16帧,所述空间流支路的图像分辨率为256×256,时间流支路的图像分辨率224×224。

11、在具体实施中,所述以空间流支路的帧采样率进行图像采样得到若干图像帧组成空间信息流,从所述空间信息流提取空间流支路特征,实现方法如下:

12、对于视频数据i,以空间流支路的帧采样率采样图像帧,得到空间流输入vs:

13、

14、其中,vs,i表示空间流输入中的第i帧,表示原始视频i中的第帧,表示向下取整,c1表示空间流支路的帧采样率;利用残差3d卷积对空间流输入vs提取特征,得到空间流支路特征fvs,l,其中l为卷积操作的次数;

15、所述以时间流支路的帧采样率进行图像采样得到若干图像帧组成时间信息流,从所述时间信息提取时间流支路特征,实现方法如下:

16、对于视频数据i,以时间流支路的帧采样率采样图像帧,得到时间流输入vt:

17、

18、其中,vt,i表示时间流输入中的第i帧,表示原始视频i中的第帧,c2表示时间流支路的帧采样率;利用残差3d卷积对时间流输入vt提取特征,得到时间流支路特征fvt,l。

19、在具体实施中,将时间流输入vt中的视频帧分割成更小的切片来提高处理速度,操作前每个视频帧的维度是h×w×3,通过对一张帧图像4等分切片,并将切片后的图像本文档来自技高网...

【技术保护点】

1.一种基于视听融合的机器人室内易混淆行为类识别方法,其特征在于:

2.根据权利要求1所述基于视听融合的机器人室内易混淆行为类识别方法,其特征在于,对于视频模态的特征提取,所述空间流支路的帧采样率为每秒2帧,时间流支路的帧采样率为每秒16帧,所述空间流支路的图像分辨率为256×256,时间流支路的图像分辨率224×224。

3.根据权利要求1或2所述基于视听融合的机器人室内易混淆行为类识别方法,其特征在于,所述以空间流支路的帧采样率进行图像采样得到若干图像帧组成空间信息流,从所述空间信息流提取空间流支路特征,实现方法如下:

4.根据权利要求3所述基于视听融合的机器人室内易混淆行为类识别方法,其特征在于,将时间流输入Vt中的视频帧分割成更小的切片来提高处理速度,操作前每个视频帧的维度是H×W×3,通过对一张帧图像4等分切片,并将切片后的图像块拼接到通道维度上得到新的输入格式:

5.根据权利要求3所述基于视听融合的机器人室内易混淆行为类识别方法,其特征在于,所述利用残差3D卷积对空间流输入Vs提取特征,得到空间流支路特征Fvs,L,实现方法如下:

6.根据权利要求1所述基于视听融合的机器人室内易混淆行为类识别方法,其特征在于,对所述视频数据,以固定采样率进行音频采样得到若干音频组成的音频信息流,实现方法如下:

7.根据权利要求1所述基于视听融合的机器人室内易混淆行为类识别方法,其特征在于,采用基于膨胀因果卷积的残差神经网络结构从所述音频信息流提取最终声音特征,实现方法如下:

8.根据权利要求1所述基于视听融合的机器人室内易混淆行为类识别方法,其特征在于,制作分类混淆表TF,将表中各行按不同权重加权,最终使得融合的TF在非对角线上的元素之和最小,得到所述最终声音特征和最终视觉特征的最佳类别融合权重;

9.根据权利要求8所述基于视听融合的机器人室内易混淆行为类识别方法,其特征在于,所述使得融合的TF在非对角线上的元素之和最小,实现方法如下:

10.根据权利要求1所述基于视听融合的机器人室内易混淆行为类识别方法,其特征在于,构建室内场景视觉易混淆行为识别数据集D,以对识别模型进行训练,表示为:

...

【技术特征摘要】

1.一种基于视听融合的机器人室内易混淆行为类识别方法,其特征在于:

2.根据权利要求1所述基于视听融合的机器人室内易混淆行为类识别方法,其特征在于,对于视频模态的特征提取,所述空间流支路的帧采样率为每秒2帧,时间流支路的帧采样率为每秒16帧,所述空间流支路的图像分辨率为256×256,时间流支路的图像分辨率224×224。

3.根据权利要求1或2所述基于视听融合的机器人室内易混淆行为类识别方法,其特征在于,所述以空间流支路的帧采样率进行图像采样得到若干图像帧组成空间信息流,从所述空间信息流提取空间流支路特征,实现方法如下:

4.根据权利要求3所述基于视听融合的机器人室内易混淆行为类识别方法,其特征在于,将时间流输入vt中的视频帧分割成更小的切片来提高处理速度,操作前每个视频帧的维度是h×w×3,通过对一张帧图像4等分切片,并将切片后的图像块拼接到通道维度上得到新的输入格式:

5.根据权利要求3所述基于视听融合的机器人室内易混淆行为类识别方法,其特征在于,所述利用残差3d卷积对空间流输入vs提取特征,得...

【专利技术属性】
技术研发人员:郑如萍周旭
申请(专利权)人:北京深谋科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1