System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及音视频处理,尤其涉及一种无监督的视听分割方法、系统及电子设备。
技术介绍
1、视听分割技术是一种音视跨模态分析的先进技术,旨在从视频中提取发声目标,生成发声目标物体的精细化分割图。视听分割即以音频为指导信号,确定分割哪个物体,并得到其完整的像素级掩码图。与声源定位任务相比,该任务不仅根据音源定位发声物体,而且要准确分割出视频帧中正在发声的物体全貌。这种技术在语音识别、音频分离、音频编辑等方向有广泛应用。在智能家居、自动驾驶、医疗图像处理、机器人导航等领域,视听分割技术也有着广阔的应用前景。
2、听觉和视觉是人类感知世界最重要的两个传感器。生活里,声音信号和视觉信号往往是互补的。利用视听的密切关联,视听分割技术最近取得了一些进展,但仍然存在一些亟待解决的挑战。其中一个主要挑战是对声源定位结果要求高,要求学习准确的像素级声源图,而不是近似的图像块级别的定位图。已有的声源定位方法通常通过对比学习来学习视听对应关系,随后直接计算视听注意力来估计声源区域。这些方法往往输出粗略且不可靠的声源定位信息,缺乏物体形状等细致的信息描述。
3、另一个挑战是在完全无监督的范式下进行细粒度的声源定位。为了精确识别声源区域,有监督的方法通常需要构建像素级标注数据集,并利用语义分割模型生成像素级的结果。然而,有监督的方法有大量标注的需求,但是标注过程繁琐且在实际环境中难以实现。
技术实现思路
1、本专利技术实施例的主要目的在于提出一种无监督的视听分割方法、系统及电子设备,
2、为实现上述目的,本专利技术实施例的一方面提出了一种无监督的视听分割方法,包括以下步骤:
3、获取视听数据集,提取得到音频特征和视觉特征;
4、将音频和视觉两个模态的特征进行特征映射到公共特征空间,然后通过交叉注意力计算两个模态的特征关联,确定视频帧对声源目标的粗粒度定位;
5、挖掘视觉特征的邻域语义关联,构建语义相似矩阵,对声源目标分割进行细粒度修正,得到第一声源目标分割图;
6、根据音视特征交互学习,通过编解码网络生成第二声源目标分割图;
7、通过自监督学习训练模型,将所述第一声源目标分割图和所述第二声源目标分割图进行对齐,得到优化后的最终视听分割结果。
8、在一些实施例中,所述将音频和视觉两个模态的特征进行特征映射到公共特征空间,然后通过交叉注意力计算两个模态的特征关联,确定视频帧对声源目标的粗粒度定位,包括以下步骤:
9、采用多层感知机实施特征映射,获取经过特征映射的视觉特征表示和音频特征表示;
10、通过视听交叉注意力计算,获得粗粒度的声源目标分割图;
11、对注意力矩阵进行归一化和二值化操作,得到声源目标掩码矩阵;
12、根据初步注意力计算结果,将视觉特征划分为与音频特征语义匹配的特征集合和不匹配的特征集合;将音视匹配的特征进行配对组成正样本集合,不匹配的特征组合为负样本集合,通过对比学习方法来对正负样本特征集合进行学习,完成音视跨模态语义对齐;
13、在组合音视匹配的特征作为正样本对时,在对比学习模型中增加一个随机掩码增强操作,在对比学习训练过程中随机丢弃正样本组合中部分位置的视觉特征,确定视频帧对声源目标的粗粒度定位。
14、在一些实施例中,交叉注意力计算的公式为:
15、
16、
17、其中,q代表用于注意力矩阵计算的查询向量(query);ωc代表将音频特征转换为查询向量(query)的权重矩阵;代表经过特征映射的音频特征表示;k代表用于注意力矩阵计算的关键向量(key);ωk代表将音频特征转换为关键向量(key)的权重矩阵;v代表代表用于注意力矩阵计算的值向量(value);ωv代表将视觉特征转换为值向量(value)的权重矩阵;代表经过特征映射的视觉特征表示;acs代表注意力矩阵;dk代表调节参数;
18、对比学习的损失函数的表达式为:
19、
20、其中,lcs代表对比学习的损失函数;τ是温度参数;θ()代表对视觉特征的随机掩码增强处理;k代表邻域集合中第k个非声源目标邻域特征;j代表邻域集合中第j个声源目标邻域特征。
21、在一些实施例中,所述挖掘视觉特征的邻域语义关联,构建语义相似矩阵,对声源目标分割进行细粒度修正,得到第一声源目标分割图,包括以下步骤:
22、通过计算邻域像素间特征相似度构建一个语义相似矩阵;具体为:以某一坐标中心为基点,设置一组在坐标空间中距离该基点为r的邻域,计算该邻域集合中邻域特征i和j之间的语义相似值,得到语义相似矩阵;
23、根据所述语义相似矩阵来预测视频帧中相邻坐标特征之间的语义关联性;
24、构建一个自监督学习模型,将亲和矩阵ma设定为特征值,而将声源目标分割图mc设定为特征映射的目标矩阵;
25、对粗粒度的声源目标分割图mc进行量化操作,生成语义关联标签矩阵;具体为:采用逐像素自适应均值漂移算法,对声源目标分割图mc进行逐像素特征调整,得到更精细化的声源目标分割图mcf;接着设定两个阈值α1和α2来量化声源目标分割图mcf,将声源目标分割图mcf划分为可靠的声源区域、静默区域和不确定区域;
26、根据划分区域生成伪语义关联标签yca;具体为:根据区域划分矩阵rcf,如果邻域特征i和j的坐标位置(xi,yi),(xj,yj)位于相同的语义区域,包括声源区域和静默区域,将它们的关联标签设置为正标签yca(i,j)=y+;如果邻域特征i和j分别位于声源区域和静默区域不同的语义区域,将它们的关联标签设置为负标签yca(i,j)=y-,如果邻域特征i和j其中任一特征来自被忽略区域,则它们的关联标签将被设置为忽略;
27、通过自监督学习方式将语义相似矩阵和声源目标分割图mc关联,以语义关联标签矩阵yca为目标函数值,通过最小化损失函数la,训练模型生成准确表示语义关系的亲和矩阵ma;
28、采用随机游走算法将学习到的亲和矩阵ma转化为语义过渡矩阵t,根据所述语义过渡矩阵t修正粗粒度的声源目标分割图mc,得到第一声源目标分割图。
29、在一些实施例中,所述语义相似矩阵的计算公式为:
30、ma(i,j)=exp(-||faff(i(xi,yi))-faff(i(xj,yj))||l1)
31、其中,ma(i,j)代表邻域特征i和j的语义相似矩阵;i(xi,yi)表示图像中(xi,yi)位置的区域视觉信息;i(xj,yj)表示图像中(xi,yi)位置的区域视觉信息;faff()表示采用多层卷积网络和多层感知机对特征进行聚合映射的计算函数;l1代表1范数计算;
32、所述语义过渡矩阵t的计算公式为:
33、
34、其中,β代表超参数本文档来自技高网...
【技术保护点】
1.一种无监督的视听分割方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种无监督的视听分割方法,其特征在于,所述将音频和视觉两个模态的特征进行特征映射到公共特征空间,然后通过交叉注意力计算两个模态的特征关联,确定视频帧对声源目标的粗粒度定位,包括以下步骤:
3.根据权利要求2所述的一种无监督的视听分割方法,其特征在于,交叉注意力计算的公式为:
4.根据权利要求1所述的一种无监督的视听分割方法,其特征在于,所述挖掘视觉特征的邻域语义关联,构建语义相似矩阵,对声源目标分割进行细粒度修正,得到第一声源目标分割图,包括以下步骤:
5.根据权利要求4所述的一种无监督的视听分割方法,其特征在于,所述语义相似矩阵的计算公式为:
6.根据权利要求1所述的一种无监督的视听分割方法,其特征在于,所述根据音视特征交互学习,通过编解码网络生成第二声源目标分割图,包括以下步骤:
7.根据权利要求1所述的一种无监督的视听分割方法,其特征在于,所述通过自监督学习训练模型,将所述第一声源目标分割图和所述第二声源目标分割图进行对齐
8.一种无监督的视听分割系统,其特征在于,包括:
9.一种电子设备,其特征在于,包括处理器以及存储器;
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。
...【技术特征摘要】
1.一种无监督的视听分割方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种无监督的视听分割方法,其特征在于,所述将音频和视觉两个模态的特征进行特征映射到公共特征空间,然后通过交叉注意力计算两个模态的特征关联,确定视频帧对声源目标的粗粒度定位,包括以下步骤:
3.根据权利要求2所述的一种无监督的视听分割方法,其特征在于,交叉注意力计算的公式为:
4.根据权利要求1所述的一种无监督的视听分割方法,其特征在于,所述挖掘视觉特征的邻域语义关联,构建语义相似矩阵,对声源目标分割进行细粒度修正,得到第一声源目标分割图,包括以下步骤:
5.根据权利要求4所述的一种无监督的视听分割方法,其特征在于,所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。