当前位置: 首页 > 专利查询>华侨大学专利>正文

一种交互式人脸语音标注方法技术

技术编号:39803816 阅读:16 留言:0更新日期:2023-12-22 02:35
本发明专利技术提供了一种交互式人脸语音标注方法

【技术实现步骤摘要】
一种交互式人脸语音标注方法、装置、设备及存储介质


[0001]本专利技术涉及模式识别中的生物特征匹配领域,特别涉及一种交互式人脸语音标注方法

装置

设备及存储介质


技术介绍

[0002]随着跨模态匹配技术的进一步发展
,
利用跨模态信息交互式标注技术解决不同模态数据之间标签信息数量的不平衡性引起了研究者关注
,
其研究核心在于利用人脸

语音之间内在的模态信息关联性以及单一模态丰富的标签信息对另一个标签信息匮乏的模态进行数据标注
,
从而使得补充后的模态信息能够有效地应用到下游任务的训练中

该任务的核心在于构建不同模态信息之间的关联性
,
利用多种不同的高层语义约束条件将不同模态的特征信息映射到公共的高维特征空间中
,
从而实现了异构的模态数据在高维特征空间中的可比性

由于图像和音频这两种异构数据所能蕴含的数据量以及数据结构是不一致的
,
如何设定合理的高层语义约束以促使特征编码器能准确有效地将信息映射到特征空间内
,
是实现该任务的技术难点

目前人脸

语音标注方法仍然处于较为初步探索的阶段
,
面临着许多的实际问题
,
具体表现为
:1)
同一模态信息内间接对齐的方式不利于跨模态公共高维特征空间的形成
;2)
模型方法对训练数据的加权策略仅仅停留在样本身份这一粗粒度的级别

这些问题的存在将导致模态公共特征空间的不准确性
,
对分布差别较大的数据感知性能较弱以及模型泛化性能差

[0003]有鉴于此,提出本申请


技术实现思路

[0004]本专利技术公开了一种交互式人脸语音标注方法

装置

设备及存储介质,旨在有效地将不同模态特征准确映射到公共的特征空间中,实现异构模态信息之间的可比性,从而提高交互式人脸语音标注的准确性

[0005]本专利技术第一实施例提供了一种交互式人脸语音标注方法,包括:接收人脸图像
,
并采用卷积神经网络对所述人脸图像进行特征提取
,
以生成人脸特征
;
获取语音信号
,
并采用循环神经网络及全连接层作对所述语音信号进行特征提取
,
以生成语音特征
;
根据所述人脸图像和所述语音信号的身份标签信息,调用训练数据批次中的数据近似作为身份原型特征对所述语音特征和所述人脸特征执行对齐操作;基于所述对齐操作所述人脸图像和所述语音信号进行标注

[0006]优选地,所述接收人脸图像
,
并采用卷积神经网络对所述人脸图像进行特征提取
,
以生成人脸特征,具体为:获取人脸图像,并对所述人脸图像进行检测定位人脸区域后裁剪缩放至预设图像尺寸;
对裁剪后的所述人脸图像进行归一化处理后,采用卷积神经网络进行特征提取,通过端到端的训练学习人脸特征表示
,
输出
512
维的人脸特征,其中,所述卷积神经网络包含卷积层

池化层

以及全连接层

[0007]优选地,所述获取语音信号
,
并采用循环神经网络及全连接层作对所述语音信号进行特征提取
,
以生成语音特征,具体为:获取语音信号,对所述语音信号进行语音活动检测分割出语音片段;对所述分割出语音片段进行时长统一和音量归一化,采用循环神经网络对语音片段进行时序建模
,
再接入全连接层进行语音特征提取
,
输出
128
维的语音特征

[0008]优选地,所述对齐操作包括:通过原型无关模态内对比损失进行模态内特征直接相互感知和语义对齐,以及通过模态间对比损失使得相同身份的模态间特征进行语义对齐

[0009]优选地,还包括:构建对齐操作的损失函数,具体地:在单一模态内的对齐任务上,根据身份标签并随机选择样本数据作为身份原型特征代入对比学习中,生成模态内原型无关对比学习损失函数;在一个训练批次的对数据中,通过最小化相同身份的特征信息之间的距离同时最大化不同身份的特征信息之间的距离构建模态间对比损失函数;基于所述模态内原型无关对比学习损失函数和模态间对比损失函数生成对齐操作的损失函数

[0010]优选地,还包括:在模型训练过程中不断对样本数据对的特征间距离进行测量,计算出数据对的近似距离值,并以此判断样本数据对相对于其对应的身份类别的偏离程度,并根据偏离程度的高低,将样本数据对划分为偏差对和超偏差对

[0011]优选地,还包括,在训练过程中通过三元组损失的训练方式
,
对偏差对进行约束

[0012]本专利技术第二实施例提供了一种交互式人脸语音标注装置,包括:人脸特征生成单元,用于接收人脸图像
,
并采用卷积神经网络对所述人脸图像进行特征提取
,
以生成人脸特征
;
语音特征生成单元,用于获取语音信号
,
并采用循环神经网络及全连接层作对所述语音信号进行特征提取
,
以生成语音特征
;
对齐操作单元,用于根据所述人脸图像和所述语音信号的身份标签信息,调用训练数据批次中的数据近似作为身份原型特征对所述语音特征和所述人脸特征执行对齐操作;标注单元,用于基于所述对齐操作所述人脸图像和所述语音信号进行标注

[0013]本专利技术第三实施例提供了一种交互式人脸语音标注设备,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上任意一项所述的一种交互式人脸语音标注方法

[0014]本专利技术第四实施例提供了一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如上任意一项所述的一种交互式人脸语音标注方法

[0015]基于本专利技术提供的一种交互式人脸语音标注方法

装置

设备及存储介质,先接收
人脸图像
,
并采用卷积神经网络对所述人脸图像进行特征提取
,
以生成人脸特征
;
接着获取语音信号
,
并采用循环神经网络及全连接层作对所述语音信号进行特征提取
,
以生成语音特征
;
再接着根据所述人脸图像和所述语音信号的身份标签信息,调用训练数据批次中的数据近似作为身份本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种交互式人脸语音标注方法,其特征在于,包括:接收人脸图像
,
并采用卷积神经网络对所述人脸图像进行特征提取
,
以生成人脸特征
;
获取语音信号
,
并采用循环神经网络及全连接层作对所述语音信号进行特征提取
,
以生成语音特征
;
根据所述人脸图像和所述语音信号的身份标签信息,调用训练数据批次中的数据近似作为身份原型特征对所述语音特征和所述人脸特征执行对齐操作;基于所述对齐操作所述人脸图像和所述语音信号进行标注
。2.
根据权利要求1所述的一种交互式人脸语音标注方法,其特征在于,所述接收人脸图像
,
并采用卷积神经网络对所述人脸图像进行特征提取
,
以生成人脸特征,具体为:获取人脸图像,并对所述人脸图像进行检测定位人脸区域后裁剪缩放至预设图像尺寸;对裁剪后的所述人脸图像进行归一化处理后,采用卷积神经网络进行特征提取,通过端到端的训练学习人脸特征表示
,
输出
512
维的人脸特征,其中,所述卷积神经网络包含卷积层

池化层

以及全连接层
。3.
根据权利要求1所述的一种交互式人脸语音标注方法,其特征在于,所述获取语音信号
,
并采用循环神经网络及全连接层作对所述语音信号进行特征提取
,
以生成语音特征,具体为:获取语音信号,对所述语音信号进行语音活动检测分割出语音片段;对所述分割出语音片段进行时长统一和音量归一化,采用循环神经网络对语音片段进行时序建模
,
再接入全连接层进行语音特征提取
,
输出
128
维的语音特征
。4.
根据权利要求1所述的一种交互式人脸语音标注方法,其特征在于,所述对齐操作包括:通过原型无关模态内对比损失进行模态内特征直接相互感知和语义对齐,以及通过模态间对比损失使得相同身份的模态间特征进行语义对齐
。5.
根据权利要求1所述的一种交互式人脸语...

【专利技术属性】
技术研发人员:柳欣陈冠程彭淑娟王成杜吉祥
申请(专利权)人:华侨大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1