【技术实现步骤摘要】
一种交互式人脸语音标注方法、装置、设备及存储介质
[0001]本专利技术涉及模式识别中的生物特征匹配领域,特别涉及一种交互式人脸语音标注方法
、
装置
、
设备及存储介质
。
技术介绍
[0002]随着跨模态匹配技术的进一步发展
,
利用跨模态信息交互式标注技术解决不同模态数据之间标签信息数量的不平衡性引起了研究者关注
,
其研究核心在于利用人脸
‑
语音之间内在的模态信息关联性以及单一模态丰富的标签信息对另一个标签信息匮乏的模态进行数据标注
,
从而使得补充后的模态信息能够有效地应用到下游任务的训练中
。
该任务的核心在于构建不同模态信息之间的关联性
,
利用多种不同的高层语义约束条件将不同模态的特征信息映射到公共的高维特征空间中
,
从而实现了异构的模态数据在高维特征空间中的可比性
。
由于图像和音频这两种异构数据所能蕴含的数据量以及数据结构是不一致的
,
如何设定合理的高层语义约束以促使特征编码器能准确有效地将信息映射到特征空间内
,
是实现该任务的技术难点
。
目前人脸
‑
语音标注方法仍然处于较为初步探索的阶段
,
面临着许多的实际问题
,
具体表现为
:1)
同一模态信息内间接对齐的方式不利于跨模态公共高维特征空间的形成
...
【技术保护点】
【技术特征摘要】
1.
一种交互式人脸语音标注方法,其特征在于,包括:接收人脸图像
,
并采用卷积神经网络对所述人脸图像进行特征提取
,
以生成人脸特征
;
获取语音信号
,
并采用循环神经网络及全连接层作对所述语音信号进行特征提取
,
以生成语音特征
;
根据所述人脸图像和所述语音信号的身份标签信息,调用训练数据批次中的数据近似作为身份原型特征对所述语音特征和所述人脸特征执行对齐操作;基于所述对齐操作所述人脸图像和所述语音信号进行标注
。2.
根据权利要求1所述的一种交互式人脸语音标注方法,其特征在于,所述接收人脸图像
,
并采用卷积神经网络对所述人脸图像进行特征提取
,
以生成人脸特征,具体为:获取人脸图像,并对所述人脸图像进行检测定位人脸区域后裁剪缩放至预设图像尺寸;对裁剪后的所述人脸图像进行归一化处理后,采用卷积神经网络进行特征提取,通过端到端的训练学习人脸特征表示
,
输出
512
维的人脸特征,其中,所述卷积神经网络包含卷积层
、
池化层
、
以及全连接层
。3.
根据权利要求1所述的一种交互式人脸语音标注方法,其特征在于,所述获取语音信号
,
并采用循环神经网络及全连接层作对所述语音信号进行特征提取
,
以生成语音特征,具体为:获取语音信号,对所述语音信号进行语音活动检测分割出语音片段;对所述分割出语音片段进行时长统一和音量归一化,采用循环神经网络对语音片段进行时序建模
,
再接入全连接层进行语音特征提取
,
输出
128
维的语音特征
。4.
根据权利要求1所述的一种交互式人脸语音标注方法,其特征在于,所述对齐操作包括:通过原型无关模态内对比损失进行模态内特征直接相互感知和语义对齐,以及通过模态间对比损失使得相同身份的模态间特征进行语义对齐
。5.
根据权利要求1所述的一种交互式人脸语...
【专利技术属性】
技术研发人员:柳欣,陈冠程,彭淑娟,王成,杜吉祥,
申请(专利权)人:华侨大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。