基于音视频的鲁棒情感建模系统技术方案

技术编号:29676161 阅读:26 留言:0更新日期:2021-08-13 21:58
本发明专利技术提供基于音视频的鲁棒情感建模系统,包括:原始音频训练数据通过音频数据扩增模块进行数据扩增,得到带噪音频训练数据去训练音频数据增强模块,剔除带噪音频训练数据中的噪声信息,得到增强语音训练数据,将增强语音训练数据输入音频情感识别模块,进行训练并识别音频训练情感状态;原始视频训练数据通过视频数据扩增模块进行数据扩增,得到带噪视频训练数据去训练视频数据增强模块,剔除带噪视频训练数据中的噪声信息,得到增强视频训练数据,将增强视频训练数据输入视频情感识别模块,进行训练并识别视频训练情感状态;决策层融合模块将音频训练情感状态和视频训练情感状态融合,进行训练并输出情感识别预测结果。

【技术实现步骤摘要】
基于音视频的鲁棒情感建模系统
本专利技术涉及多模态情感识别领域,尤其涉及基于音视频的鲁棒情感建模系统。
技术介绍
二十世纪以来,随着人工智能技术的飞速发展,各类智能机器逐渐进入人们的日常生活,扮演着日益重要的角色。与此同时,人们渴望与智能机器进行交流,这促使了社交网络机器人与类人机器人的发展,其中一个关键问题在于机器对人的理解,而情感在其中扮演着重要的角色。情感有助于快速传递信息和理解用户真实意图,是人机交互的关键部分。人们通过多种方式表达情感,不同表达方式之间存在着互补作用。多模态情感识别能够有效提高情感识别性能以及系统鲁棒性,因此本文围绕着多模态情感识别技术开展研究。公开号为CN111292765A的专利公开了一种融合多个深度学习模型的双模态情感识别方法,包括步骤:A)采集音视频信号,获得音频数据样本和视频数据样本;B)构建音频深度卷积神经网络和多模视频深度卷积神经网络,获得高层次音频特征和高层次视频特征;C)构建高层次的音视频统一特征,建立由受限玻尔兹曼机构成的深度信念网络,深度信念网络最后一层隐藏层的输出做平均池化之后与线性支持向量机分类器相连;D)获得音视频情感识别分类结果,验证深度信念网络的识别率。公开号为CN110852215A的专利公开了一种多模态情感识别方法、系统及存储介质,所述方法包括:响应所监听到的情感识别任务请求,采集音视频数据;从音视频数据中提取视频情感特征、音频情感特征和语义情感特征;将视频情感特征、音频情感特征和语义情感特征进行特征融合;依据融合情感特征进行情感特征识别。所述系统包括CPU、FPGA和存储单元;CPU能够执行前述方法步骤,FPGA能够执行前述方法中的特征提取及特征融合步骤。但是,在实际场景中,音视频数据难免存在噪声干扰,这影响着多模态情感识别系统的性能。如何增强音视频情感识别系统在实际场景中的鲁棒性是目前亟待解决的关键问题。
技术实现思路
有鉴于此,本专利技术提供一种基于音视频的鲁棒情感建模系统,包括:音频数据扩增模块、音频数据增强模块、音频情感识别模块、视频数据扩增模块、视频数据增强模块、视频情感识别模块和决策层融合模块;训练过程:原始音频训练数据通过所述音频数据扩增模块进行数据扩增,得到带噪音频训练数据,应用所述带噪音频训练数据去训练音频数据增强模块,使所述音频数据增强模块具备剔除音频数据中的噪声信息的能力,剔除所述带噪音频训练数据中的噪声信息,得到增强语音训练数据,将所述增强语音训练数据输入所述音频情感识别模块,进行训练并识别音频训练情感状态;原始视频训练数据通过所述视频数据扩增模块进行数据扩增,得到带噪视频训练数据,应用所述带噪视频训练数据去训练视频数据增强模块,使所述视频数据增强模块具备剔除视频数据中的噪声信息的能力,剔除所述带噪视频训练数据中的噪声信息,得到增强视频训练数据,将所述增强视频训练数据输入所述视频情感识别模块,进行训练并识别视频训练情感状态;所述决策层融合模块将所述音频训练情感状态和所述视频训练情感状态融合,进行训练并输出情感识别预测结果;识别过程:将音频数据输入训练好的音频数据增强模块,剔除音频数据中的噪声信息,得到增强语音数据,将所述增强语音数据输入训练好的音频情感识别模块,得到音频情感状态;视频数据输入训练好的视频数据增强模块,剔除视频数据中的噪声信息,得到增强视频数据,将所述增强视频数据输入训练好的视频情感识别模块,得到视频情感状态;将所述音频情感状态和所述视频情感状态输入训练好的所述决策层融合模块进行特征融合,并并输出情感识别结果。优选的,所述音频数据扩增模块进行数据扩增的具体方法为:根据设置的音频信噪比数值,将所述原始音频训练数据为Y与噪声数据逐一采样点相加,从而获取带噪音频训练数据,所述带噪音频训练数据为X。优选的,所述音频数据增强模块剔除所述带噪音频训练数据中的噪声信息,得到增强语音训练数据的具体方法为:所述带噪音频训练数据X被分解为T个长度为L的重叠段,X=[x1,x2,…xT],其中;利用一维卷积网络,将X转化为隐层音频特征表示,同时用激活函数ELU,增强模型的非线性建模能力,该过程表示为Conv(X),其中,隐层音频特征,N表示隐层音频特征维数;再利用一维卷积网络,预测隐层音频特征中掩蔽向量实现每帧的分离,其中,表示掩蔽向量;为了使所述掩蔽向量属于[0,1]之间,将掩蔽向量输入到sigmoid激活函数,得到激活后的掩蔽向量,;将激活后的掩蔽向量应用到隐层音频特征W上,得到增强后的隐层音频特征:其中,表示增强后的隐层音频特征,表示对应位置相乘;利用反卷积网络将重新映射到时域波形上,该过程表示为:;其中,表示增强后的语音波形,将所述重叠段相加在一起以生成增强语音训练数据。优选的,所述应用所述带噪音频训练数据去训练音频数据增强模块选用最小均方误差损失函数MSE,计算增强语音训练数据与原始音频训练数据Y之间的相似性,损失函数定义为:,。优选的,所述将所述增强语音训练数据输入所述音频情感识别模块,进行训练并识别音频训练情感状态的具体方法为:将增强语音训练数据输入到一维卷积网络中,并利用最大池化层获取语音训练数据特征,其中d表示隐层音频特征维数,为实数;将输入到单层感知机中,得到音频训练情感状态;通过计算音频训练情感状态与真实情感标签之间的交叉熵损失函数,训练语音情感识别模型。优选的,所述视频数据扩增模块进行数据扩增的具体方法为:原始视频训练数据中包含T帧图像,对原始视频训练数据中每一帧进行数据扩增;定义原始视频训练数据为,中包含T帧图像,表示为:,其中表示中的第j帧图像;根据设置的视频信噪比数值,将与噪声数据逐像素点相加,从而获取带噪图像训练数据;重复获取带噪图像训练数据的步骤,得到带噪视频训练数据。优选的,所述视频数据增强模块剔除所述带噪视频训练数据中的噪声信息,得到增强视频训练数据的具体方法为:利用二维卷积网络,将带噪图像训练数据映射到隐层空间中,得到隐层图像特征:再利用反卷积操作,从所述隐层图像特征中预测增强图像训练数据:重复得到增强视频训练数据的具体方法的步骤,得到增强视频训练数据:。优选的,应用所述带噪视频训练数据去训练视频数据增强模块选用最小均方误差损失函数MES,计算增强图像训练数据与原始视频训练数据中图像帧之间的相似性,损失函数定义为:,。优选的,所述将所述增强视频训练数据输入所述视频情感识别模块,进行训练并识别视频训练情感状态的具体方法为:利用卷积神经网络,从增强视频训练数据中获取隐层视频特征,其中表示第j帧的隐层视频特征,d表示隐层视频特征维数;将隐层视频特征输入到循环神经网络中,获取融合时序信息的特征表示,之后利用均值池化操作获取视频级别的特征表示;将视频级本文档来自技高网
...

【技术保护点】
1.基于音视频的鲁棒情感建模系统,其特征在于,包括:音频数据扩增模块、音频数据增强模块、音频情感识别模块、视频数据扩增模块、视频数据增强模块、视频情感识别模块和决策层融合模块;/n训练过程:原始音频训练数据通过所述音频数据扩增模块进行数据扩增,得到带噪音频训练数据,应用所述带噪音频训练数据去训练音频数据增强模块,使所述音频数据增强模块具备剔除音频数据中的噪声信息的能力,剔除所述带噪音频训练数据中的噪声信息,得到增强语音训练数据,将所述增强语音训练数据输入所述音频情感识别模块,进行训练并识别音频训练情感状态;原始视频训练数据通过所述视频数据扩增模块进行数据扩增,得到带噪视频训练数据,应用所述带噪视频训练数据去训练视频数据增强模块,使所述视频数据增强模块具备剔除视频数据中的噪声信息的能力,剔除所述带噪视频训练数据中的噪声信息,得到增强视频训练数据,将所述增强视频训练数据输入所述视频情感识别模块,进行训练并识别视频训练情感状态;所述决策层融合模块将所述音频训练情感状态和所述视频训练情感状态融合,进行训练并输出情感识别预测结果;/n识别过程:将音频数据输入训练好的音频数据增强模块,剔除音频数据中的噪声信息,得到增强语音数据,将所述增强语音数据输入训练好的音频情感识别模块,得到音频情感状态;视频数据输入训练好的视频数据增强模块,剔除视频数据中的噪声信息,得到增强视频数据,将所述增强视频数据输入训练好的视频情感识别模块,得到视频情感状态;将所述音频情感状态和所述视频情感状态输入训练好的所述决策层融合模块进行特征融合,并输出情感识别结果。/n...

【技术特征摘要】
1.基于音视频的鲁棒情感建模系统,其特征在于,包括:音频数据扩增模块、音频数据增强模块、音频情感识别模块、视频数据扩增模块、视频数据增强模块、视频情感识别模块和决策层融合模块;
训练过程:原始音频训练数据通过所述音频数据扩增模块进行数据扩增,得到带噪音频训练数据,应用所述带噪音频训练数据去训练音频数据增强模块,使所述音频数据增强模块具备剔除音频数据中的噪声信息的能力,剔除所述带噪音频训练数据中的噪声信息,得到增强语音训练数据,将所述增强语音训练数据输入所述音频情感识别模块,进行训练并识别音频训练情感状态;原始视频训练数据通过所述视频数据扩增模块进行数据扩增,得到带噪视频训练数据,应用所述带噪视频训练数据去训练视频数据增强模块,使所述视频数据增强模块具备剔除视频数据中的噪声信息的能力,剔除所述带噪视频训练数据中的噪声信息,得到增强视频训练数据,将所述增强视频训练数据输入所述视频情感识别模块,进行训练并识别视频训练情感状态;所述决策层融合模块将所述音频训练情感状态和所述视频训练情感状态融合,进行训练并输出情感识别预测结果;
识别过程:将音频数据输入训练好的音频数据增强模块,剔除音频数据中的噪声信息,得到增强语音数据,将所述增强语音数据输入训练好的音频情感识别模块,得到音频情感状态;视频数据输入训练好的视频数据增强模块,剔除视频数据中的噪声信息,得到增强视频数据,将所述增强视频数据输入训练好的视频情感识别模块,得到视频情感状态;将所述音频情感状态和所述视频情感状态输入训练好的所述决策层融合模块进行特征融合,并输出情感识别结果。


2.根据权利要求1所述的基于音视频的鲁棒情感建模系统,其特征在于,所述音频数据扩增模块进行数据扩增的具体方法为:
根据设置的音频信噪比数值,将所述原始音频训练数据为Y与噪声数据逐一采样点相加,从而获取带噪音频训练数据,所述带噪音频训练数据为X。


3.根据权利要求2所述的基于音视频的鲁棒情感建模系统,其特征在于,所述音频数据增强模块剔除所述带噪音频训练数据中的噪声信息,得到增强语音训练数据的具体方法为:
所述带噪音频训练数据X被分解为T个长度为L的重叠段,X=[x1,x2,…xj…xT],其中;
利用一维卷积网络,将X转化为隐层音频特征表示,同时用激活函数ELU,增强模型的非线性建模能力,该过程表示为Conv(X),



其中,隐层音频特征,N表示隐层音频特征维数;
再利用一维卷积网络,预测隐层音频特征中掩蔽向量实现每帧的分离,



其中,表示掩蔽向量;
为了使所述掩蔽向量属于[0,1]之间,将掩蔽向量输入到sigmoid激活函数,得到激活后的掩蔽向量,


将激活后的掩蔽向量应用到隐层音频特征W上,得到增强后的隐层音频特征:



其中,表示增强后的隐层音频特征,表示对应位置相乘;
利用反卷积网络将重新映射到时域波形上,该过程表示为:


其中,表示增强后的语音波形,将所述重叠段相加在一起以生成增强语音训练数据。<...

【专利技术属性】
技术研发人员:陶建华连政刘斌孙立才
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1