当前位置: 首页 > 专利查询>济南大学专利>正文

面部图像采集方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:29134286 阅读:67 留言:0更新日期:2021-07-02 22:29
本发明专利技术公开了面部图像采集方法、装置、计算机设备及存储介质,包括:获取待处理的视频;对待处理视频的语音进行端点检测;从待处理视频中,根据端点检测结果,提取有声段语音对应的图像;对提取的图像进行面部表情检测,将图像和面部表情检测结果进行存储。依据情感表达时语音与面部表情之前的相关性,通过情感语音的端点检测算法,判断情感语音的活跃阶段,通过时间轴的映射,只采集具有活跃的情感语音同时间段的面部表情图像,以达到增强面部表情数据集的情感可去分性、减少冗余性的目的。情感语音端点检测算法采用的是一种新型的基于样本重建残差条件熵差值的端点检测算法。

【技术实现步骤摘要】
面部图像采集方法、装置、计算机设备及存储介质
本申请涉及面部图像采集
,特别是涉及面部图像采集方法、装置、计算机设备及存储介质。
技术介绍
本部分的陈述仅仅是提到了与本申请相关的
技术介绍
,并不必然构成现有技术。情感识别是情感计算领域内的研究热点,面部表情图像在情感识别研究中重要的数据源。在情感的表达方式中,情感语音与面部表情两种不同的模态信号之间很强的联系。虽然有时我们可以在沉默中捕捉情绪化的面部表情,或是在平静的面部表情下发出情绪化的声音,但在大多数情况下,人类的面部表情会随着说话者的情感语音而发生明显的变化。目前用于情感识别领域中的面部表情图像现有的采集方式是把情感视频样本中所有的图像都保存下来,这种无区分的面部表情图像采集方式忽视不同模态情感表达方式之间的联系,造成所采集的表情图像的情感可识别性低,导致后续情感识别研究中所训练与学习的模型性能不佳。另外,与频率相比,面部表情的变化相对较慢。研究表明,通常当情感没有发生改变时,一个面部表情会持续0.5~4秒的时间。尽管在某些情况下存在微表情快速变化的情况,但慢变的宏表情更为普遍。情感视频样本往往包含了一个完整的表情,因而样本的开头和结束均包含了无表情的阶段,在面部表情的慢变特性下,现有的无区分的面部表情采集方式会使具有情感的样本集合中包含大量的无表情的图像,造成数据集的冗余。
技术实现思路
为了解决现有技术的不足,本申请提供了面部表情图像采集面部图像采集方法、装置、计算机设备及存储介质;第一方面,本申请提供了面部表情图像采集方法;面部表情图像采集方法,包括:获取待处理的视频;对待处理视频的语音进行端点检测;从待处理视频中,根据端点检测结果,提取有声段语音对应的图像;对提取的图像进行面部表情检测,将图像和面部表情检测结果进行存储。第二方面,本申请提供了面部表情图像采集装置;面部表情图像采集装置,包括:获取模块,其被配置为:获取待处理的视频;端点检测模块,其被配置为:对待处理视频的语音进行端点检测;图像提取模块,其被配置为:从待处理视频中,根据端点检测结果,提取有声段语音对应的图像;存储模块,其被配置为:对提取的图像进行面部表情检测,将图像和面部表情检测结果进行存储。第三方面,本申请还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。第四方面,本申请还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。第五方面,本申请还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。与现有技术相比,本申请的有益效果是:(1)本专利技术将提出基于情感语音残差条件熵差值端点检测的面部表情图像采集装置。该系统依据情感表达时语音与面部表情之前的相关性,通过情感语音的端点检测算法,判断情感语音的活跃阶段,通过时间轴的映射,只采集具有活跃的情感语音同时间段的面部表情图像,以达到增强面部表情数据集的情感可去分性、减少冗余性的目的。情感语音端点检测算法采用的是一种新型的基于样本重建残差条件熵差值的端点检测算法。(2)采用压缩感知理论(CompressedSensing,CS)处理情感视频中的情感语音分量,使用离散余弦变换完成情感语音的稀疏性变换,以高斯随机矩阵为观测矩阵,以正交匹配追踪算法(OMP)算法为重建算法,提出情感语音压缩感知重建的预测残差条件熵参数;(3)实现有效的、鲁棒的基于残差条件熵差值的情感语音端点检测方法。该方法可以在经压缩感知处理的语音样本重建过程中,计算正交匹配追踪算法(OMP)算法迭代过程中预测残差与上一次迭代的信号估计值之间的条件熵,根据迭代前后的残差条件熵差值完成情感语音的端点检测。由于该端点检测方法是建立在压缩感知重建算法之上的,而任何情况下都不具备稀疏性的噪声无法从观测值中重建,因而本算法对噪声具有较好的鲁棒性。(4)将情感语音的端点检测结果运用于情感视频样本中面部图像的采集,抛弃无声段的面部表情图像以尽可能保证所获取的面部表情图像具有较好的情感可识别性。存储筛选后的面部表情图像构建有效的面部表情图像数据集。(5)本专利技术考虑了情感表达时不同模态信号之间的关系,通过情感语音的活跃性判断去采集具有更好的情感可区分性的图像,减少面部表情数据集合的冗余性,使面部表情图像的特征学习更有效,有助于情感识别模型性能的提高;(6)情感语音有效检测是通过一种新型的残差条件熵差值端点检测方法实现的,该端点检测算法具有抗噪性能。若情感样本本身是经压缩感知处理后再传输的情况,该算法可以在在重建样本的同时完成情感语音的端点检测,具有计算量小,节省计算资源的优势;(7)本专利技术会根据情感视频样本产生有效的面部表情图像数据集。本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为第一个实施例的工作原理流程图;图2(a)为第一个实施例的采用OMP算法对某语音样本重建过程中语音时域波形;图2(b)为第一个实施例的最后一次迭代与第一次迭代的残差条件熵差值;图3为第一个实施例的整体方法流程图。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。实施例一本实施例提供了面部表情图像采集方法;如图1和图3所示,面部表情图像采集方法,包括:S1:获取待处理的视频;S2:对待处理视频的语音进行端点检测;S3:从待处理视频中,根据端点检测结果,提取有声段语音对应的图像;S4:对提取的图像进行面部表情检测,将图像和面部表情本文档来自技高网
...

【技术保护点】
1.面部表情图像采集方法,其特征是,包括:/n获取待处理的视频;/n对待处理视频的语音进行端点检测;/n从待处理视频中,根据端点检测结果,提取有声段语音对应的图像;/n对提取的图像进行面部表情检测,将图像和面部表情检测结果进行存储。/n

【技术特征摘要】
1.面部表情图像采集方法,其特征是,包括:
获取待处理的视频;
对待处理视频的语音进行端点检测;
从待处理视频中,根据端点检测结果,提取有声段语音对应的图像;
对提取的图像进行面部表情检测,将图像和面部表情检测结果进行存储。


2.如权利要求1所述的面部表情图像采集方法,其特征是,对待处理视频的语音进行端点检测;具体步骤包括:
对待处理视频的语音进行稀疏转换处理;
对稀疏转换处理后的语音信号,随机生成高斯随机矩阵;将高斯随机矩阵作为语音信号的观测矩阵;
基于观测矩阵,采用正交匹配追踪算法OMP进行样本重建,得到端点检测结果。


3.如权利要求2所述的面部表情图像采集方法,其特征是,基于观测矩阵,采用正交匹配追踪算法OMP进行样本重建,得到端点检测结果;具体包括:
(1):根据观测矩阵,得到每一帧的语音观测值;
(2):首次运行时,残差设定为语音观测值,计算残差与传感矩阵的相关系数;
非首次运行时,计算上一次迭代估计值与语音观测值的残差,和残差与传感矩阵的相关系数;
(3):在传感矩阵中,寻找相关系数最大原子,利用相关系数最大原子更新信号重建的支撑集;
(4):基于支撑集,使用最小二乘法对观测值进行逼近,得到的信号的估计值;
(5):更新残差,计算残差条件熵;
(6):判断是否达到稀疏度条件,如果是,就返回(2);如果否,就计算第一次迭代与最后一次迭代的残差条件熵差值;
(7):判断第一次迭代与最后一次迭代的残差条件熵差值是否高于设定阈值,如果高于设定阈值,则认为当前帧语音为有声段;如果低于设定阈值,则认为当前帧语音为无声段,获得当前帧语音的端点检测结果;
(8):基于各帧端点检测结果,获得待处理视频的语音的有声音片段。


4.如权利要求3所述的面部表情图像采集方法,其特征是,非首次运行时,计算上一次迭代估计值与语音观测值的残差,和残差与传感矩阵的相关系数;具体包括:
第t次迭代所获得的重建残差rt的计算公式为:



其中,At是OMP算法第t次迭代过程中由传感矩阵的原子构成的支撑集,为第t次迭代过程中最小二乘法计算的估计值,y是观测值。


5.如权利要求3所述的面部表情图像采集方法,其特征是,更新残差,计算残...

【专利技术属性】
技术研发人员:姜晓庆陈贞翔杨倩郑永强
申请(专利权)人:济南大学山东思正信息科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1