基于投影极速学习机的唇语识别方法和装置制造方法及图纸

技术编号:11555454 阅读:228 留言:0更新日期:2015-06-04 04:13
本发明专利技术实施例提供一种基于投影极速学习机的唇语识别方法和装置,该方法包括:获取投影极速学习机PELM对应的训练样本和测试样本,训练样本和测试样本均包括n条视频,n为大于1的正整数;其中,训练样本包括训练样本中的视频对应的类别标识;该类别标识用于标识n条视频中的唇语动作;根据训练样本对PELM进行训练,确定PELM中输入层的权重矩阵W和输出层的权重矩阵β,得到训练后的PELM;根据测试样本和训练后的PELM,识别测试样本的类别标识。本发明专利技术实施例提供的基于投影极速学习机的唇语识别方法和装置可以提高唇语识别的精确度。

【技术实现步骤摘要】
基于投影极速学习机的唇语识别方法和装置
本专利技术实施例涉及通信技术,尤其涉及一种基于投影极速学习机的唇语识别方法和装置。
技术介绍
唇语识别技术是人机交互(Human–ComputerInteraction;简称:HCI)中的一个很重要的应用,它在自动语言识别(AutomaticSpeechRecognition;简称:ASR)系统中起着重要的作用。在现有技术中,实现唇语识别功能通常需要特征提取模块和识别模块协调合作,其中,对于特征提取模块,一般采用以下两种解决方案:(1)基于模型的方法是对与语音有密切关系的唇部轮廓,用若干参数表示,并将部分参数的线性组合作为输入特征;(2)基于像素的低级语义特征提取方法是从信号处理的角度,将图像平面当作是二维信号,利用信号处理的方法对图像信号进行某种变换,将变换后的信号当作是图像的特征输出。对于识别模块,一般采用以下的解决方案:(1)基于神经网络的误差反向传播(ErrorBackPropagation,简称:BP)算法、支持向量机(SupportVectorMachine;简称:SVM)分类法是将待识别的唇部图像的特征向量输入到已经训练完毕的BP网络,观察输出层的各个神经元的输出,并将输出层的各个神经元的输出的值最大的那个输出神经元所对应的训练样本与之匹配;(2)基于双重随机过程的隐马尔科夫模型(HiddenMarkovModel,简称:HMM)的方法是将唇读过程就可以看作是一个双重随机过程,每个唇动观察值与唇读发音序列之间的对应关系是一个随机过程,即观察者只能看到观察值,而看不到唇读发音,只能由一个随机过程去确定其存在与特性,再将唇读过程认为在每一段非常短的时间内,唇读信号都是线性的,可以用一个线性的模型参数来表示,然后用一阶的马尔科夫过程描述唇读信号的选择过程。然而,现有技术中的特征提取方案在环境要求上比较严格,在进行模型提取中过分依赖于唇部区域的光照条件,导致包含的唇动信息不完全,识别的精确度低,而唇语识别技术解决方案由于识别结果依赖模型的假设,若假设不合理,也会导致识别的精确度较低的问题。
技术实现思路
本专利技术实施例提供一种基于投影极速学习机的唇语识别方法和装置,以提高识别的准确性。第一方面,本专利技术实施例提供一种基于投影极速学习机的唇语识别方法,包括:获取所述投影极速学习机PELM对应的训练样本和测试样本,所述训练样本和所述测试样本均包括n条视频,n为大于1的正整数;其中,所述训练样本中还包括所述训练样本的视频对应的类别标识;所述类别标识用于标识所述n条视频中的唇语动作;根据所述训练样本对所述PELM进行训练,确定所述PELM中输入层的权重矩阵W和输出层的权重矩阵β,得到训练后的PELM;根据所述测试样本和所述训练后的PELM,识别所述测试样本的类别标识。结合第一方面,在第一方面的第一种可能的实现方式中,所述获取所述投影极速学习机PELM对应的训练样本和测试样本,具体包括:采集所述n条视频中的每条视频所对应的至少一个视频帧,获取每个所述视频帧的局部二值模式LBP特征向量vL和梯度方向直方图HOG特征向量vH;根据公式将所述LBP特征向量vL和所述HOG特征向量vH进行对齐融合,获得融合特征向量v,其中,为融合系数,的取值大于等于0且小于等于1;将所述融合特征向量v进行降维处理,得到降维特征向量x;根据所述降维特征向量x,计算获取所述每条视频的协方差矩阵,得到视频特征向量y,并将所述n条视频中每条视频的所述视频特征向量y的集合Y={y1,y2...yi...yn}作为所述PELM对应的训练样本和测试样本;其中,所述n为视频的条数,所述yi为第i条视频的视频特征向量。结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述获取每个所述视频帧的局部二值模式LBP特征向量vL,具体包括:将所述视频帧划分成至少两个单元格,并确定各单元格中的每个像素的LBP值;根据所述各单元格中的每个像素的LBP值,计算所述各单元格的直方图,并对所述各单元格的直方图分别进行归一化处理,获得所述各单元格的特征向量;将所述各单元格的特征向量进行连接,获得每个所述视频帧的LBP特征向量vL,所述LBP特征向量vL的各分量的取值大于等于0且小于等于1。结合第一方面的第一种可能的实现方式,在第一方面的第三种可能的实现方式中,所述获取每个所述视频帧的梯度方向直方图HOG特征向量vH,具体包括:将所述视频帧的图像转换为灰度图像,并通过Gamma校正法对所述灰度图像进行处理,获得处理后的图像;根据公式计算所述处理后的图像中的坐标(x,y)处的像素点的梯度方向,其中,α(x,y)为所述处理后的图像中坐标(x,y)处的像素点的梯度方向,Gx(x,y)为所述处理后的图像中坐标(x,y)处的像素点的水平梯度值,Gy(x,y)为所述处理后的图像中坐标(x,y)处的像素点的垂直梯度值,Gx(x,y)=H(x+1,y)-H(x-1,y),Gy(x,y)=H(x,y+1)-H(x,y-1),H(x,y)为所述处理后的图像中坐标(x,y)处的像素点的像素值;根据所述梯度方向,获取每个所述视频帧的HOG特征向量vH,所述HOG特征向量vH的各分量的取值为大于等于0且小于等于1。结合第一方面、第一方面的第一种至第一方面的第三种任一种可能的实现方式,在第一方面的第四种可能的实现方式中,所述根据所述训练样本对所述PELM进行训练,确定所述PELM中输入层的权重矩阵W和输出层的权重矩阵β,具体包括:提取所述训练样本中各视频的视频特征向量,得到所述训练样本中所有视频的视频特征矩阵其中,n表示训练样本中视频的数目,m表示视频特征向量的维度;根据公式[U,S,VT]=svd(P)对所述视频特征向量集合进行奇异值分解,得到Vk,并根据公式W=Vk确定所述PELM中输入层的权重矩阵W;其中,所述S为奇异值矩阵,奇异值沿左对角线降序排列,U和V分别为与S对应的左、右奇异矩阵;根据S、U和V,采用公式H=g(PV)=g(US)计算获取输出矩阵H,其中,g(.)为激励函数;获取类别标识矩阵T,根据所述类别标识矩阵T和公式β=H+T,计算得到所述PELM中输出层权重矩阵β,其中,所述H+为H的伪逆矩阵,类别标识矩阵T为所述训练样本中的类别标识向量的集合。第二方面,本专利技术实施例提供一种基于投影极速学习机的唇语识别装置,包括:获取模块,用于获取所述投影极速学习机PELM对应的训练样本和测试样本,所述训练样本和所述测试样本均包括n条视频,n为大于1的正整数;其中,所述训练样本中还包括所述训练样本的视频对应的类别标识;所述类别标识用于标识所述n条视频中的唇语动作;处理模块,用于根据所述训练样本对所述PELM进行训练,确定所述PELM中输入层的权重矩阵W和输出层的权重矩阵β,得到训练后的PELM;识别模块,用于根据所述测试样本和所述训练后的PELM,识别所述测试样本的类别标识。结合第二方面,在第二方面的第一种可能的实现方式中,所述获取模块包括:获取单元,用于采集所述n条视频中的每条视频所对应的至少一个视频帧,获取每个所述视频帧的局部二值模式LBP特征向量vL和梯度方向直方图HOG特征向量vH;所述获取单元,还用于根据公式将所述L本文档来自技高网
...
基于投影极速学习机的唇语识别方法和装置

【技术保护点】
一种基于投影极速学习机的唇语识别方法,其特征在于,包括:获取所述投影极速学习机PELM对应的训练样本和测试样本,所述训练样本和所述测试样本均包括n条视频,n为大于1的正整数;其中,所述训练样本中还包括所述训练样本的视频对应的类别标识;所述类别标识用于标识所述n条视频中的唇语动作;根据所述训练样本对所述PELM进行训练,确定所述PELM中输入层的权重矩阵W和输出层的权重矩阵β,得到训练后的PELM;根据所述测试样本和所述训练后的PELM,识别所述测试样本的类别标识。

【技术特征摘要】
1.一种基于投影极速学习机的唇语识别方法,其特征在于,包括:获取所述投影极速学习机PELM对应的训练样本和测试样本,所述训练样本和所述测试样本均包括n条视频,n为大于1的正整数;其中,所述训练样本中还包括所述训练样本的视频对应的类别标识;所述类别标识用于标识所述n条视频中的唇语动作;根据所述训练样本对所述PELM进行训练,确定所述PELM中输入层的权重矩阵W和输出层的权重矩阵β,得到训练后的PELM;根据所述测试样本和所述训练后的PELM,识别所述测试样本的类别标识;所述根据所述训练样本对所述PELM进行训练,确定所述PELM中输入层的权重矩阵W和输出层的权重矩阵β,具体包括:提取所述训练样本中各视频的视频特征向量,得到所述训练样本中所有视频的视频特征矩阵Pn*m,其中,n表示训练样本中视频的数目,m表示视频特征向量的维度;根据公式[U,S,VT]=svd(P)对所述视频特征向量集合Pn*m进行奇异值分解,得到Vk,并根据公式W=Vk确定所述PELM中输入层的权重矩阵W;其中,所述S为奇异值矩阵,奇异值沿左对角线降序排列,U和V分别为与S对应的左、右奇异矩阵;根据Pn*m、S、U和V,采用公式H=g(PV)=g(US)计算获取输出矩阵H,其中,g(US)与g(PV)为激励函数;获取类别标识矩阵T,根据所述类别标识矩阵T和公式β=H+T,计算得到所述PELM中输出层权重矩阵β,其中,所述H+为H的伪逆矩阵,类别标识矩阵T为所述训练样本中的类别标识向量的集合。2.根据权利要求1所述的方法,其特征在于,所述获取所述投影极速学习机PELM对应的训练样本和测试样本,具体包括:采集所述n条视频中的每条视频所对应的至少一个视频帧,获取每个所述视频帧的局部二值模式LBP特征向量vL和梯度方向直方图HOG特征向量vH;根据公式将所述LBP特征向量vL和所述HOG特征向量vH进行对齐融合,获得融合特征向量v,其中,为融合系数,的取值大于等于0且小于等于1;将所述融合特征向量v进行降维处理,得到降维特征向量x;根据所述降维特征向量x,计算获取所述每条视频的协方差矩阵,得到视频特征向量y,并将所述n条视频中每条视频的所述视频特征向量y的集合Y={y1,y2...yi...yn}作为所述PELM对应的训练样本和测试样本;其中,所述n为视频的条数,所述yi为第i条视频的视频特征向量。3.根据权利要求2所述的方法,其特征在于,所述获取每个所述视频帧的局部二值模式LBP特征向量vL,具体包括:将所述视频帧划分成至少两个单元格,并确定各单元格中的每个像素的LBP值;根据所述各单元格中的每个像素的LBP值,计算所述各单元格的直方图,并对所述各单元格的直方图分别进行归一化处理,获得所述各单元格的特征向量;将所述各单元格的特征向量进行连接,获得每个所述视频帧的LBP特征向量vL,所述LBP特征向量vL的各分量的取值大于等于0且小于等于1。4.根据权利要求2所述的方法,其特征在于,所述获取每个所述视频帧的梯度方向直方图HOG特征向量vH,具体包括:将所述视频帧的图像转换为灰度图像,并通过Gamma校正法对所述灰度图像进行处理,获得处理后的图像;根据公式计算所述处理后的图像中的坐标(x,y)处的像素点的梯度方向,其中,α(x,y)为所述处理后的图像中坐标(x,y)处的像素点的梯度方向,Gx(x,y)为所述处理后的图像中坐标(x,y)处的像素点的水平梯度值,Gy(x,y)为所述处理后的图像中坐标(x,y)处的像素点的垂直梯度值,Gx(x,y)=H(x+1,y)-H(x-1,y),Gy(x,y)=H(x,y+1)-H(x,y-1),H(x,y)为所述处理后的图像中坐标(x,y)处的像素点的像素值;根据所述梯度方向,获取每个所述视频帧的HOG特征向量vH,所述HOG特征向量vH的各...

【专利技术属性】
技术研发人员:张新曼陈之琦左坤隆
申请(专利权)人:华为技术有限公司西安交通大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1