一种基于栈式自编码的头部姿态估计方法技术

技术编号：15219378 阅读：120 留言：0更新日期：2017-04-26 16:22

该发明专利技术公开了一种基于栈式自编码的头部姿态估计方法，该发明专利技术属于计算机视觉技术领域。主要思想是提出利用栈式自编码器，建立头部深度图像和姿态之间的非线性映射关系。本发明专利技术首先采集大量头部深度图像作为训练样本，同时提取梯度方向直方图特征，然后记录对应的头部姿态。之后，设计栈式自编码器，在训练样本和标定姿态数据上，利用梯度下降法学习栈式自编码器的各层参数。最后，对于待估计姿态的头部图像，提取梯度方向直方图特征，根据上述已学习的栈式自编码器估计头部姿态。与传统的头部姿态估计方法相比，该方法能够模拟输入特征到头部姿态的复杂映射关系，有效的克服了浅层模型估计准确性不高的问题。

A self encoding head pose estimation method based on stack

The invention discloses a self encoding head pose estimation method based on the stack, the invention belongs to the technical field of computer vision. The main idea is put forward using the stack from the encoder, the nonlinear mapping between a head depth image and attitude. The invention collects a large number of head depth images as training samples, and extracts the histogram feature of the gradient direction, and then records the corresponding head posture. After the design of stack from encoder in the training sample and calibration of attitude data, parameters of each layer by using the gradient descent method to learn from the encoder stack. Finally, to estimate the head pose image extraction, histogram of gradient, according to the above study has stacked the auto encoder head pose estimation. Compared with the traditional head pose estimation method, the proposed method can simulate the complex mapping relationship between input features and head pose, and effectively overcome the problem that the estimation accuracy of the shallow model is not high.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉
，涉及图像中的头部姿态估计问题。
技术介绍
头部姿态估计(如图1)是指根据头部的数字图像，利用机器学习和计算机视觉的方法准确快速地估计该图像中对应头部的偏转角度，也称为头部姿态。它是近年来计算机视觉和机器学习领域研究的热门问题，在人机交互、安全驾驶和关注度分析等方面都有非常广泛的应用。例如：在人机交互领域，头部的偏转角度可以用于控制电脑或机器显示的方向和位置；在安全驾驶领域，头部姿态可用于辅助视线估计，从而提示驾驶员正确的视线方向。近年来，头部姿态估计在流形学习和子空间理论发展的基础上，有了进一步的发展。现有头部姿态估计方法可以分为三个大的类别：1.基于容貌的方法，2.基于分类的方法和3.基于回归的方法。基于容貌的头部姿态估计方法的基本原理是将输入的头部图像与数据库中已有的图像进行一一比对，并将找到的最相似的图像所对应的角度作为待估计图像的头部姿态(即角度)。该类方法最大的缺陷在于其只能输出离散的头部偏转角度，并且由于需要与所有已有图像进行依次比对，运算量巨大。参见文献：D.J.Beymer,FaceRecognitionunderVaryingPose,IEEEConferenceonComputerVisionandPatternRecognition,pp.756-761,1994和J.Sherrah,S.Gong,andE.J.Ong,FaceDistributionsinSimilaritySpaceunderVaryingHeadposeImageandVisionComputing,vol.19,no.12,...

【技术保护点】
一种基于栈式自编码的头部姿态估计方法，包括以下步骤：步骤1：采集N幅包含不同姿态的头部深度图像，并根据采集每幅图像时摄像头的位置，记录N幅图像各自对应的头部俯仰、偏航和旋转角度，得到头部姿态向量的第1维表示俯仰角，第2维表示倾斜角，第3维表示旋转角，下标n表示第n幅图像；步骤2：检测步骤1采集到图像的头部区域，并提取该头部区域的梯度方向直方图特征，组成梯度方向直方图特征向量步骤3：对步骤2中得到梯度方向直方图特征向量在每一维进行数值归一化，将数值范围压缩到[0,1]区间，将姿态的范围归一化到[0,1]区间；所述步骤3的具体方法为：将数值范围压缩到[0,1]区间，具体做法为：对于第n个样本，其第i维的数据归一化公式xni=x~ni-min(x~ni,n=1,...,N)max(x~ni,n=1,...,N)-min(x~ni,n=1,...,N)]]>为所有样本第i维上的最小值，为所有样本第i维上最大值；将姿态的范围归一化到[0,1]区间，具体做法为：ynj=y~nj+180360]]>其中表示第n个样本的标定姿态第j维的分量，ynj表示该维归一化后的数值；步骤4：构建栈式自编码器对应的...

【技术特征摘要】
1.一种基于栈式自编码的头部姿态估计方法，包括以下步骤：步骤1：采集N幅包含不同姿态的头部深度图像，并根据采集每幅图像时摄像头的位置，记录N幅图像各自对应的头部俯仰、偏航和旋转角度，得到头部姿态向量的第1维表示俯仰角，第2维表示倾斜角，第3维表示旋转角，下标n表示第n幅图像；步骤2：检测步骤1采集到图像的头部区域，并提取该头部区域的梯度方向直方图特征，组成梯度方向直方图特征向量步骤3：对步骤2中得到梯度方向直方图特征向量在每一维进行数值归一化，将数值范围压缩到[0,1]区间，将姿态的范围归一化到[0,1]区间；所述步骤3的具体方法为：将数值范围压缩到[0,1]区间，具体做法为：对于第n个样本，其第i维的数据归一化公式xni=x~ni-min(x~ni,n=1,...,N)max(x~ni,n=1,...,N)-min(x~ni,n=1,...,N)]]>为所有样本第i维上的最小值，为所有样本第i维上最大值；将姿态的范围归一化到[0,1]区间，具体做法为：ynj=y~nj+180360]]>其中表示第n个样本的标定姿态第j维的分量，ynj表示该维归一化后的数值；步骤4：构建栈式自编码器对应的映射函数，设输入为其中s1表示特征的维数,本专利使用的栈式自编码共有5层；第1层为输入层，输入层的输入为梯度方向直方图特征向量，第1层节点的个数为梯度方向直方图特征向量的维数，第2-4层为隐单元层，第5层为输出层；任意一层l的任意一个节点单元用符号表示，上标(l)表示第l层，其计算公式为：ai(l+1)=σ(wi1(l)a1(l)+wi2(l)a2(l)...+wisl(l)asl(l)+bi(l)),i=1,...,sl+1]]>表示连接神经网络第l层的所有sl个单元和第l+1层的第i个单元之间的参数；具体讲，表示连接第l层的第j个单元和第l+1层第i个单元之间的参数，为与第l+1层的隐单元i相关的偏差项，sl+1为第l+1层隐单元的数目；σ(·)为S形函数，其表达式为若定义则上式也可以表示为：ai(l+1)=σ(zi(l+1)),i=1,...,sl+1]]>改栈式自编码器的输出层有3个单元，用符号表示，用以表示估计头部姿态的俯仰角、倾斜角和旋转角；整个栈式自编码模型用函数hw，b(x)表示当输入为x时的估计头部姿态，即：步骤5：当输入为x时，假设对应的标定姿态为y,栈式自编码对姿态估计值和标定姿态之间的误差为：同时，为了表示输出层每一个单元对误差贡献的大小定义误差项δi(5)=∂∂zi(5)12||y-hw,b(x)||2=-(yi-ai(5))σ′(zi(5))]]>表示的导数，利用后向传播算法，计算l＝2，3，4层时每一个节点j对应的误差项；δj(l)=(Σk=1sl+1wjk(l)δk(l+1))σ′(zj(l))]]>最后得到下面两个估计误差关于和的偏导数：∂∂wij(l)12||y-hw,b(x)||2=ai(l)δj(l+1)]]>∂∂bi(l)12||y-hw,b(x)||2=δi(l+1)]]>步骤6：利用步骤4中的栈式自编码模型，将步骤3中归一化的梯度方向直方图特征xn作为栈式自编码的输入，对应的标定头部姿态值为[y1，...，yN]，建立栈式...

【专利技术属性】
技术研发人员：潘力立，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人