使用机器学习对眼睛图像进行校正的方法以及机器学习的方法技术

技术编号:17166250 阅读:36 留言:0更新日期:2018-02-01 23:25
本发明专利技术涉及自动化和计算技术,即,涉及处理图像和视频数据的领域,即,涉及以目光重定向为目的对视频聊天、视频会议中的对话者的眼睛图像进行校正。一种校正眼睛图像的方法,其中该方法对人的脸至少获得一帧,于是确定这个人的眼睛在图像中的位置,并且形成紧密地包围眼睛的两个矩形区域,并且最后将眼睛区域中的每个像素的颜色分量取代成根据机器学习预测器的预测移位的像素的颜色分量。本发明专利技术的技术效果是以目光重定向为目的的眼睛图像的校正精度提高,其中处理视频图像的过程所需的资源减少。

The method of using machine learning to correct eye images and the method of machine learning

The invention relates to the field of automation and computation, that is, the field of processing image and video data, that is, to correct the eye image of the interlocutor in video chat and video conference for the purpose of redirection. A method of correcting the eye image, the method of human face at least one frame, then determine the human eye position in the image, and the formation of two rectangular areas closely surrounded by the eyes, and the color values of each pixel in the eye region replaced according to the pixel prediction of machine learning. The shift of the color component. The technical effect of the invention is that the correction accuracy of the eye image is improved with the aim of eye redirection, and the resources needed to process the video image are reduced.

【技术实现步骤摘要】
【国外来华专利技术】使用机器学习对眼睛图像进行校正的方法以及机器学习的方法
本组专利技术涉及自动化和计算技术,一般地涉及处理图像和视频数据的领域,即,涉及校正视频聊天、视频会议的过程中的对话者的眼睛的图像。
技术介绍
目前,商业伙伴之间的视频会议以及在国外给亲戚打视频电话变为日常发生的事。特定软件和硬件的选择被与各方之间缺少视觉接触有关的复杂性所阻碍。该问题长时间吸引了研究者和工程师,并且它是由捕捉视频图像的摄像头的位置和脸在屏幕上的图像之间的不可避免的差异引起的。最成功的目前已知的解决方案需要额外的设备,除了网络摄像头之外,比如:半透明镜/屏幕、立体摄像头或RGB-D摄像头。在现有技术中已知申请人RamotAtTel-AvivUniversityLtd.的于2011年12月1日公布的专利申请WO2011148366“用于校正目光偏移的方法和系统(Methodandsystemforcorrectinggazeoffset)”。该方法包括以下步骤:对图像进行处理以便提取至少一个眼睛在该图像上的位置;对该图像进行处理以用取代数据取代与每个眼睛的每个位置相关联的影像数据;并且将所述校正后的图像发送到显示装置。该给定方法的缺点是,首先,在视频会议开始之前必需对视频会议的每个参与者预先记录朝向摄像头的目光的一组影像数据,第二,在视频会议期间目光方向的不自然固定。从现有技术还已知作者D.Giger、J.C.Bazin、aC.Kuster、T.Popa、M.Gross发表于ProceedingsofIEEEICME2014(中国,成都,2014年7月14-18日)中的文章“用单个网络摄像头进行目光校正(GazeCorrectionwithaSingleWebcam)”。该指定方法包括:确定脸部特征点并且根据确定的脸部特征来匹配人头的几何模型,将图像投影到调整后的模型的纹理,将模型旋转到某个角度并且将转动的模型投影在图像中,匹配模型图像和源图像。该给定方法的限制是:整体脸比例变形,必需预先记录头部的被屏蔽部分(例如,下巴)的纹理,并且需要图形加速器来实现实时系统操作所必需的生产率。
技术实现思路
给定的一组专利技术的目的是在视频会议期间使用仅包括一个视频记录工具(视频摄像头)的装置来校正对话者的眼睛的图像。给定专利技术的技术效果是,眼睛图像的校正精度提高,同时减少了处理视频帧的过程所需的资源。该技术效果是由于(用于校正图像中的目光方位的)预测器的机器学习方法而实现的,其中该方法首先获得多个图像对,在每对中包含同一个人的图像,但是多个图像对的不同之处仅在于目光方向,然后确定眼睛在每个图像对中的位置,接着学习预测器,生成调整位移矢量场,以使得对于每个图像对,将该对中的第一图像的每个像素中的颜色分量取代成该对中的第一图像的根据预测器的预测移位的另一像素的颜色分量,得到尽可能地类似于该对中的第二图像的图像,以及将预测器作为结果保存。位移场的预测器可以采取以下形式:-单层或多层神经网络。-至少一个决策树或决策树集合。-生成仅取决于涉及眼睛的特性点的像素位置的固定位移矢量的预测器。-机器学习中已知的任何其他形式的预测器。使图像对中的眼睛区域为预设像素尺度。预测器被存储在信息介质中,所述信息介质包括硬盘或固态驱动器、或闪存、或光学盘、或混合驱动器、或随机存取存储器(RAM)、或远程计算机系统、或远程数据存储。此外,指定的技术效果是用用于校正眼睛在眼睛图像中的位置的方法来实现的,其中该方法首先加载预测器,然后对人的脸至少获得一个帧,然后确定这个人的眼睛在图像中的位置并且形成紧密包围眼睛的两个矩形区域,并且结果将眼睛区域中的每个像素的颜色分量取代成根据预测器的预测移位的像素的颜色分量。预测器是根据上述标准训练的(以对于每个训练对中的第二图像最小化实际图像和获得的图像之间的差异)。预测器从信息介质被加载,所述信息介质可以包括硬盘或固态驱动器、或闪存、或光学盘、或混合驱动器、或随机存取存储器(RAM)、或远程计算机系统、或远程数据存储。预测器是单层或多层神经网络。预测器是至少一个决策树或决策树集合。在训练应用于眼睛区域中的每个像素的预测器之后,应满足以下要求:a.当被应用于像素时,预测器应生成调整位移矢量,该调整位移矢量用于用由该给定位移矢量确定的另一像素的颜色分量取代给定像素的颜色分量;b.预测器在多个图像对上被训练,其中一对中的一个图像包含人脸在眼睛被调整之前的初始图像,并且另一图像包含眼睛凝视不同方向的人的图像。预测器预测的位移矢量根据调整后的图像中的眼睛的大小与训练图像的比率而被缩放。附图说明图1示出对话者的眼睛图像的实时校正。左侧是目光朝向摄像头下面十度的输入帧。中间是目光朝向比左侧帧中高出十度的输入帧(在这种情况下,目光朝向摄像头)。右侧帧是本专利技术的效果的实例,在该实例中,图像中的对话者的目光方向被相对于输入图像(在左侧示出)向上调整十度。图2示出预测器是决策树的情况下的像素处理。图3示出用于校正眼睛图像的预测器的机器学习方法的框图。图4示出用于校正眼睛图像的方法的框图。具体实施方式下面将描述本专利技术的详细公开所需的概念和定义。预测器是用于与给定的某些对象(例如,类别标签、标量或矢量值)的样本进行比较的程序或硬件实现,该程序或硬件实现取决于借助于针对训练组的机器学习过程而被训练的相当多的参数。决策树、神经网络、决策树集合可以被作为预测器架构的实施例给出。根据预测器,参数可以包括例如神经网络的权重、决策树中的阈值等。预测器的内部状态是预测器的影响其预测的所有参数值的集合。决策树是以分层连续结构的表示规则的方法,其中唯一节点(树叶)针对每个对象给予解决方案。颜色分量是定义用于描述颜色表示的颜色模型的数字元组中的三个或四个值。存在许多各种类型的颜色模型,但是计算机图形作为规则使用以下颜色空间:CMY、CMYK、CMYK256、RGB、HSB、HLS、L*a*b、YIQ、Grayscale(灰色程度)。例如,在最知名的颜色模型RGB中,元组包含三个颜色分量。例如,(255,64,23)是包含强红色分量、较小量的绿色以及甚至更小量的蓝色的颜色。给定专利技术可以在系统形式的计算机上实现,或者在包含用于执行前述方法的指令的机器可读介质上实现。用于校正图像中的目光方位的预测器的机器学习方法包括以下步骤:得到多个图像对,在每对中包含同一个人的图像,这些图像对的不同之处仅在于目光方向;多个图像对302(图3)来自于视频摄像头301(图3)。为了提供机器学习的可能性,需要满足以下要求的预定图像对集合(Ij,ρ):每个图像对表示同一个人的头部位置相同并且可视化条件相等的脸,不同之处仅在于这个人的目光方向(图1)。目光方向的差异在所有学习对中都是相等的。为所述方法的正确操作,目光方向的给定差异应为5度至20度。针对每个图像对限定眼睛的位置;受控梯度下降算法(其描述可以在参考文章[1]中找到)例如可以被用来确定眼睛的位置。基于决策树的连续应用的方法也可以被使用。实现指定方法的各种替换方案在文章[2]和[3]中被描述。此外,使图像为相等大小。对于与右眼匹配的每个图像对,聚焦于与图像Ij中的这个眼睛匹配的点(f1,g1)、(f2,g2)…(fN,gN)上。在文章[1]中,点数N为6个本文档来自技高网
...
使用机器学习对眼睛图像进行校正的方法以及机器学习的方法

【技术保护点】
一种用于校正图像中的目光方位的预测器的机器学习方法,其特征在于:·获得多个图像对,在每对中包含同一个人的图像,所述多个图像对的不同之处仅在于目光方向;·确定眼睛在每个图像对中的位置;·学习所述预测器,生成调整位移矢量场,以使得对于每个图像对,将所述对中的第一图像的每个像素中的颜色分量取代成所述对中的所述第一图像的根据所述预测器的预测移位的另一像素的颜色分量,得到尽可能地类似于所述对中的第二图像的图像;·保存所述预测器。

【技术特征摘要】
【国外来华专利技术】2015.03.20 RU 20151098681.一种用于校正图像中的目光方位的预测器的机器学习方法,其特征在于:·获得多个图像对,在每对中包含同一个人的图像,所述多个图像对的不同之处仅在于目光方向;·确定眼睛在每个图像对中的位置;·学习所述预测器,生成调整位移矢量场,以使得对于每个图像对,将所述对中的第一图像的每个像素中的颜色分量取代成所述对中的所述第一图像的根据所述预测器的预测移位的另一像素的颜色分量,得到尽可能地类似于所述对中的第二图像的图像;·保存所述预测器。2.如权利要求1所述的方法,其中所述预测器是单层或多层神经网络。3.如权利要求1所述的方法,其中所述预测器是至少一个决策树或决策树集合。4.如权利要求1所述的方法,其中所述预测器生成仅取决于涉及眼睛的特性点的像素位置的固定位移矢量。5.如权利要求1所述的方法,其中使所述图像对中的眼睛区域为预设像素尺度。6.如权利要求1所述的方法,其中所述预测器被存储在信息介质中,所述信息介质包括硬盘或固态驱动器、或闪存、或光学盘、或混合驱动器、或随机存取存储器(RAM)、或远程计算机系统、或远程数据存储。7.一种用于校正眼睛图像的方法,其特征在于:·加载预测器;·对人的脸至少...

【专利技术属性】
技术研发人员:D·S·柯诺南科V·S·兰皮特斯基
申请(专利权)人:高等教育自主非营利组织斯科尔科沃科学和技术研究所
类型:发明
国别省市:俄罗斯,RU

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1