用于训练具有构数据的生成式对抗网络的方法和系统技术方案

技术编号:32472475 阅读:21 留言:0更新日期:2022-03-02 09:33
本发明专利技术包括用于训练神经网络以执行对数字数据的处理的方法和系统。该输入数据可以是异构的,并且该方法或系统获得多个损失信号。可以选择输入数据,以便平衡损失信号,并且可以满足输出数据的若干条件。当在数字帧图像上运行经训练的神经网络时,处理帧的中间结果可被用于后续的帧,并且以此方式可以减少处理延迟。迟。迟。

【技术实现步骤摘要】
【国外来华专利技术】用于训练具有构数据的生成式对抗网络的方法和系统
[0001]本专利技术涉及用于训练具有构数据的生成式对抗网络的方法和系统以及用于执行该方法的计算机程序产品。本专利技术还涉及用于在视频会议中维持眼神接触印象的方法和系统。本专利技术还涉及用于扭曲图像中的像素的方法和系统。

技术介绍

[0002]视频会议已经存在了十多年,并且如今是常用的通信方式。然而,该技术存在使人们退避的缺点(例如无法维持眼神交流)而更喜爱面对面的交谈。
[0003]Ganin(Ganin等人,欧洲计算机视觉会议,2016,第311

326页)描述了训练神经网络以偏移眼睛照片中的像素,从而将注视方向改变给定角度。为了训练,他们通过在相机前注视对象并且让他们查看出现的点来收集他们自己的数据集。此类数据收集规程使得对具有不同注视方向的同一只眼睛的图像对进行采样可行。Kononenko(Kononenko等人,第13届IEEE自动人脸和姿势识别国际会议(FG 2018),2018,535

539)继续该工作,并且允许使用同一眼睛的仅任意图像对,而无需知晓这些图像的确切的注视方向。Ganin和Kononenko两者使用同类数据集。为了训练如此的扭曲方法,需要收集眼睛的图像序列,其中个人和他/她的头部姿势保持固定,而他/她的注视方向变化。即使对于Kononenko,不是所有这些图像都需要用它们的绝对注视来标记,这也是导致相对于深度学习中的当前基准集的相对较小的数据集的昂贵的过程。
[0004]Giger(Giger等人,2014IEEE多媒体国际会议和博览会(ICME),成都,2014,1

6)使整个脸部倾斜以使得该个人看起来好像正面对他/她的相机。该办法需要将像素作为纹理映射到3D头部模型上、或者其只影响面部而不影响头部轮廓从而改变个人的比例。不管如何,这些方法需要对头部进行更复杂的检测,并且在最终图像中提供更明显的错误。
[0005]Dolhansky(Dolhansky等人,“Eye In

Painting with Exemplar Generative Adversarial Networks(使用示例生成式对抗网络的画中眼睛)”.2017)和Wood(Wood等人,“GazeDirector:Fully Articulated Eye Gaze Redirection in Video(注视方向:视频中全铰接的眼睛注视重定向)”2017)公开了代替原始输入眼睛的新眼睛的生成。为了打开新眼睛,示例图像与生成式对抗网络(GAN)一起被使用。
[0006]Wood的系统将眼睛及眼睛周围区域与3D模型进行匹配。可以随后修改该模型的注视方向,然后再将其融合到原始面部上。
[0007]丢弃原始输入眼睛的缺点是可能降低视频真实感和/或失去眼睛运动的效果。尝试在不同的数据集上顺序地训练可以避免处理竞争目标。但关于注视扭曲,首先在合成数据集上进行训练,并且随后在如照片等真实图像上进行训练,将意味着首次学习以进行大范围的校正,并且仅后续学习来保持这些修正的逼真性,这可能忘记如何做出原始校正。

技术实现思路

[0008]本专利技术的实施例涉及用于训练具有异构数据的生成式对抗网络的方法和系统以及用于执行该方法的计算机程序产品。
[0009]在另一方面,本专利技术的实施例涉及用于在视频会议中维持眼神接触印象的方法和系统。
[0010]在另一方面,本专利技术的实施例涉及用于扭曲图像中的像素的方法和系统。
[0011]在本专利技术的一个方面,本专利技术的实施例提供一种用于通过调整神经网络的节点的权重值来训练该神经网络的方法,该神经网络具有输出节点。
[0012]该方法可以包括存储以下类型的数字图像:作为输入和目标数字真实图像对的第一数据类型、作为输入和目标数字合成图像对的第二数据类型、以及作为输入未标记的数字真实图像的第三数据类型,
[0013]由此每个图像由像素来表示,这些像素具有像素属性。
[0014]该方法可以包括处理第一数据类型、第二数据类型和第三数据类型的数字图像;
[0015]该处理包括通过例如以下方法来创建一个或多个损失信号的步骤:
[0016]‑
修改第一数据类型、第二数据类型和第三数据类型的每个输入图像以形成第一数据类型、第二数据类型和第三数据类型的经修改的数字图像,
[0017]‑
通过神经网络来处理经修改的数字图像的像素,从而获得输出节点中的输出值,
[0018]‑
通过以下方式来获取损失信号:
[0019]‑
对于第一数据类型,使用所有的输出节点,
[0020]‑
对于第二数据类型,使用输出节点中的至少一个输出节点,以及
[0021]‑
对于第三数据类型,使用输出节点中的至少一个输出节点,以使得第二和第三数据类型正在一起使用所有的输出节点。
[0022]该处理可以包括将来自第一数据类型、第二数据类型和第三数据类型中的每个数据类型的数字图像的损失信号组合为经组合的损失信号的步骤:
[0023]该处理包括通过将经组合的损失信号反向传播穿过神经网络来更新该神经网络的权重值的步骤;以及
[0024]该处理包括存储经更新的权重值的步骤。
[0025]用于创建一个或多个损失信号的步骤可以附加地包括:
[0026]对于驻留在输出节点中的第一数据类型和第二数据类型的每个经修改的数字图像,
[0027]使用所有的输出节点和目标数字图像的像素值来创建损失信号。
[0028]用于创建一个或多个损失信号的步骤可以附加地包括:
[0029]对于每个经修改的数字图像,
[0030]通过使用逆向修改的网络来处理经修改的数字图像以在输出节点中获得经逆向修改的数字图像;
[0031]对于每个数据类型,使用输出节点和未修改的数字图像的像素值来创建损失信号。
[0032]用于创建该一个或多个损失信号的步骤可以附加地包括:
[0033]对于第一数据类型和第三数据类型的每个经修改的和参考数字图像,
[0034]对于每个输出数字图像,使得经训练的对抗网络通过以下方式来估计每个经修改的和参考数字图像:
[0035]分别在输出节点中指派第一和第二数值输出值,
[0036]以及将损失信号创建为第一输出值和第二输出值之间的差异。
[0037]对于第三数据类型的每个未修改的和经修改的数字图像,优选地
[0038]使得经训练的对抗网络估计每个未修改的和经修改的数字图像,
[0039]分别在输出节点中指派第一和第二数值输出值,
[0040]以及将损失信号创建为以下两者之间的差异:
[0041]第一数值输出值加上输入校正值,与第二输出值。
[0042]该方法可以包括在通过采样来构建输入数据批次之前,对所有的输入数据集进行预处理、交织或混洗中的任一者本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于通过调整神经网络的节点的权重值来训练所述神经网络的方法,所述神经网络具有输出节点;所述方法包括存储以下类型的数字图像:作为输入和目标数字真实图像对的第一数据类型、作为输入和目标数字合成图像对的第二数据类型、以及作为输入未标记的数字真实图像的第三数据类型,由此每个图像由像素来表示,所述像素具有像素属性;所述方法包括处理所述第一数据类型、所述第二数据类型和所述第三数据类型的所述数字图像;所述处理包括通过以下方式来创建一个或多个损失信号的步骤:

修改所述第一数据类型、所述第二数据类型和所述第三数据类型的每个输入图像以形成所述第一数据类型、所述第二数据类型和所述第三数据类型的经修改的数字图像,

通过经由所述神经网络来处理所述经修改的数字图像的像素,从而获得所述输出节点中的输出值,

通过以下方式来获取损失信号:

对于所述第一数据类型,使用所有的输出节点,

对于所述第二数据类型,使用所述输出节点中的至少一个输出节点,以及

对于所述第三数据类型,使用所述输出节点中的至少一个输出节点,以使得所述第二数据类型和所述第三数据类型正在一起使用所有的所述输出节点;所述处理包括将来自所述第一数据类型、所述第二数据类型和所述第三数据类型中的每个数据类型的数字图像的所述损失信号组合为经组合的损失信号的步骤:所述处理包括通过将所述经组合的损失信号反向传播穿过所述神经网络来更新所述神经网络的所述权重值的步骤;以及所述处理包括存储经更新的权重值的步骤。2.根据权利要求1所述的方法,其中创建一个或多个损失信号的步骤附加地包括:对于驻留在所述输出节点中的所述第一数据类型和所述第二数据类型的每个经修改的数字图像,使用所有的输出节点和所述目标数字图像的所述像素值来创建损失信号。3.根据权利要求1或2所述的方法,其中创建一个或多个损失信号的步骤附加地包括:对于每个经修改的数字图像,通过使用逆向修改的所述网络来处理所述经修改的数字图像以在所述输出节点中获得经逆向修改的数字图像;对于每个数据类型,使用所述输出节点和未修改的数字图像的所述像素值来创建损失信号。4.根据权利要求1至3中的任一项所述的方法,其中创建所述一个或多个损失信号的步骤附加地包括:对于所述第一数据类型和所述第三数据类型的每个经修改的和参考数字图像,对于每个输出数字图像,使得经训练的对抗网络通过以下方式来估计每个经修改的和参考数字图像:分别在所述输出节点中指派第一数值输出值和第二数值输出值,
以及将所述损失信号创建为所述第一输出值和所述第二输出值之间的差异。5.根据权利要求1至4中的任一项所述的方法,进一步包括:对于所述第三数据类型的每个未修改的和经修改的数字图像,使得经训练的对抗网络估计每个未修改的和经修改的数字图像,分别在所述输出节点中指派第一数值输出值和第二数值输出值,以及将所述损失信号创建为以下两者之间的差异:所述第一数值输出值加上输入校正值,与所述第二输出值。6.根据权利要求1至5中的任一项所述的方法,进一步包括在通过采样来构建输入数据批次之前对所有的输入数据集进行预处理、交织或混洗中的任一者。7.根据权利要求1至6中的任一项所述的方法,包括在所述输出节点中的所述值与所述目标数字图像之间创建映射。8.一种用于与具有用于处理的装置和非易失性存储器的系统一起使用的用于扭曲数字图像的方法,所述系统被适配成定义数字图像的面部标志;所述方法包括以下步骤:接收数字图像;用于处理的装置接收帧图像编号x检测所述图像上所述面部标志的所述图像像素坐标,并且将所述图像像素坐标发送到神经网络,所述神经网络被适配成生成扭曲场;将所述扭曲场应用于所述帧图像编号x;在所述显示器上输出经扭曲的帧图像编号x;并且对于至少一帧图像编号x+n,n>=l;使用从帧图像编号x获得的所述扭曲场;并且对于至少一帧图像编号x+m,m>=n+l;使用从帧图像编号x+n获得的所述面部标志。9.根据权利要求1至6中的任一项所述的方法,其中修改网络已被训练并且在操作中被使用。10.根据权利要求9所述的方法,进一步包括使用中间结果以便减少处理延迟。11.根据前述任一权利要求所述的方法,包括未优化的顺序处理,其中相机帧图像编号x从本地用于处理的装置被发送到云服务器或其他用于处理的装置,并且面部标志坐标被检测且被添加到所述图像中。12.根据权利要求11所述的方法,其中具有所述面部标志的所述帧图像被发送到经训练的修改神经网络,所述修改神经网络计算扭曲场并且将其应用到所述帧图像的眼睛区域。13.根据前述任一权利要求所述的方法,其中云服务器或其他用于处理的装置主控所述神经网络。14.根据权利要求8至13中的任一项所述的方法,其中经扭曲的图像从云服务器或用于处理的装置被发送回所述本地用于处理的装置,所述本地用于处理的装置输出最终图像
帧。15.根据前述任一权利要求所述的方法,其中四个处理行中的四个帧被并行地处理,以便后续的处理行可以使用先前处理行的结果。16.根据权利要求15所述的方法,其中处理所述第一行始于将第一相机帧图像从本地用于处理的装置发送到所述云服务器或用于处理的装置。17.根据权利要求16所述的方法,其中执行面部标志检测并且定义面部标志坐标。18.根据权利要求15至17中的任一项所述的方法,其中同时在第二帧图像上开始处理所述第二行,所述第二帧图像是帧图像编号x+n的图像,其中n>=l。19.根据权利要求18所述的方法,其中所述第二帧图像从所述本地用于处理的装置被发送到所述云服务器或用于处理的装置。20.根据权利要求17至19中的任一项所述的方法,其中使用第一帧图像的所述面部标志坐标而不是定义所述第二帧图像的所述面部标志坐标。21.根据权利要求17至20中的任一项所述的方法,其中所述修改神经网络接收所述第二帧图像和所述第一帧图像的所述面部标志坐标,并且计算从所述云服务器或用于处理的装置发送回所述本地用于处理的装置的扭曲场。22.根据权利要求21所述的方法,其中通过将第三帧图像编号x+m,m>=n+l发送到所述云服务器或用于处理的装置来同时开始处理第三行。23.根据权利要求17至22中的任一项所述的方法,其中执行所述面部标志检测,并且将所述第三帧图像的所述面部标志坐标从所述云服务器或所述用于处理的装置发送到所述本地用于处理的装置。24.根据权利要求16至23中的任一项所述的方法,其中在所述本地用于处理的装置上用所述第四帧图像编号x+q,q>=m+l来同时开始处理第四行。25.根据权利要求17至24中的任一项所述的方法,其中已基于所述第二帧图像和所述第一帧图像接收到所述扭曲场,并且已基于所述第三帧图像接收到面部标志,这些可被用于将所述第四帧图像扭曲为第五帧图像。26.根据权利要求25所述的方法,进一步包括:做出确定用于计算与显示所述标志坐标和扭曲的帧可以相距多远的设置。27.根据前述任一权利要求所述的方法,其中接收已被修改网络修改的经标记的和未标记的数据。28.根据权利要求27所述的方法,其中保持所述修改网络的参数固定,同时训练对抗网络来估计每个数据。29.根据权利要求28所述的方法,其中估计每个数据包括计算所述数据的分数,而无需知晓它是真实的或经修改的。30.根据权利要求29所述的方法,其中可以对真实数据计算较高的分数,而对经修改的数据计算较低的分数。31.根据权利要求30所述的方法,其中当训练所述修改网络时,所述对抗网络可以已被训练成对未修改的数据给出高分,并且对经修改的数据给出低分,由此现在保持所述对抗网络的所述参数固定,由此所述修改网络可以随后修改数据并且将其发送到所述对抗性网络,所述对抗性网络对所述数据进行评分,由此可以随后(在若干次迭代中)调整所述修改
神经网络的参数直到所述分数达到期望值。32.根据权利要求29至31中的任一项所述的方法,其中分别聚合所有的真实数据和经修改的数据的分数。33.根据权利要求29至32中的任一项所述的方法,其中聚合包括计算相应的数据类型集合的平均值。34.根据权利要求29至33中的任一项所述的方法,进一步包括:根据所述真实数据的经聚合分数与所述经修改的数据的经聚合分数之间的差距为所述对抗网络提供损失信号。35.一种用于通过调整神经网络的节点的权重值来训练所述神经网络的系统,所述神经网络具有输出节点;所述系统包括:用于作为输入和目标数字真实图像对的第一数据类型的数字图像、作为输入和目标数字合成图像对的第二数据类型、以及作为输入未标记的数字真实图像的第三数据类型的存储,由此每...

【专利技术属性】
技术研发人员:K
申请(专利权)人:巴科股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1