一种中间帧生成方法、装置、设备及介质制造方法及图纸

技术编号:36812671 阅读:15 留言:0更新日期:2023-03-09 00:54
本公开涉及一种中间帧生成方法、装置、设备及介质,尤其涉及计算机视觉与图像处理技术领域;其中,该方法包括:基于输入的语音信息,确定待生成中间帧的时间信息,并根据时间信息获取与待生成中间帧关联的待处理视频帧,其中,输入的语音信息用于驱动虚拟数字人进行动作;将待处理视频帧输入至光流估计网络模型中,得到对应的光流估计结果和融合图;基于光流估计结果和融合图,生成对应的中间帧。本公开实施例通过上述过程能够生成中间帧,通过中间帧有利于确保虚拟数字人在状态转换过程中自然过渡,使得虚拟数字人能在语音驱动下连贯地完成相应动作。地完成相应动作。地完成相应动作。

【技术实现步骤摘要】
一种中间帧生成方法、装置、设备及介质


[0001]本公开涉及计算机视觉与图像处理
,尤其涉及一种中间帧生成方法、装置、设备及介质。

技术介绍

[0002]在虚拟数字人开发过程中,虚拟数字人动作库主要是结合业务场景需要,定制标准化的动作范式,比如打招呼、伸手指示或者点头等。在虚拟数字人项目中由于需要通过语音与虚拟数字人进行实时交互,使得虚拟数字人在交互过程中完成从标准状态下切换到相应动作的状态下。在状态转换过程中为了保证自然过渡,需要使用中间帧来辅助虚拟数字人动作片段的拼接,因此,中间帧的生成尤为重要。

技术实现思路

[0003]为了解决上述技术或者至少部分地解决上述技术问题,本公开提供了一种中间帧生成方法、装置、设备及介质,通过生成的中间帧有利于确保虚拟数字人在状态转换过程中自然过渡,使得虚拟数字人能在语音驱动下连贯地完成相应动作。
[0004]为了实现上述目的,本公开实施例提供的技术方案如下:
[0005]第一方面,本公开提供了一种中间帧生成方法,该方法包括:
[0006]基于输入的语音信息,确定待生成中间帧的时间信息,并根据所述时间信息获取与所述待生成中间帧关联的待处理视频帧,其中,所述输入的语音信息用于驱动虚拟数字人进行动作;
[0007]将所述待处理视频帧输入至光流估计网络模型中,得到对应的光流估计结果和融合图;
[0008]基于所述光流估计结果和所述融合图,生成对应的中间帧。
[0009]第二方面,本公开提供了一种中间帧生成装置,该装置包括:
[0010]获取模块,用于基于输入的语音信息,确定待生成中间帧的时间信息,并根据所述时间信息获取与所述待生成中间帧关联的待处理视频帧,其中,所述输入的语音信息用于驱动虚拟数字人进行动作;
[0011]确定模块,用于将所述待处理视频帧输入至光流估计网络模型中,得到对应的光流估计结果和融合图;
[0012]生成模块,用于基于所述光流估计结果和所述融合图,生成对应的中间帧。
[0013]第三方面,本公开还提供了一种电子设备,包括:
[0014]一个或多个处理器;
[0015]存储装置,用于存储一个或多个程序,
[0016]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本公开实施例中的任一种所述的中间帧生成方法。
[0017]第四方面,本公开还提供了一种计算机可读存储介质,其上存储有计算机程序,该
程序被处理器执行时实现本公开实施例中的任一种所述的中间帧生成方法。
[0018]本公开实施例提供的技术方案与现有技术相比具有如下优点:首先基于输入的语音信息,确定待生成中间帧的时间信息,并根据时间信息获取与待生成中间帧关联的待处理视频帧,其中,输入的语音信息用于驱动虚拟数字人进行动作,然后将待处理视频帧输入至光流估计网络模型中,得到对应的光流估计结果和融合图,最后基于光流估计结果和融合图,生成对应的中间帧,通过上述过程能够生成中间帧,通过中间帧有利于确保虚拟数字人在状态转换过程中自然过渡,使得虚拟数字人能在语音驱动下连贯地完成相应动作。
附图说明
[0019]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0020]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1A为本公开实施例提供的一种中间帧生成方法的流程示意图;
[0022]图1B为本公开实施例提供的一种中间帧生成方法的原理示意图;
[0023]图2A为本公开实施例提供的另一种中间帧生成方法的流程示意图;
[0024]图2B为本公开实施例提供的另一种中间帧生成方法的原理示意图;
[0025]图2C为本公开实施例提供的一种中间帧插入过程的示意图;
[0026]图3A为本公开实施例提供的又一种中间帧生成方法的流程示意图;
[0027]图3B为本公开实施例提供的一种光流估计网络模型的结构示意图;
[0028]图3C为本公开实施例提供的光流估计网络模型中计算单元的结构示意图;
[0029]图3D为本公开实施例提供的另一种计算单元的结构示意图;
[0030]图3E为本公开实施例提供的某个计算单元的计算原理示意图;
[0031]图4A为本公开实施例提供的一种确定图像融合结果的原理示意图;
[0032]图4B为本公开实施例提供的一种语义分割网络模型的结构示意图;
[0033]图4C为本公开实施例提供的一种通过语义分割网络模型得到图像融合结果的原理示意图;
[0034]图5为本公开实施例提供的一种中间帧生成装置的结构示意图;
[0035]图6为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0036]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0037]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
[0038]需要说明的是,本公开中对于术语的简要说明,仅是为了方便理解接下来描述的
实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
[0039]需要说明的是,在本公开中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
[0040]随着相关领域的技术成熟,虚拟数字人已经应用于许多场景中,可以提供业务知识介绍、信息查询以及智能客服等多种服务,提升用户的使用体验。
[0041]在虚拟数字人开发过程中,虚拟数字人动作库制作时需要保证动作片段之间的流畅衔接,动作库设计模块主要结合不同业务场景需要,定制标准化的动作范式,比如打招呼、伸手指示或者点头等本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中间帧生成方法,其特征在于,所述方法包括:基于输入的语音信息,确定待生成中间帧的时间信息,并根据所述时间信息获取与所述待生成中间帧关联的待处理视频帧,其中,所述输入的语音信息用于驱动虚拟数字人进行动作;将所述待处理视频帧输入至光流估计网络模型中,得到对应的光流估计结果和融合图;基于所述光流估计结果和所述融合图,生成对应的中间帧。2.根据权利要求1所述的方法,其特征在于,所述根据所述时间信息获取与所述待生成中间帧关联的待处理视频帧,包括:根据所述时间信息从静态库中确定一个视频帧,从动作库中与所述语音信息对应的目标动作视频中确定一个视频帧,得到所述待处理视频帧,其中,所述待处理视频帧中包括第一视频帧和第二视频帧;相应的,所述基于所述光流估计结果和所述融合图,生成对应的中间帧之后,所述方法还包括:将所述中间帧插入所述第一视频帧和所述第二视频帧之间,得到对应的拼接视频。3.根据权利要求1所述的方法,其特征在于,所述光流估计网络模型包括多个计算单元,相邻计算单元之间通过残差网络连接,每个计算单元包括第一扭曲层、第二扭曲层、拼接层、至少一个卷积层以及反卷积层,所述待处理视频帧中包括第一视频帧和第二视频帧;所述第一扭曲层,用于对所述第一视频帧和上一个计算单元的输出结果进行扭曲变换,得到第一变换结果;所述第二扭曲层,用于对所述第二视频帧和所述上一个计算单元的输出结果进行扭曲变换,得到第二变换结果;所述拼接层,用于对所述第一视频帧、所述第二视频帧、所述第一变换结果、所述第二变换结果、所述上一个计算单元的输出结果以及间隔时间,进行拼接,得到第一向量;所述至少一个卷积层,用于对所述第一向量进行特征提取,得到第二向量;所述反卷积层,用于对所述第二向量进行特征还原,得到当前计算单元的输出结果。4.根据权利要求3所述的方法,其特征在于,所述每个计算单元还包括缩小层和放大层,所述缩小层位于所述拼接层和所述至少一个卷积层之间,所述放大层位于所述反卷积层之后;所述缩小层,用于根据缩放因子,对所述第一向量进行缩放;所述放大层,用于根据放大因子,对所述当前计算单元的所述输出结果进行放大。5.根据权利要求3所述的方法,其特征在于,所述基于所述光流估...

【专利技术属性】
技术研发人员:于子亿付爱国李绪送杨善松
申请(专利权)人:海信视像科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1