交互对象的驱动方法、装置、设备以及存储介质制造方法及图纸

技术编号：25040549 阅读：21 留言：0更新日期：2020-07-29 05:31

公开了一种交互对象的驱动方法、装置、设备以及存储介质，所述交互对象展示在显示设备中，所述方法包括：获取所述交互对象的声音驱动数据对应的音素序列；获取与所述音素序列匹配的所述交互对象的姿态参数值；根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态。

全部详细技术资料下载

【技术实现步骤摘要】
交互对象的驱动方法、装置、设备以及存储介质
本公开涉及计算机
，具体涉及一种交互对象的驱动方法、装置、设备以及存储介质。
技术介绍
人机交互的方式大多基于按键、触摸、语音进行输入，通过在显示屏上呈现图像、文本或虚拟人物进行回应。目前虚拟人物多是在语音助理的基础上改进得到的，用户与虚拟人物的交互还停留表面上。
技术实现思路
本公开实施例提供一种交互对象的驱动方案。根据本公开的一方面，提供一种交互对象的驱动方法，所述交互对象展示在显示设备中，所述方法包括：获取所述交互对象的声音驱动数据对应的音素序列；获取与所述音素序列匹配的所述交互对象的姿态参数值；根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态。结合本公开提供的任一实施方式，所述方法还包括：根据所述音素序列控制所述显示设备输出语音和/或文本。结合本公开提供的任一实施方式，所述获取与所述音素序列匹配的所述交互对象的姿态参数值，包括：对所述音素序列进行特征编码，获得所述音素序列的特征信息；获取所述音素序列的特征信息对应的所述交互对象的姿态参数值。结合本公开提供的任一实施方式，所述对所述音素序列进行特征编码，获得所述音素序列的特征信息，包括：针对所述音素序列包含的多个音素，生成多个音素分别对应的编码序列；根据所述多个音素分别对应的编码序列的编码值以及所述音素序列中多个音素分别对应的持续时间，获得所述多个音素分别对应的编码序列的特征信息；根据所述多个音素分别对应的编码序列的特征信息，获得所述音素序列的特征信息。>结合本公开提供的任一实施方式，所述针对所述音素序列包含的多种音素，生成多个音素分别对应的编码序列，包括：检测各时间点上是否对应有第一音素，所述第一音素为所述多个音素中的任一个；通过将有所述第一音素的时间点上的编码值设置为第一数值，将没有所述第一音素的时间上的编码值设置为第二数值，得到所述第一音素对应的编码序列。结合本公开提供的任一实施方式，所述根据所述多个音素分别对应的编码序列的编码值以及所述音素序列中多个音素分别对应的持续时间，获得所述多个音素分别对应的编码序列的特征信息，包括：对于第一音素对应的编码序列，利用高斯滤波器对所述第一音素在时间上的连续值进行高斯卷积操作，获得所述第一音素对应的编码序列的特征信息；所述第一音素为所述多个音素中的任一个。结合本公开提供的任一实施方式，姿态参数包括面部姿态参数，所述面部姿态参数包括面部肌肉控制系数，用于控制至少一个面部肌肉的运动状态；根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态，包括：根据与所述音素序列匹配的面部肌肉控制系数，驱动所述交互对象做出与所述音素序列中的各个音素匹配的面部动作。结合本公开提供的任一实施方式，所述方法还包括：获取与所述面部姿态参数关联的身体姿态的驱动数据；根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态，包括：根据与所述面部姿态参数值关联的身体姿态的驱动数据，驱动所述交互对象做出肢体动作。结合本公开提供的任一实施方式，所述获取所述音素序列的特征信息对应的所述交互对象的姿态参数值，包括：以设定时间间隔对所述音素序列的特征信息进行采样，获得第一采样时间对应的采样特征信息；将所述第一采样时间对应的采样特征信息输入至神经网络，获得与所述采样特征信息对应的交互对象的姿态参数值。结合本公开提供的任一实施方式，所述神经网络包括长短期记忆网络和全连接网络，所述将所述第一采样时间对应的采样特征信息输入至预先训练的神经网络，获得与所述采样特征信息对应的交互对象的姿态参数值，包括：将所述第一采样时间对应的采样特征信息输入至所述长短期记忆网络，根据在所述第一采样时间之前的采样特征信息，输出关联特征信息；将所述关联特征信息输入至所述全连接网络，根据所述全连接网络的分类结果，确定与所述关联特征信息对应的姿态参数值；其中，所述分类结果中每种类别对应于一组姿态参数值。结合本公开提供的任一实施方式，所述神经网络通过音素序列样本训练得到；所述方法还包括：获取一角色发出语音的视频段；根据所述视频段获取多个包含所述角色的第一图像帧，以及与所述第一图像帧对应的多个音频帧；将所述第一图像帧转化为包含所述交互对象的第二图像帧，获取所述第二图像帧对应的姿态参数值；根据所述第二图像帧对应的姿态参数值，对与所述第一图像帧对应的音频帧进行标注；根据标注有姿态参数值的音频帧，获得音素序列样本。结合本公开提供的任一实施方式，所述方法还包括：对所述音素序列样本进行特征编码，获得所述第二采样时间对应的特征信息，并对于所述特征信息标注对应的姿态参数值，获得特征信息样本；根据所述特征信息样本对初始神经网络进行训练，在网络损失的变化满足收敛条件后训练得到所述神经网络，其中，所述网络损失包括所述初始神经网络预测得到的姿态参数值与标注的姿态参数值之间的差异。结合本公开提供的任一实施方式，所述网络损失包括所述初始神经网络预测得到的姿态参数值与标注的姿态参数值的差的二范数；所述网络损失还包括，所述初始神经网络预测得到的姿态参数值的一范数。根据本公开的一方面，提供一种交互对象的驱动装置，所述交互对象展示在显示设备中，所述装置包括：音素序列获取单元，用于获取所述交互对象的声音驱动数据对应的音素序列；参数获取单元，用于获取与所述音素序列匹配的所述交互对象的姿态参数值；驱动单元，用于根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态。结合本公开提供的任一实施方式，所述装置还包括输出单元，用于根据所述音素序列控制所述显示设备输出语音和/或文本。结合本公开提供的任一实施方式，所述参数获取单元具体用于：对所述音素序列进行特征编码，获得所述音素序列的特征信息；获取所述音素序列的特征信息对应的所述交互对象的姿态参数值。结合本公开提供的任一实施方式，所述参数获取单元在用于对所述音素序列进行特征编码，获得所述音素序列的特征信息时，具体用于：针对所述音素序列包含的多个音素，生成多个音素分别对应的编码序列；根据所述多个音素分别对应的编码序列的编码值以及所述音素序列中多个音素分别对应的持续时间，获得所述多个音素分别对应的编码序列的特征信息；根据所述多个音素分别对应的编码序列的特征信息，获得所述音素序列的特征信息。结合本公开提供的任一实施方式，所述参数获取单元在用于针对所述音素序列包含的多种音素，生成多个音素分别对应的编码序列时，具体用于：检测各时间点上是否对应有第一音素，所述第一音素为所述多个音素中的任一个；通过将有所述第一音素的时间点上的编码值设置为第一数值，将没有所述第一音素的时间上的编码值设置为第二数值，得到所述第一音素对应的编码序列。结合本公开提供的任一实施方式，所述参数获取单元在用于在根据所述多个音素分别对应的编码序列的编码值以及所述音素序列中多个音素分别对应的持续时间，获得所述多个音素分别对应的编码序列的特征信息时，具体用于：对于第一音素对应的编码序列，利用高斯滤波器对所述第一音素在时间上的连续值进行高斯卷积操作，获得本文档来自技高网...

【技术保护点】
1.一种交互对象的驱动方法，其特征在于，所述交互对象展示在显示设备中，所述方法包括：/n获取所述交互对象的声音驱动数据对应的音素序列；/n获取与所述音素序列匹配的所述交互对象的姿态参数值；/n根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态。/n

【技术特征摘要】
1.一种交互对象的驱动方法，其特征在于，所述交互对象展示在显示设备中，所述方法包括：
获取所述交互对象的声音驱动数据对应的音素序列；
获取与所述音素序列匹配的所述交互对象的姿态参数值；
根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据所述音素序列控制所述显示设备输出语音和/或展示文本。

3.根据权利要求1或2所述的方法，其特征在于，所述获取与所述音素序列匹配的所述交互对象的姿态参数值，包括：
对所述音素序列进行特征编码，获得所述音素序列的特征信息；
获取所述音素序列的特征信息对应的所述交互对象的姿态参数值。

4.根据权利要求3所述的方法，其特征在于，所述对所述音素序列进行特征编码，获得所述音素序列的特征信息，包括：
针对所述音素序列包含的多个音素，生成多个音素分别对应的编码序列；
根据所述多个音素分别对应的编码序列的编码值以及所述音素序列中多个音素分别对应的持续时间，获得所述多个音素分别对应的编码序列的特征信息；
根据所述多个音素分别对应的编码序列的特征信息，获得所述音素序列的特征信息。

5.根据权利要求4所述的方法，其特征在于，所述针对所述音素序列包含的多种音素，生成多个音素分别对应的编码序列，包括：
检测各时间点上是否对应有第一音素，所述第一音素为所述多个音素中的任一个；
通过将有所述第一音素的时间点上的编码值设置为第一数值，将没有所述第一音素的时间上的编码值设置为第二数值，得到所述第一音素对应的编码序列。

6.根据权利要求4或5所述的方法，其特征在于，所述根据所述多个音素分别对应的编码序列的编码值以及所述音素序列中多个音素分别对应的持续时间，获得所述多个音素分别对应的编码序列的特征信息，包括：
对于第一音素对应的编码序列，利用高斯滤波器对所述第一音素在时间上的连续值进行高斯卷积操作，获得所述第一音素对应的编码序列的特征信息；所述第一音素为所述多个音素中的任一个。

7.根据权利要求1至6任一项所述的方法，其特征在于，姿态参数包括面部姿态参数，所述面部姿态参数包括面部肌肉控制系数，用于控制至少一个面部肌肉的运动状态；
根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态，包括：
根据与所述音素序列匹配的面部肌肉控制系数，驱动所述交互对象做出与所述音素序列中的各个音素匹配的面部动作。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：
获取与所述面部姿态参数关联的身体姿态的驱动数据；
根据与所述面部姿态参数值关联的身体姿态的驱动数据，驱动所述交互对象做出肢体动作。

9.根据权利要求3所述的方法，其特征在于，所述获取所述音素序列的特征信息对应的所述交互对象的姿态参数值，包括：
以设定时间间隔对所述音素序列的特征信息进行采样，获得第一采样时间对应的采样特征信息；
将所述第一采样时间对应的采样特征信息输入至神经网络，获得与所述采样特征信息对应的交互对象的姿态参数值。

10.根据权利要求9所述的方法，其特征在于，所述神经网络包括长短期记忆网络和全连接网络，所述将所述第一采样时间对应的采样特征信息输入至预先训练的神经网络，获得与所述采样特征信息对应的交互对象的姿态参数值，包括：
将所述第一采样时间对应的采样特征信息输入至所述长短期记忆网络，根据在所述第一采样时间之前的采样特征信息，输出关联特征信息；
将所述关联特征信息输入至所述全连接网络，根据所述全连接网络的分类结果，确定与所述关联特征信息对应的姿态参数值；其中，所述分类结果中每种类别对应于一组姿态参数值。

11.根据权利要求9或10所述的方法，其特征在于，所述神经网络通过音素序列样本训练得到；
所述方法还包括：
获取一角色发出语音的视频段；根据所述视频段获取多个包含所述角色的第一图像帧，以及与所述第一图像帧对应的多个音频帧；
将所述第一图像帧转化为包含所述交互对象的第二图像帧，获取所述第二图像帧对应的姿态参数值；
根据所述第二图像帧对应的姿态参数值，对与所述第一图像帧对应的音频帧进行标注；
根据标注有姿态参数值的音频帧，获得音素序列样本。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：
对所述音素序列样本进行特征编码，获得所述第二采样时间对应的特征信息，并对于所述特征信息标注对应的姿态参数值，获得特征信息样本；
根据所述特征信息样本对初始神经网络进行训练，在网络损失的变化满足收敛条件后训练得到所述神经网络，...

【专利技术属性】
技术研发人员：吴文岩，吴潜溢，钱晨，宋林森，
申请(专利权)人：北京市商汤科技开发有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人