The invention is applicable to the technical field of artificial intelligence, and provides a device, a method to generate virtual face animation includes the input text into voice signal; according to the mute frame of speech signal in the position of the input text, up, get a number of short sentences; for each phrase, generate a head swing virtual face animation; each phrase is mapped into at least one lip; the head swinging and lip fusion to each corresponding phrase, virtual face animation each corresponding phrase. The invention combines text and voice based approach to generate virtual face animation, generated by the head swinging and lip, and merge the two, provides a more realistic visual experience for the user, to avoid virtual face animation can contain only lip information, improve the authenticity of the virtual face animation, and there is no need to rely on expensive and complicated equipment to achieve, reduce costs, expand the scope of application of virtual face animation.
【技术实现步骤摘要】
本专利技术属于人工智能
,尤其涉及一种虚拟人脸动画的生成方法及装置。
技术介绍
随着人工智能技术的进步,虚拟个人助手如AppleSiri、GoogleAssistant、以及MicrosoftCortana等已逐步参与到人们的生活中。目前大多数的虚拟个人助手都只能单纯地使用语音与用户交流,而没有一个具体的视觉动画形象,因此,与真实世界中人与人之间的交流依然存在一定的区别。对于电视机、个人电脑、手机等可提供音视频输出的设备而言,创建一个看得见且听得着的虚拟个人助手将是人工智能技术发展的一个重要趋势。现有的虚拟人脸动画主要基于语音识别技术或基于真实表演者模拟的方式来生成。基于语音识别技术的虚拟人脸动画生成方法大多只能生成与语音同步的嘴唇运动,真实度较低;基于真实表演者模拟的方式来生成的虚拟人脸动画,其需要真实表演者的介入,并且还需要提供昂贵、复杂的动作捕捉设备方可实现,因此,此种虚拟人脸动画的生成方法成本过高,从而导致其应用范围过于狭窄,难以推广使用。综上,现有的虚拟人脸动画的生成方法存在真实度较低、成本过高以及应用范围过于狭窄的问题。
技术实现思路
本专利技术实施例提供一种虚拟人脸动画的生成方法及装置,旨在解决目前虚拟人脸动画的真实度较低、成本过高以及应用范围过于狭窄的问题。本专利技术实施例是这样实现的,一种虚拟人脸动画的生成方法,包括:将输入文本转化为语音信号;根据所述语音信号中静音帧的出现位置,对所述输入文本进行分句处理,得到多个短句;对于每个所述短句,生成虚拟人脸动画中的一个头部摆动动作;将每个所述短句映射成至少一个唇形;将每个所述短句对应的所述头 ...
【技术保护点】
一种虚拟人脸动画的生成方法,其特征在于,包括:将输入文本转化为语音信号;根据所述语音信号中静音帧的出现位置,对所述输入文本进行分句处理,得到多个短句;对于每个所述短句,生成虚拟人脸动画中的一个头部摆动动作;将每个所述短句映射成至少一个唇形;将每个所述短句对应的所述头部摆动动作与所述唇形融合,以生成每个所述短句对应的虚拟人脸动画。
【技术特征摘要】
1.一种虚拟人脸动画的生成方法,其特征在于,包括:将输入文本转化为语音信号;根据所述语音信号中静音帧的出现位置,对所述输入文本进行分句处理,得到多个短句;对于每个所述短句,生成虚拟人脸动画中的一个头部摆动动作;将每个所述短句映射成至少一个唇形;将每个所述短句对应的所述头部摆动动作与所述唇形融合,以生成每个所述短句对应的虚拟人脸动画。2.如权利要求1所述的方法,其特征在于,所述根据所述语音信号中静音帧的出现位置,对所述输入文本进行分句处理,得到多个短句,包括:将所述语音信号分解成多个语音帧,所述多个语音帧包括所述静音帧以及音素帧;对所述输入文本进行分词处理,并获取每个分词对应的多个所述音素帧;若相邻的两个分词分别对应的多个所述音素帧之间存在一个或多个静音帧,则获取所述一个或多个静音帧的总时长;当所述总时长大于第一预设阈值时,将相邻的两个分词分别划分至相邻的两个短句中;若划分得到的任意一个所述短句的字符总数大于第二预设阈值,则令所述第一预设阈值减少一个固定值,并重新对该短句进行分句处理,直至得到的每个短句的所述字符总数不大于所述第二预设阈值。3.如权利要求2所述的方法,其特征在于,在对所述输入文本进行分词处理,并获取每个分词对应的多个所述音素帧之前,所述方法还包括:获取每个所述语音帧中各音素的出现概率;获取所述语音信号对应的音素序列,所述音素序列包含按先后顺序依次排列的多个音素;根据所述音素序列中各个音素的排列顺序以及所述语音帧中各音素的出现概率,在所述多个语音帧中确定所述静音帧以及确定所述音素序列中各音素分别对应的音素帧。4.如权利要求3所述的方法,其特征在于,所述获取每个所述语音帧中各音素的出现概率包括:获取包含多条合成语音的语料库;基于所述语料库中的多条所述合成语音,构建并训练语音识别模型;将每个所述语音帧输入所述语音识别模型,以输出每个所述语音帧中各音素的出现概率。5.如权利要求1所述的方法,其特征在于,所述方法还包括:通过情感分析算法对所述输入文本进行处理,以得到所述输入文本的情感类型;获取所述情感类型对应的骨架系数,所述骨架系数表示虚拟人脸动画中预存储的一种表情姿态;根据所述骨架系数为所述虚拟人脸动画渲染人脸表情。6.一种虚拟人脸动画的生成装置,其特征在于,包括:第一获取单元,用于将输入文...
【专利技术属性】
技术研发人员:李松南,
申请(专利权)人:TCL集团股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。