虚拟人脸动画的生成方法及装置制造方法及图纸

技术编号:15287588 阅读:72 留言:0更新日期:2017-05-10 11:32
本发明专利技术适用于人工智能技术领域,提供了一种虚拟人脸动画的生成方法及装置,包括:将输入文本转化为语音信号;根据语音信号中静音帧的出现位置,对输入文本进行分句处理,得到多个短句;对于每个短句,生成虚拟人脸动画中的一个头部摆动动作;将每个短句映射成至少一个唇形;将每个短句对应的头部摆动动作与唇形融合,以生成每个短句对应的虚拟人脸动画。本发明专利技术基于文本与语音结合的方式来生成虚拟人脸动画,通过生成头部摆动动作以及唇形,并将二者融合,为用户提供了更接近现实的视觉感受,避免得到的虚拟人脸动画仅包含唇形信息,提高了虚拟人脸动画的真实性,且无需依赖昂贵、复杂的设备来实现,降低了成本,扩大了虚拟人脸动画的应用范围。

Method and apparatus for generating virtual face animation

The invention is applicable to the technical field of artificial intelligence, and provides a device, a method to generate virtual face animation includes the input text into voice signal; according to the mute frame of speech signal in the position of the input text, up, get a number of short sentences; for each phrase, generate a head swing virtual face animation; each phrase is mapped into at least one lip; the head swinging and lip fusion to each corresponding phrase, virtual face animation each corresponding phrase. The invention combines text and voice based approach to generate virtual face animation, generated by the head swinging and lip, and merge the two, provides a more realistic visual experience for the user, to avoid virtual face animation can contain only lip information, improve the authenticity of the virtual face animation, and there is no need to rely on expensive and complicated equipment to achieve, reduce costs, expand the scope of application of virtual face animation.

【技术实现步骤摘要】

本专利技术属于人工智能
,尤其涉及一种虚拟人脸动画的生成方法及装置
技术介绍
随着人工智能技术的进步,虚拟个人助手如AppleSiri、GoogleAssistant、以及MicrosoftCortana等已逐步参与到人们的生活中。目前大多数的虚拟个人助手都只能单纯地使用语音与用户交流,而没有一个具体的视觉动画形象,因此,与真实世界中人与人之间的交流依然存在一定的区别。对于电视机、个人电脑、手机等可提供音视频输出的设备而言,创建一个看得见且听得着的虚拟个人助手将是人工智能技术发展的一个重要趋势。现有的虚拟人脸动画主要基于语音识别技术或基于真实表演者模拟的方式来生成。基于语音识别技术的虚拟人脸动画生成方法大多只能生成与语音同步的嘴唇运动,真实度较低;基于真实表演者模拟的方式来生成的虚拟人脸动画,其需要真实表演者的介入,并且还需要提供昂贵、复杂的动作捕捉设备方可实现,因此,此种虚拟人脸动画的生成方法成本过高,从而导致其应用范围过于狭窄,难以推广使用。综上,现有的虚拟人脸动画的生成方法存在真实度较低、成本过高以及应用范围过于狭窄的问题。
技术实现思路
本专利技术实施例提供一种虚拟人脸动画的生成方法及装置,旨在解决目前虚拟人脸动画的真实度较低、成本过高以及应用范围过于狭窄的问题。本专利技术实施例是这样实现的,一种虚拟人脸动画的生成方法,包括:将输入文本转化为语音信号;根据所述语音信号中静音帧的出现位置,对所述输入文本进行分句处理,得到多个短句;对于每个所述短句,生成虚拟人脸动画中的一个头部摆动动作;将每个所述短句映射成至少一个唇形;将每个所述短句对应的所述头部摆动动作与所述唇形融合,以生成每个所述短句对应的虚拟人脸动画。本专利技术实施例的另一目的在于提供一种虚拟人脸动画的生成装置,包括:第一获取单元,用于将输入文本转化为语音信号;分句单元,用于根据所述语音信号中静音帧的出现位置,对所述输入文本进行分句处理,得到多个短句;生成单元,用于对于每个所述短句,生成虚拟人脸动画中的一个头部摆动动作;映射单元,用于将每个所述短句映射成至少一个唇形;融合单元,用于将每个所述短句对应的所述头部摆动动作与所述唇形融合,以生成每个所述短句对应的虚拟人脸动画。本专利技术实施例基于文本与语音结合的方式来生成虚拟人脸动画,根据输入文本中的每个短句,生成头部摆动动作以及唇形,为用户提供了更接近现实的视觉感官效果,避免了最后得到的虚拟人脸动画仅包含唇形信息,提高了虚拟人脸动画的真实性。此外,本专利技术实施例提供的虚拟人脸动画的生成方法无需依赖昂贵、复杂的设备来实现,从而降低了成本,扩大了虚拟人脸动画的应用范围,促进了人工智能技术的发展。附图说明图1是本专利技术实施例提供的虚拟人脸动画的生成方法实现流程图;图2是本专利技术实施例提供的虚拟人脸动画的生成方法S102的具体实现流程图;图3是本专利技术实施例提供的虚拟人脸动画的生成方法S104的具体实现流程图;图4是本专利技术另一实施例提供的虚拟人脸动画的生成方法实现流程图;图5是本专利技术另一实施例提供的虚拟人脸动画的生成方法S401的具体实现流程图;图6是经过语音识别模型处理得到的语音帧中各音素的出现概率示意图;图7是本专利技术又一实施例提供的虚拟人脸动画的生成方法实现流程图;图8是本专利技术实施例提供的虚拟人脸动画的生成装置的结构框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。在本专利技术实施例中,虚拟人脸动画可以显示在计算机、笔记本电脑、手机、平板电脑、VR(VirtualReality)眼镜等终端中。根据终端所提供的虚拟个人助理(VPA)应用,通过自然语言处理和语义分析技术,可以接受用户发出的语音请求,以视频画面中所显示的具体人物来回答问题,并提供智能推荐,就像有一个面对面的“真人”在与使用该VPA应用的用户进行互动。图1示出了本专利技术实施例提供的虚拟人脸动画的生成方法实现流程图,详述如下:在S101中,将输入文本转化为语音信号。输入文本,是指以书面形式或以文字表达的方式描绘出来的具体数据信息。一个输入文本可以是一个词语、一个句子、一个段落或者一个篇章。本实施例中,输入文本为VPA应用在后台数据库或存储器中所存储的任一训练文本。VPA应用接收到用户发出的交互信息时,能够从预存储的多个训练文本中搜索出对应的应答信息,并执行返回,则预存储的的应答信息即为输入文本。除了VPA应用所对应的输入文本外,本实施例中的输入文本还可以是任意环境下的文本,例如书本中的一个段落。得到每个输入文本后,将基于书面形式的输入文本转化为基于音频形式的语音信息。该语音信息为人造语音,通过机械的、电子的方法而产生。将输入文本输入文-语转换软件工具中,可直接输出上述输入文本对应的语音信号,实现了文字到语音的转换功能。该软件工具例如可以是百度语音、狸窝软件、TextAloud、语音合成助手等。在S102中,根据所述语音信号中静音帧的出现位置,对所述输入文本进行分句处理,得到多个短句。在本实施例中,对作为准稳态信号的语音信号进行信号分帧,分帧后得到的每个语音帧为固定长度,如0.1s。语音帧可分为有效语音帧以及静音帧。静音帧无法与输入文本中的任一字符对应,仅作为一个“空语音”存在。除了静音帧之外的语音帧皆为有效语音帧。以时长来表示语音信号的长度时,在每个时间点均能够对应获得语音信号中的一个语音帧,则该时间点即为语音帧的出现位置。根据语音信号中每个静音帧的出现位置,对输入文本进行分句处理,从而实现将一个输入文本划分为多个短句,每个短句包含若干个输入文本中的连续字符。作为本专利技术的一个实施例,S102具体如下:在S201中,将所述语音信号分解成多个语音帧,所述多个语音帧包括所述静音帧以及音素帧。将整段的语音信号切分成长度相同的多个短语音信号,每个短语音信号即为一个语音帧。其中,一个语音帧可能是静音帧,也可能是音素帧。在S203中,对所述输入文本进行分词处理,并获取每个分词对应的多个所述音素帧。输入文本可看作一个包含若干字符且各个字符有序排列的字符序列,利用预设的分词算法,对该字符序列切分成一个一个单独的字词。分词处理完成后,将得到输入文本中所包含的多个分词,每个分词由一个或多个上述字符组成。在输入文本对应的语音信号中,由于每个语音帧都是根据输入文本中字符的音素而自动合成产生的,因此,对于每个分词,能够对应地在该语音信号中匹配到多个音素帧。在S204中,若相邻的两个分词分别对应的多个所述音素帧之间存在一个或多个静音帧,则获取所述一个或多个静音帧的总时长。依照分词在输入文本中出现的先后顺序,对上述输入文本中的每个分词进行排序。排序后,提取连续出现的两个分词,则其为相邻的两个分词,且分别称为第一分词、第二分词。通过S203获得第一分词对应的且连续出现的多个语音帧,称为第一语音帧序列,获得第二分词对应的且连续出现的多个语音帧,称为第二语音帧序列。此时,判断第一语音帧序列与第二语音序列之间是否存在有静音帧。若第一语音帧序列与第二语音序列之间存在静音帧,则可能是单个静音帧,也可能是多个连续的静音帧,因此,需要获取各个静音帧的总时长,即静音时长本文档来自技高网...
虚拟人脸动画的生成方法及装置

【技术保护点】
一种虚拟人脸动画的生成方法,其特征在于,包括:将输入文本转化为语音信号;根据所述语音信号中静音帧的出现位置,对所述输入文本进行分句处理,得到多个短句;对于每个所述短句,生成虚拟人脸动画中的一个头部摆动动作;将每个所述短句映射成至少一个唇形;将每个所述短句对应的所述头部摆动动作与所述唇形融合,以生成每个所述短句对应的虚拟人脸动画。

【技术特征摘要】
1.一种虚拟人脸动画的生成方法,其特征在于,包括:将输入文本转化为语音信号;根据所述语音信号中静音帧的出现位置,对所述输入文本进行分句处理,得到多个短句;对于每个所述短句,生成虚拟人脸动画中的一个头部摆动动作;将每个所述短句映射成至少一个唇形;将每个所述短句对应的所述头部摆动动作与所述唇形融合,以生成每个所述短句对应的虚拟人脸动画。2.如权利要求1所述的方法,其特征在于,所述根据所述语音信号中静音帧的出现位置,对所述输入文本进行分句处理,得到多个短句,包括:将所述语音信号分解成多个语音帧,所述多个语音帧包括所述静音帧以及音素帧;对所述输入文本进行分词处理,并获取每个分词对应的多个所述音素帧;若相邻的两个分词分别对应的多个所述音素帧之间存在一个或多个静音帧,则获取所述一个或多个静音帧的总时长;当所述总时长大于第一预设阈值时,将相邻的两个分词分别划分至相邻的两个短句中;若划分得到的任意一个所述短句的字符总数大于第二预设阈值,则令所述第一预设阈值减少一个固定值,并重新对该短句进行分句处理,直至得到的每个短句的所述字符总数不大于所述第二预设阈值。3.如权利要求2所述的方法,其特征在于,在对所述输入文本进行分词处理,并获取每个分词对应的多个所述音素帧之前,所述方法还包括:获取每个所述语音帧中各音素的出现概率;获取所述语音信号对应的音素序列,所述音素序列包含按先后顺序依次排列的多个音素;根据所述音素序列中各个音素的排列顺序以及所述语音帧中各音素的出现概率,在所述多个语音帧中确定所述静音帧以及确定所述音素序列中各音素分别对应的音素帧。4.如权利要求3所述的方法,其特征在于,所述获取每个所述语音帧中各音素的出现概率包括:获取包含多条合成语音的语料库;基于所述语料库中的多条所述合成语音,构建并训练语音识别模型;将每个所述语音帧输入所述语音识别模型,以输出每个所述语音帧中各音素的出现概率。5.如权利要求1所述的方法,其特征在于,所述方法还包括:通过情感分析算法对所述输入文本进行处理,以得到所述输入文本的情感类型;获取所述情感类型对应的骨架系数,所述骨架系数表示虚拟人脸动画中预存储的一种表情姿态;根据所述骨架系数为所述虚拟人脸动画渲染人脸表情。6.一种虚拟人脸动画的生成装置,其特征在于,包括:第一获取单元,用于将输入文...

【专利技术属性】
技术研发人员:李松南
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1