一种动画绘本生成方法、装置、设备和存储介质制造方法及图纸

技术编号:33130311 阅读:9 留言:0更新日期:2022-04-17 00:46
本申请公开了一种动画绘本生成方法、装置、设备和存储介质,该方法包括:识别静态绘本中的若干对象以及若干文本;确定各对象以及各文本之间的对应关系,其中,对应关系表示文本由与文本对应的对象讲述;生成各文本的语音数据,以及确定各文本对应的对象的画面变化内容,其中,画面变化内容表示在播放文本对应的语音数据过程中对象的预设部位的变化;基于语音数据和画面变化内容,生成静态绘本对应的动画绘本数据。通过上述方式,本申请能够将绘本中的静态人物转化为能说会动的动画人物。中的静态人物转化为能说会动的动画人物。中的静态人物转化为能说会动的动画人物。

【技术实现步骤摘要】
一种动画绘本生成方法、装置、设备和存储介质


[0001]本申请涉及图像处理
,特别是涉及一种动画绘本生成方法、装置、设备和存储介质。

技术介绍

[0002]绘本是一种以图画为主,可以连贯成为一个完整故事的书,主要针对儿童,其可以帮助儿童了解世界、学习知识、培养孩童对于阅读的兴趣和爱好。
[0003]市面上现有的绘本可以分为两大类,一类静态绘本,该类绘本依赖人工阅读或绘本机器人机械阅读;另一类是动态绘本,该类绘本配套一些视频资源,该视频资源是预先制作好的,用户可以通过扫描绘本上的二维码或在浏览器界面输入链接进行观看,且视频资源仅是对绘本静态帧做了一些扭动,可看性不高且价格昂贵。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种动画绘本生成方法、装置、设备和存储介质,能够生成生动的动画人物。
[0005]为解决上述技术问题,本申请第一方面提供了一种动画绘本生成方法,该方法包括:识别静态绘本中的若干对象以及若干文本;确定各对象以及各文本之间的对应关系,其中,对应关系表示文本由与文本对应的对象讲述;生成各文本的语音数据,以及确定各文本对应的对象的画面变化内容,其中,画面变化内容表示在播放文本对应的语音数据过程中对象的预设部位的变化;基于语音数据和画面变化内容,生成静态绘本对应的动画绘本数据。
[0006]为解决上述技术问题,本申请第二方面提供了一种动画绘本生成装置,该装置包括:识别模块,该识别模块用于识别静态绘本中的若干对象以及若干文本;确定模块,该确定模块确定各对象以及各文本之间的对应关系,其中,对应关系表示文本由与文本对应的对象讲述;综合模块,该综合模块用于生成各文本的语音数据,以及确定各文本对应的对象的画面变化内容,其中,画面变化内容表示在播放文本对应的语音数据过程中对象的预设部位的变化;生成模块,该生成模块用于基于语音数据和画面变化内容,生成静态绘本对应的动画绘本数据。
[0007]为解决上述技术问题,本申请第三方面提供了一种动画绘本匹配设备,该设备包括相互耦接的存储器和处理器,存储器存储有程序指令;处理器用于执行存储器中存储的程序指令,以实现上述第一方面所述的方法。
[0008]为解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,该计算机存储介质用于存储程序指令,所述程序指令能够被执行以实现上述第一方面所述的方法。
[0009]本申请的有益效果是:区别于现有技术的情况,本申请通过识别静态绘本中的若干对象以及若干文本,确定各对象以及各文本之间的对应关系,将若干文本转化为语音数
据,使得静态绘本中的文本内容可以通过语音的方式表达;进一步确定各文本对应的对象的画面变化内容,即确定经语音驱动后的对象的目标部位图像,结合语音数据和目标部位图像,生成静态绘本对应的动画绘本数据。即可以实现将静态绘本实时转换成动态绘本,无需预先配置动态绘本,减少配置成本,且针对现有存在的静态绘本均可转换为动态绘本,提高动态绘本的灵活性,另外,将绘本中的静态人物转化为能说会动的动画人物,提高绘本的生动性。
附图说明
[0010]图1是本申请动画绘本生成方法第一实施方式的流程示意图;
[0011]图2是本申请动画绘本生成方法第一实施方式中步骤S120一实施方式的流程示意图;
[0012]图3是本申请动画绘本生成方法第一实施方式中步骤S130一实施方式的流程示意图;
[0013]图4是本申请动画绘本生成方法第一实施方式中步骤S130另一实施方式的流程示意图;
[0014]图5是步骤S432中确定目标对象的画面变化内容一实施方式的流程示意图;
[0015]图6是本申请动画绘本生成方法第二实施方式的流程示意图;
[0016]图7是本申请动画绘本生成方法第三实施方式的流程示意图;
[0017]图8是本申请动画绘本生成方法第四实施方式的流程示意图;
[0018]图9是本申请提供的动画绘本生成装置一实施方式的框架示意图;
[0019]图10是本申请提供的动画绘本生成设备一实施方式的框架示意图;
[0020]图11是本申请计算机可读存储介质一实施方式的框架示意图。
具体实施方式
[0021]下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0022]需要说明的是,本申请实施例中有涉及“第一”、“第二”等的描述,该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
[0023]参阅图1,图1是本申请动画绘本生成方法第一实施方式的流程示意图,该方法包括:
[0024]S110:识别静态绘本中的若干对象以及若干文本。
[0025]其中,若干对象为静态绘本中出现的除文本内容和绘本背景外的内容,可以为绘本中出现的人物、动物等。可以使用目标检测器检测静态绘本,得到绘本中包含的对象,并进行标注。例如,检测出两个人物对象,则可以标注为人物1和人物2。在一实施方式中,可以采用动画绘本检测器检测静态绘本中的若干对象。在其它实施方式中,也可以使用其它的
检测设备,在此不做限定。
[0026]对于静态绘本中的若干文本,在一实施方式中,可以采用OCR(Optical Character Recognition,光学字符识别)识别得到文本内容。
[0027]S120:确定各对象以及各文本之间的对应关系。
[0028]在一实施方式中,对应关系表示文本由与文本对应的对象讲述,步骤S110将检测设备检测得到的若干对象和识别到的若干文本内容发送给神经网络模型,神经网络模型对若干对象和若干文本内容进行编码,获得各对象的图像特征和各文本第一文本特征,通过计算各对象的图像特征和各文本第一文本特征之间的相似度,得到各对象以及各文本之间的对应关系,即可以得到各文本对应的讲述对象。其中,神经网络模型可以为由多个神经网络组成的整体模型;也可以为多个小的神经网络模型,基于它们之间的交互,得到各对象以及各文本之间的对应关系。例如,由第一提取网络得到静态绘本中若干对象的图像特征,由第二提取网络获得各文本第一文本特征,再采用关系识别网络得到各对象的图像特征和各文本第一文本特征之间的相似度,进而获得各对象的图像特征和各文本第一文本特征之间的相似度。
[0029]S130:生成各文本的语音数据,以及确定各文本对应的对象的画面变化内容。
[0030]具体地,可以基于识别的若干文本内容,生成语音数据。在一实施方式中,可以采用语音合成框架(如tacotron或tacotron2)合成语音数据。进一步地,可以确定对象在讲述合成的语音数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种动画绘本生成方法,其特征在于,包括:识别静态绘本中的若干对象以及若干文本;确定各所述对象以及各所述文本之间的对应关系,其中,所述对应关系表示所述文本由与所述文本对应的对象讲述;生成各所述文本的语音数据,以及确定各所述文本对应的对象的画面变化内容,其中,所述画面变化内容表示在播放所述文本对应的语音数据过程中所述对象的预设部位的变化;基于所述语音数据和所述画面变化内容,生成所述静态绘本对应的动画绘本数据。2.根据权利要求1所述的方法,其特征在于,所述识别静态绘本中的若干对象以及若干文本,包括:对所述静态绘本进行对象检测,得到包含所述若干对象的检测结果;以及对所述静态绘本进行文本识别,得到所述若干文本。3.根据权利要求1所述的方法,其特征在于,所述确定各所述对象以及各所述文本之间的对应关系,包括:利用第一提取网络从所述静态绘本中提取各所述对象的图像特征;以及对于各所述文本,利用第二提取网络从所述文本中提取所述文本的若干词向量,并将所述文本的若干词向量聚合得到所述文本的第一文本特征;利用关系识别网络对各所述对象的图像特征和各所述文本的第一文本特征进行判别,得到各所述文本与各所述对象之间的相似度;基于所述相似度,得到各所述对象以及各所述文本之间的对应关系。4.根据权利要求1所述的方法,其特征在于,所述生成各所述文本的语音数据,包括:确定各所述文本对应的声音参考信息,其中,所述声音参考信息包括角色类别和情感类别中至少一者;基于所述声音参考信息,生成各所述文本的语音数据。5.根据权利要求4所述的方法,其特征在于,所述确定各所述文本对应的声音参考信息,包括:从所述若干文本中抽取得到至少一个命名实体的实体特征;利用信息识别网络对各所述文本的第二文本特征和各所述命名实体的实体特征进行处理,得到各所述文本对应的声音参考信息;和/或,所述声音参考信息包括角色类别和情感类别,所述基于所述声音参考信息,生成各所述文本的语音数据,包括:基于所述文本对应的角色类别,确定所述文本对应的目标音色;基于所述文本对应的目标音色和情感类别,对所述文本进行语音合成,得到所述文本的语音数据。6.根据权利要求5所述的方法,其特征在于,所述利用信息识别网络对各所述文本的第二文本特征和各所述命名实体的实体特征进行处理,得到各所述文本对应的声音参考信息,包括:基于各所述命名实体的实体特征,确定各所述命名实体之间的实体关系,以及基于各所述文本的第二文本特征,得到各所述文本之间的文本关系;
基于所述实体关系和文本关系,确定各所述命名实体与各所述文本之间的对应关系,利用各所述命名实体与各所述文本之间的对应关,得到各所述文本对应的声音参考信息。7.根据权利要求1所述的方法,其特征在于,所述确定各所述文本对应的所述对象的画面变化内容,包括:在所述静态绘本中检测出各所述对象的预设部位对应的部位区域,对所述对象的部位区域进行关键点提取,得到所述对象的参考关键点位置信息,其中,所述参考关键点位置信息包括所述对象的预设部位中多个关键点在所述静态绘本的位置信息;对于各所述文本,将所述文本对应的对象和语音数据作为目标对象和目标语音,基于所述目标对象的参考关键点位置信息以及所述目标语音,得到所述目标对象的多个关键点在播放所述目标语音过程中的位置变化情况,基于所述目标对象对应的所述位置变化情况,确定所述目标对象的画面变化内容。8.根据权利要求7所述的方法,其特征在于,所述目标对象对应的所述位置变化情况包括所述目标对象的若干组关键点位置偏移量,不同组所述关键点位置偏移量对应所述目标语音的不同时间片段,每组所述关键点位置偏移量包括所述目标对象的多个关键点对应所述时间片段的位置偏移量;所述基于所述目标对象对应的所述位置变化情况,确定所述目标对象的画面变化内容,包括:对于各所述时间片段,基于所述目标对象对应所述时间片段的关键点位置偏移量,确定所述目标对象对应所述时间片段的目标部位图像;其中,所述目标部位图像包含所述预设部位,所述目标对象对应不同所述时间片段的若干帧所述目标部位图像组成所述目标对象的画面变化内容。9.根据权利要求8所述的方法,其特征在于,所述基于所述目标对象的参考关键点位置信息以及所述目标语音,得到所述目标对象的多个关键点在播放所述目标语音过程中的位置变化情况,包括:提取所述目标语音的语音特征;利用位置预测网络对所述目标对象的参考关键点位置信息和所述语音特征进行处理,得到所述目标对象的若干组关键点位置偏移量;和/或,所述基于所述目标对象对应所述时间片段的...

【专利技术属性】
技术研发人员:吴小燕何山殷兵胡金水
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1