【技术实现步骤摘要】
一种动画绘本生成方法、装置、设备和存储介质
[0001]本申请涉及图像处理
,特别是涉及一种动画绘本生成方法、装置、设备和存储介质。
技术介绍
[0002]绘本是一种以图画为主,可以连贯成为一个完整故事的书,主要针对儿童,其可以帮助儿童了解世界、学习知识、培养孩童对于阅读的兴趣和爱好。
[0003]市面上现有的绘本可以分为两大类,一类静态绘本,该类绘本依赖人工阅读或绘本机器人机械阅读;另一类是动态绘本,该类绘本配套一些视频资源,该视频资源是预先制作好的,用户可以通过扫描绘本上的二维码或在浏览器界面输入链接进行观看,且视频资源仅是对绘本静态帧做了一些扭动,可看性不高且价格昂贵。
技术实现思路
[0004]本申请主要解决的技术问题是提供一种动画绘本生成方法、装置、设备和存储介质,能够生成生动的动画人物。
[0005]为解决上述技术问题,本申请第一方面提供了一种动画绘本生成方法,该方法包括:识别静态绘本中的若干对象以及若干文本;确定各对象以及各文本之间的对应关系,其中,对应关系表示文本由与文本对应的对象讲述;生成各文本的语音数据,以及确定各文本对应的对象的画面变化内容,其中,画面变化内容表示在播放文本对应的语音数据过程中对象的预设部位的变化;基于语音数据和画面变化内容,生成静态绘本对应的动画绘本数据。
[0006]为解决上述技术问题,本申请第二方面提供了一种动画绘本生成装置,该装置包括:识别模块,该识别模块用于识别静态绘本中的若干对象以及若干文本;确定模块,该确定模块确定各对象 ...
【技术保护点】
【技术特征摘要】
1.一种动画绘本生成方法,其特征在于,包括:识别静态绘本中的若干对象以及若干文本;确定各所述对象以及各所述文本之间的对应关系,其中,所述对应关系表示所述文本由与所述文本对应的对象讲述;生成各所述文本的语音数据,以及确定各所述文本对应的对象的画面变化内容,其中,所述画面变化内容表示在播放所述文本对应的语音数据过程中所述对象的预设部位的变化;基于所述语音数据和所述画面变化内容,生成所述静态绘本对应的动画绘本数据。2.根据权利要求1所述的方法,其特征在于,所述识别静态绘本中的若干对象以及若干文本,包括:对所述静态绘本进行对象检测,得到包含所述若干对象的检测结果;以及对所述静态绘本进行文本识别,得到所述若干文本。3.根据权利要求1所述的方法,其特征在于,所述确定各所述对象以及各所述文本之间的对应关系,包括:利用第一提取网络从所述静态绘本中提取各所述对象的图像特征;以及对于各所述文本,利用第二提取网络从所述文本中提取所述文本的若干词向量,并将所述文本的若干词向量聚合得到所述文本的第一文本特征;利用关系识别网络对各所述对象的图像特征和各所述文本的第一文本特征进行判别,得到各所述文本与各所述对象之间的相似度;基于所述相似度,得到各所述对象以及各所述文本之间的对应关系。4.根据权利要求1所述的方法,其特征在于,所述生成各所述文本的语音数据,包括:确定各所述文本对应的声音参考信息,其中,所述声音参考信息包括角色类别和情感类别中至少一者;基于所述声音参考信息,生成各所述文本的语音数据。5.根据权利要求4所述的方法,其特征在于,所述确定各所述文本对应的声音参考信息,包括:从所述若干文本中抽取得到至少一个命名实体的实体特征;利用信息识别网络对各所述文本的第二文本特征和各所述命名实体的实体特征进行处理,得到各所述文本对应的声音参考信息;和/或,所述声音参考信息包括角色类别和情感类别,所述基于所述声音参考信息,生成各所述文本的语音数据,包括:基于所述文本对应的角色类别,确定所述文本对应的目标音色;基于所述文本对应的目标音色和情感类别,对所述文本进行语音合成,得到所述文本的语音数据。6.根据权利要求5所述的方法,其特征在于,所述利用信息识别网络对各所述文本的第二文本特征和各所述命名实体的实体特征进行处理,得到各所述文本对应的声音参考信息,包括:基于各所述命名实体的实体特征,确定各所述命名实体之间的实体关系,以及基于各所述文本的第二文本特征,得到各所述文本之间的文本关系;
基于所述实体关系和文本关系,确定各所述命名实体与各所述文本之间的对应关系,利用各所述命名实体与各所述文本之间的对应关,得到各所述文本对应的声音参考信息。7.根据权利要求1所述的方法,其特征在于,所述确定各所述文本对应的所述对象的画面变化内容,包括:在所述静态绘本中检测出各所述对象的预设部位对应的部位区域,对所述对象的部位区域进行关键点提取,得到所述对象的参考关键点位置信息,其中,所述参考关键点位置信息包括所述对象的预设部位中多个关键点在所述静态绘本的位置信息;对于各所述文本,将所述文本对应的对象和语音数据作为目标对象和目标语音,基于所述目标对象的参考关键点位置信息以及所述目标语音,得到所述目标对象的多个关键点在播放所述目标语音过程中的位置变化情况,基于所述目标对象对应的所述位置变化情况,确定所述目标对象的画面变化内容。8.根据权利要求7所述的方法,其特征在于,所述目标对象对应的所述位置变化情况包括所述目标对象的若干组关键点位置偏移量,不同组所述关键点位置偏移量对应所述目标语音的不同时间片段,每组所述关键点位置偏移量包括所述目标对象的多个关键点对应所述时间片段的位置偏移量;所述基于所述目标对象对应的所述位置变化情况,确定所述目标对象的画面变化内容,包括:对于各所述时间片段,基于所述目标对象对应所述时间片段的关键点位置偏移量,确定所述目标对象对应所述时间片段的目标部位图像;其中,所述目标部位图像包含所述预设部位,所述目标对象对应不同所述时间片段的若干帧所述目标部位图像组成所述目标对象的画面变化内容。9.根据权利要求8所述的方法,其特征在于,所述基于所述目标对象的参考关键点位置信息以及所述目标语音,得到所述目标对象的多个关键点在播放所述目标语音过程中的位置变化情况,包括:提取所述目标语音的语音特征;利用位置预测网络对所述目标对象的参考关键点位置信息和所述语音特征进行处理,得到所述目标对象的若干组关键点位置偏移量;和/或,所述基于所述目标对象对应所述时间片段的...
【专利技术属性】
技术研发人员:吴小燕,何山,殷兵,胡金水,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。