System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种视频合成方法、装置、设备、朗读亭和存储介质制造方法及图纸_技高网

一种视频合成方法、装置、设备、朗读亭和存储介质制造方法及图纸

技术编号:41125472 阅读:2 留言:0更新日期:2024-04-30 17:52
本申请公开了一种视频合成方法、装置、设备、朗读亭和存储介质,其中,视频合成方法包括:获取目标文本以及目标对象口播目标文本的目标音频;提取目标文本在目标音频中的时间戳信息,并生成与目标文本内容匹配的目标图像;基于时间戳信息,生成包含目标图像的背景视频;至少基于目标音频、背景视频和时间戳信息,生成要素信息;其中,要素信息定义有各个视频元素在目标视频的起止时间、层次位置、大小尺寸中至少一者,各个视频元素用于合成目标视频,且至少包括目标文本、目标音频和背景视频;基于各个视频元素和要素信息进行视频合成,得到目标视频。上述方案,能够在提升视频元素丰富度的同时,尽可能地确保时间同步,以增强视频合成效果。

【技术实现步骤摘要】

本申请涉及视频处理,特别是涉及一种视频合成方法、装置、设备、朗读亭和存储介质


技术介绍

1、随着短视频、自媒体等相关应用的快速发展,将录音作品作为视频元素进行视频合成,以提高作品的观赏性和表现效果,来提升用户的视听体验,也越发受到关注。

2、目前,视频合成主要依赖于人工手动制作/搜索视频元素,导致视频元素的丰富度受到极大制约,且受专业水准的影响,容易出现时间不同步的问题。

3、因此,如何在提升视频元素丰富度的同时,尽可能地确保时间同步,以增强视频合成效果,成为亟待解决的问题。


技术实现思路

1、本申请主要解决的技术问题是提供一种视频合成方法、装置、设备、朗读亭和存储介质,能够在提升视频元素丰富度的同时,尽可能地确保时间同步,以增强视频合成效果。

2、为了解决上述技术问题,本申请第一方面提供了一种视频合成方法,视频合成方法包括:获取目标文本以及目标对象口播目标文本的目标音频;提取目标文本在目标音频中的时间戳信息,并生成与目标文本内容匹配的目标图像;基于时间戳信息,生成包含目标图像的背景视频;至少基于目标音频、背景视频和时间戳信息,生成要素信息;其中,要素信息定义有各个视频元素在目标视频的起止时间、层次位置、大小尺寸中至少一者,各个视频元素用于合成目标视频,且至少包括目标文本、目标音频和背景视频;基于各个视频元素和要素信息进行视频合成,得到目标视频。

3、为了解决上述技术问题,本申请第二方面提供了一种视频合成装置,视频合成装置包括获取模块、提取模块、第一生成模块、第二生成模块和合成模块。获取模块用于获取目标文本以及目标对象口播目标文本的目标音频;提取模块用于提取目标文本在目标音频中的时间戳信息,并生成与目标文本内容匹配的目标图像;第一生成模块用于基于时间戳信息,生成包含目标图像的背景视频;第二生成模块用于至少基于目标音频、背景视频和时间戳信息,生成要素信息;其中,要素信息定义有各个视频元素在目标视频的起止时间、层次位置、大小尺寸中至少一者,各个视频元素用于合成目标视频,且至少包括目标文本、目标音频和背景视频;合成模块用于基于各个视频元素和要素信息进行视频合成,得到目标视频。

4、为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面的视频合成方法。

5、为了解决上述技术问题,本申请第四方面提供了一种朗读亭,至少包括拾音装置和处理装置,拾音装置连接于处理装置,用于采集朗读亭中目标对象口播目标文本的目标音频,且处理装置为上述第三方面的电子设备。

6、为了解决上述技术问题,本申请第五方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的视频合成方法。

7、上述方案,通过获取目标文本以及目标对象口播目标文本的目标音频;以及提取目标文本在目标音频中的时间戳信息,并生成与目标文本内容匹配的目标图像;再基于时间戳信息,生成包含目标图像的背景视频;并至少基于目标音频、背景视频和时间戳信息,生成要素信息;然后基于各个视频元素和要素信息进行视频合成,得到目标视频;其中,要素信息定义有各个视频元素在目标视频的起止时间、层次位置、大小尺寸中至少一者,各个视频元素用于合成目标视频,且至少包括目标文本、目标音频和背景视频。通过获取目标文本在目标音频中的时间戳信息,一方面,可以生成与目标文本内容匹配的背景视频,提升视频元素丰富度,另一方面,基于时间戳信息还能够将目标文本、目标音频与背景视频的相关要素生成要素信息,并与各个视频元素一起作为视频合成数据,即时间戳信息能够统一要素信息与各个视频元素的时间信息,提升视频合成数据在时间维度上的匹配度,增强视频合成效果,故此,能够在提升视频元素丰富度的同时,尽可能地确保时间同步,以增强视频合成效果。

本文档来自技高网...

【技术保护点】

1.一种视频合成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述各个视频元素和所述要素信息进行视频合成,得到所述目标视频,包括:

3.根据权利要求1所述的方法,其特征在于,所述生成与所述目标文本内容匹配的目标图像,包括:

4.根据权利要求1所述的方法,其特征在于,所述至少基于所述目标音频、所述背景视频和所述时间戳信息,生成要素信息,包括:

5.根据权利要求1或4所述的方法,其特征在于,所述基于所述各个视频元素和所述要素信息进行视频合成,得到所述目标视频之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述实景视频,更新所述要素信息,包括:

7.一种视频合成装置,其特征在于,包括:

8.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至6任一项所述的视频合成方法。

9.一种朗读亭,其特征在于,至少包括拾音装置和处理装置,所述拾音装置连接于所述处理装置,用于采集所述朗读亭中目标对象口播目标文本的目标音频,且所述处理装置为权利要求8所述的电子设备。

10.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至6任一项所述的视频合成方法。

...

【技术特征摘要】

1.一种视频合成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述各个视频元素和所述要素信息进行视频合成,得到所述目标视频,包括:

3.根据权利要求1所述的方法,其特征在于,所述生成与所述目标文本内容匹配的目标图像,包括:

4.根据权利要求1所述的方法,其特征在于,所述至少基于所述目标音频、所述背景视频和所述时间戳信息,生成要素信息,包括:

5.根据权利要求1或4所述的方法,其特征在于,所述基于所述各个视频元素和所述要素信息进行视频合成,得到所述目标视频之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于...

【专利技术属性】
技术研发人员:周俊汪张龙胡阳张武旭
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1