一种视频合成方法、装置、设备、朗读亭和存储介质制造方法及图纸

技术编号：41125472 阅读：2 留言：0更新日期：2024-04-30 17:52

本申请公开了一种视频合成方法、装置、设备、朗读亭和存储介质，其中，视频合成方法包括：获取目标文本以及目标对象口播目标文本的目标音频；提取目标文本在目标音频中的时间戳信息，并生成与目标文本内容匹配的目标图像；基于时间戳信息，生成包含目标图像的背景视频；至少基于目标音频、背景视频和时间戳信息，生成要素信息；其中，要素信息定义有各个视频元素在目标视频的起止时间、层次位置、大小尺寸中至少一者，各个视频元素用于合成目标视频，且至少包括目标文本、目标音频和背景视频；基于各个视频元素和要素信息进行视频合成，得到目标视频。上述方案，能够在提升视频元素丰富度的同时，尽可能地确保时间同步，以增强视频合成效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及视频处理，特别是涉及一种视频合成方法、装置、设备、朗读亭和存储介质。

技术介绍

1、随着短视频、自媒体等相关应用的快速发展，将录音作品作为视频元素进行视频合成，以提高作品的观赏性和表现效果，来提升用户的视听体验，也越发受到关注。

2、目前，视频合成主要依赖于人工手动制作/搜索视频元素，导致视频元素的丰富度受到极大制约，且受专业水准的影响，容易出现时间不同步的问题。

3、因此，如何在提升视频元素丰富度的同时，尽可能地确保时间同步，以增强视频合成效果，成为亟待解决的问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种视频合成方法、装置、设备、朗读亭和存储介质，能够在提升视频元素丰富度的同时，尽可能地确保时间同步，以增强视频合成效果。

2、为了解决上述技术问题，本申请第一方面提供了一种视频合成方法，视频合成方法包括：获取目标文本以及目标对象口播目标文本的目标音频；提取目标文本在目标音频中的时间戳信息，并生成与目标文本内容匹配的目标图像；基于时间戳信息，生成包含目标图像的背景视频；至少基于目标音频、背景视频和时间戳信息，生成要素信息；其中，要素信息定义有各个视频元素在目标视频的起止时间、层次位置、大小尺寸中至少一者，各个视频元素用于合成目标视频，且至少包括目标文本、目标音频和背景视频；基于各个视频元素和要素信息进行视频合成，得到目标视频。

3、为了解决上述技术问题，本申请第二方面提供了一种视频合成装置，视频合成装置包括获取模

4、为了解决上述技术问题，本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述第一方面的视频合成方法。

5、为了解决上述技术问题，本申请第四方面提供了一种朗读亭，至少包括拾音装置和处理装置，拾音装置连接于处理装置，用于采集朗读亭中目标对象口播目标文本的目标音频，且处理装置为上述第三方面的电子设备。

6、为了解决上述技术问题，本申请第五方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述第一方面中的视频合成方法。

7、上述方案，通过获取目标文本以及目标对象口播目标文本的目标音频；以及提取目标文本在目标音频中的时间戳信息，并生成与目标文本内容匹配的目标图像；再基于时间戳信息，生成包含目标图像的背景视频；并至少基于目标音频、背景视频和时间戳信息，生成要素信息；然后基于各个视频元素和要素信息进行视频合成，得到目标视频；其中，要素信息定义有各个视频元素在目标视频的起止时间、层次位置、大小尺寸中至少一者，各个视频元素用于合成目标视频，且至少包括目标文本、目标音频和背景视频。通过获取目标文本在目标音频中的时间戳信息，一方面，可以生成与目标文本内容匹配的背景视频，提升视频元素丰富度，另一方面，基于时间戳信息还能够将目标文本、目标音频与背景视频的相关要素生成要素信息，并与各个视频元素一起作为视频合成数据，即时间戳信息能够统一要素信息与各个视频元素的时间信息，提升视频合成数据在时间维度上的匹配度，增强视频合成效果，故此，能够在提升视频元素丰富度的同时，尽可能地确保时间同步，以增强视频合成效果。

本文档来自技高网...

【技术保护点】

1.一种视频合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述各个视频元素和所述要素信息进行视频合成，得到所述目标视频，包括：

3.根据权利要求1所述的方法，其特征在于，所述生成与所述目标文本内容匹配的目标图像，包括：

4.根据权利要求1所述的方法，其特征在于，所述至少基于所述目标音频、所述背景视频和所述时间戳信息，生成要素信息，包括：

5.根据权利要求1或4所述的方法，其特征在于，所述基于所述各个视频元素和所述要素信息进行视频合成，得到所述目标视频之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述实景视频，更新所述要素信息，包括：

7.一种视频合成装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至6任一项所述的视频合成方法。

9.一种朗读亭，其特征在于，至少包括拾音装置和处理装置，所述拾音装置连接于所述处理装置，用于采集所述

10.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至6任一项所述的视频合成方法。

...

【技术特征摘要】

1.一种视频合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述各个视频元素和所述要素信息进行视频合成，得到所述目标视频，包括：

3.根据权利要求1所述的方法，其特征在于，所述生成与所述目标文本内容匹配的目标图像，包括：

4.根据权利要求1所述的方法，其特征在于，所述至少基于所述目标音频、所述背景视频和所述时间戳信息，生成要素信息，包括：

5.根据权利要求1或4所述的方法，其特征在于，所述基于所述各个视频元素和所述要素信息进行视频合成，得到所述目标视频之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于...

【专利技术属性】
技术研发人员：周俊，汪张龙，胡阳，张武旭，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人