一种视频封面生成方法及装置制造方法及图纸

技术编号：44102916 阅读：0 留言：0更新日期：2025-01-24 22:30

本发明专利技术公开了一种视频封面生成方法及装置，方法包括：对目标视频中的帧图像通过预置过滤条件进行过滤，得到候选帧图像，计算每个候选帧图像的视频帧特征；计算视频帧特征对应的文本描述的文本特征；引入跨模态交互方式，衡量每一个候选帧图像与文本特征的语义相关程度；根据相关程度计算确定每个候选帧图像成为封面帧的选择概率，以基于概率值确定出高质量且与文本描述最相关的视频帧为候选封面；响应于用户指定的封面风格，对候选封面进行个性化处理，生成目标封面。装置包括：处理器和存储器。本发明专利技术解决了目前视频封面的自动生成效果欠佳，且生成的封面与视频内容相关度差的问题，本发明专利技术能够自动为视频生成个性化封面的视频封面，提升用户体验和增强视频吸引力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频处理领域，尤其涉及一种视频封面生成方法及装置。

技术介绍

1、近年来，随着移动互联网和以手机为代表的智能终端、视频拍摄设备的普及，人们进行拍摄、分享视频的门槛越来越低。这极大促进了短视频平台的飞速发展，据统计，很多视频社交平台，每天有超过10亿活跃用户和超过200亿次的视频播放量。然而对于海量的视频数据，许多非专业视频创作者通常没有足够的时间或专业知识来选择吸引人的视频封面帧。并且大多数视频网站，在用户未上传封面时，一般会使用视频的前几帧作为默认封面。然而，这些默认封面通常质量较低，画面模糊或过暗，且无法准确地反映视频的主要内容，从而影响视频的点击率和流行度。同时，原始的视频图像帧往往存在内容吸引力不足，图像风格流行性差的缺点。因此，如何实现智能化的视频封面生成是亟需解决的重要问题。

2、传统的封面生成方法主要是基于视频模态的图像帧分析，他们往往从视频帧的颜色、清晰度、明暗度、内容丰富程度等方面出发，综合评价帧的图像美学信息。但这种方法过于依赖手动设计的评价指标，无法最优的适应复杂多样的视频数据。随着深度学习的快速发展，基于深度学习的视频帧生成方案也可为视频生成封面图，但是这种技术方案没有综合考虑视频中文本模态数据的作用，所生成的画面往往不符合视频内容所表达的主题。

3、现实短视频平台场景中，人们往往同时关注视频封面和对应的文本描述，以及封面的个性化艺术风格，如果封面选择和描述迥异，并且不具备流行风格，将很大程度上影响浏览兴趣和点击倾向。因此，一个与视频描述一致且具有高质量具备个性化风格

技术实现思路

1、本专利技术提供了一种视频封面生成方法及装置，本专利技术解决了目前视频封面的自动生成效果欠佳，且生成的封面与视频内容相关度差，且缺乏新意的问题，本专利技术能够自动为视频生成个性化封面的视频封面，提升用户体验和增强视频吸引力，详见下文描述：

2、一种视频封面生成方法，所述方法包括：

3、对目标视频中的帧图像通过预置过滤条件进行过滤，得到候选帧图像，计算每个候选帧图像的视频帧特征；计算视频帧特征对应的文本描述的文本特征；

4、引入跨模态交互方式，衡量每一个候选帧图像与文本特征的语义相关程度；根据相关程度计算确定每个候选帧图像成为封面帧的选择概率，以基于概率值确定出高质量且与文本描述最相关的视频帧为候选封面；

5、响应于用户指定的封面风格，对候选封面进行个性化处理，生成目标封面。

6、其中，所述对目标视频中的帧图像通过预置过滤条件进行过滤具体为：

7、对目标视频中的帧图像进行关于图像亮度、清晰度以及色彩单一化的过滤，得到第一过滤结果；

8、基于第一过滤结果中满足时间序列的相邻两帧图像的边缘画质变化速率确定过渡帧图像，并滤除过渡帧图像，得到候选帧图像。

9、其中，所述根据相关程度计算确定每个候选帧图像成为封面帧的选择概率，以基于概率值确定出高质量且与文本描述最相关的视频帧为候选封面具体为：

10、将文本特征和视频帧特征映射至同一语义空间中；计算文本特征和视频帧特征在语义空间中的距离，并基于距离确定文本特征和视频帧特征之间的相似度；

11、基于相似度计算确定每个候选帧图像被选择成为候选封面的概率；将概率值最大的候选帧图像确定为候选封面。

12、其中，所述方法还包括：构建用于选取候选封面的目标模型，以基于目标模型为视频选取候选封面，其中，目标模型的损失函数为：

13、

14、其中，||·||f表示像素值的平方和，为模型选取的候选封面，itruth为实际候选封面。

15、其中，所述响应于用户指定的封面风格，对候选封面进行个性化处理，生成目标封面具体为：

16、确定用户指定的封面风格的特定词；将特定词基于词向量模型映射为第一特征向量；

17、将候选帧图像对应的文本嵌入特征基于词向量模型映射为第二特征向量；基于文本编码器处理第一特征向量和第二特征向量生成文本引导特征；

18、基于文本引导特征以及与候选封面对应的文本嵌入特征生成匹配用户指定的封面风格的风格化文本嵌入信息；基于风格化文本嵌入信息处理候选封面，得到具有用户指定的封面风格的目标封面。

19、第二方面、一种视频封面生成装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法。

20、第三方面、一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法。

21、本专利技术提供的技术方案的有益效果是：

22、1、本方法能够同时参考视频和文本两种模态信息，实现跨模态的视频封面的自动生成；

23、2、本方法对视频平台中的视频和对应的文本描述进行双支路的特征抽取，包括：视频支路预处理和帧特征抽取、文本支路特征抽取；接着通过交叉注意力机制计算候选帧和文本之间的语义相关程度，并通过相关程度计算成为封面的概率值，之后输出概率最大的候选帧图像作为视频的候选封面，利用视频和文本两种模态信息计算确定候选封面的过程可以保证选择效率，以及封面质量，避免封面出现与视频内容不相关或画质欠佳的现象；

24、3、为了满足用户的个性化需求，本专利技术还可以实现个性化风格迁移，使用户指定的风格特征能够迁移至候选封面中，进而生成具有用户指定风格的目标封面，如此不仅满足用户的个性化需求，而且增加封面的趣味性和吸引力，具有较强的应用价值。

本文档来自技高网...

【技术保护点】

1.一种视频封面生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种视频封面生成方法，其特征在于，所述对目标视频中的帧图像通过预置过滤条件进行过滤具体为：

3.根据权利要求1所述的一种视频封面生成方法，其特征在于，所述根据相关程度计算确定每个候选帧图像成为封面帧的选择概率，以基于概率值确定出高质量且与文本描述最相关的视频帧为候选封面具体为：

4.根据权利要求1所述的一种视频封面生成方法，其特征在于，所述方法还包括：构建用于选取候选封面的目标模型，以基于目标模型为视频选取候选封面，其中，目标模型的损失函数为：

5.根据权利要求1所述的一种视频封面生成方法，其特征在于，所述响应于用户指定的封面风格，对候选封面进行个性化处理，生成目标封面具体为：

6.一种视频封面生成装置，其特征在于，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-5中的任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程

...

【技术特征摘要】

1.一种视频封面生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种视频封面生成方法，其特征在于，所述对目标视频中的帧图像通过预置过滤条件进行过滤具体为：

4.根据权利要求1所述的一种视频封面生成方法，其特征在于，所述方法还包括：构建用于选取候选封面的目标模型，以基于目标模型为视频选取候选封面，其中，目标模型的损...

【专利技术属性】
技术研发人员：张深源，刘安安，王岚君，徐宁，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人