用于生成解说视频的方法、装置、设备和存储介质制造方法及图纸

技术编号：37186555 阅读：18 留言：0更新日期：2023-04-20 22:49

根据本公开的实施例，提供了用于生成解说视频的方法、装置、设备和存储介质。该方法包括提取解说文本中的多个文本片段分别对应的多个文本特征；提取目标视频中的多个视频片段分别对应的多个视频特征；基于多个文本特征和多个视频特征，确定多个文本片段与多个视频片段的相似度矩阵，相似度矩阵中的每个相似度对应于一对文本片段和视频片段；基于相似度矩阵，从多个视频片段选择多个文本片段各自匹配的一组视频片段；以及基于多个文本片段和匹配的一组视频片段来生成针对目标视频的解说视频。由此，可以基于特征匹配，实现自动化生产解说视频，提高制作效率。提高制作效率。提高制作效率。

全部详细技术资料下载

【技术实现步骤摘要】
用于生成解说视频的方法、装置、设备和存储介质

[0001]本公开的示例实施例总体涉及计算机领域，特别地涉及用于解说视频方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]解说视频是指用一个精炼的短视频，快速讲述原视频中包含的内容。通过碎片化的剪辑原视频并配以总结性的文案，解说视频能够使观众快速了解原视频。例如，基于影视内容的解说视频，一方面可以帮助观众快速筛选感兴趣的影视剧，以较低的成本追赶社会热点；另一方面，也满足了互联网用户碎片化时间的娱乐需求。

技术实现思路

[0003]在本公开的第一方面，提供了一种用于生成解说视频的方法。该方法包括：提取解说文本中的多个文本片段分别对应的多个文本特征；提取目标视频中的多个视频片段分别对应的多个视频特征；基于多个文本特征和多个视频特征，确定多个文本片段与多个视频片段的相似度矩阵，相似度矩阵中的每个相似度对应于一对文本片段和视频片段；基于相似度矩阵，从多个视频片段选择多个文本片段各自匹配的一组视频片段；以及基于多个文本片段和匹配的一组视频片段来生成针对目标视频的解说视频。
[0004]在本公开的第二方面，提供了一种用于生成解说视频的装置。该装置包括：样本视频片段确定模块，被配置为从样本目标视频确定与样本解说视频中的多个样本解说片段匹配的多个样本视频片段；样本解说文本确定模块，被配置为确定样本解说视频对应的样本解说文本；匹配关系确定模块，被配置为确定样本解说视频中的多个样本解说片段与样本解说文本中的多个样本文本片段之间的匹配关系；以及匹配模块，...

【技术保护点】

【技术特征摘要】
1.一种用于生成解说视频的方法，包括：提取解说文本中的多个文本片段分别对应的多个文本特征；提取目标视频中的多个视频片段分别对应的多个视频特征；基于所述多个文本特征和所述多个视频特征，确定所述多个文本片段与所述多个视频片段的相似度矩阵，所述相似度矩阵中的每个相似度对应于一对文本片段和视频片段；基于所述相似度矩阵，从所述多个视频片段选择所述多个文本片段各自匹配的一组视频片段；以及基于所述多个文本片段和匹配的所述一组视频片段来生成针对所述目标视频的解说视频。2.根据权利要求1所述的方法，其中选择所述一组视频片段包括：通过对所述相似度矩阵应用动态时间规整DTW来选择所述一组视频片段，所述一组视频片段按在所述目标视频中的出现顺序来排列。3.根据权利要求1所述的方法，其中所述多个文本特征的提取、所述多个视频特征的提取和所述相似度矩阵的确定是利用经训练的机器学习模型来执行的，并且其中所述机器学习模型的训练数据包括多对匹配的样本文本片段和样本视频片段，样本文本片段用于解说匹配的样本视频片段。4.根据权利要求3所述的方法，其中所述训练数据通过以下来获取：从样本目标视频确定与样本解说视频中的多个样本解说片段匹配的多个样本视频片段；确定所述样本解说视频对应的样本解说文本；确定所述样本解说视频中的所述多个样本解说片段与所述样本解说文本中的多个样本文本片段之间的匹配关系；以及基于所述多个样本文本片段与所述多个样本解说片段之间的所述匹配关系，将所述多个样本文本片段分别匹配到所述多个样本视频片段，得到所述多对匹配的样本文本片段和样本视频片段。5.根据权利要求4所述的方法，其中确定所述样本解说文本包括：从所述样本解说视频的字幕和语音中的至少一项识别出候选文本；以及从候选文本过滤出与所述样本目标视频中的字幕和语音中的至少一项相匹配的文本部分，得到所述样本解说文本。6.根据权利要求3所述的方法，其中所述机器学习模型的训练过程包括基于所述多对匹配的样本文本片段和样本视频片段的对比学习。7.根据权利要求1所述的方法，其中提取所述多个视频特征包括：分别提取所述多个视频片段的以下至少一个特征：视觉特征、语音特征、文本特征。8.一种用于生成解说视频的装置，包括：文本特征提取模块，被配置为提取解说文本中的多个文本片段分别对应的多个文本特征；视频特征提取模块，被配置为提取目标视频中的多个视频片段分别对应的多个视频特征；相似度矩阵确定模块，被配置为基于所述多个文本特征和所述多个视频特征，确定所
...

【专利技术属性】
技术研发人员：李颖颖，周文，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人