用于生成解说视频的方法、装置、设备和存储介质制造方法及图纸

技术编号:37186555 阅读:7 留言:0更新日期:2023-04-20 22:49
根据本公开的实施例,提供了用于生成解说视频的方法、装置、设备和存储介质。该方法包括提取解说文本中的多个文本片段分别对应的多个文本特征;提取目标视频中的多个视频片段分别对应的多个视频特征;基于多个文本特征和多个视频特征,确定多个文本片段与多个视频片段的相似度矩阵,相似度矩阵中的每个相似度对应于一对文本片段和视频片段;基于相似度矩阵,从多个视频片段选择多个文本片段各自匹配的一组视频片段;以及基于多个文本片段和匹配的一组视频片段来生成针对目标视频的解说视频。由此,可以基于特征匹配,实现自动化生产解说视频,提高制作效率。提高制作效率。提高制作效率。

【技术实现步骤摘要】
用于生成解说视频的方法、装置、设备和存储介质


[0001]本公开的示例实施例总体涉及计算机领域,特别地涉及用于解说视频方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]解说视频是指用一个精炼的短视频,快速讲述原视频中包含的内容。通过碎片化的剪辑原视频并配以总结性的文案,解说视频能够使观众快速了解原视频。例如,基于影视内容的解说视频,一方面可以帮助观众快速筛选感兴趣的影视剧,以较低的成本追赶社会热点;另一方面,也满足了互联网用户碎片化时间的娱乐需求。

技术实现思路

[0003]在本公开的第一方面,提供了一种用于生成解说视频的方法。该方法包括:提取解说文本中的多个文本片段分别对应的多个文本特征;提取目标视频中的多个视频片段分别对应的多个视频特征;基于多个文本特征和多个视频特征,确定多个文本片段与多个视频片段的相似度矩阵,相似度矩阵中的每个相似度对应于一对文本片段和视频片段;基于相似度矩阵,从多个视频片段选择多个文本片段各自匹配的一组视频片段;以及基于多个文本片段和匹配的一组视频片段来生成针对目标视频的解说视频。
[0004]在本公开的第二方面,提供了一种用于生成解说视频的装置。该装置包括:样本视频片段确定模块,被配置为从样本目标视频确定与样本解说视频中的多个样本解说片段匹配的多个样本视频片段;样本解说文本确定模块,被配置为确定样本解说视频对应的样本解说文本;匹配关系确定模块,被配置为确定样本解说视频中的多个样本解说片段与样本解说文本中的多个样本文本片段之间的匹配关系;以及匹配模块,被配置为基于多个样本文本片段与多个样本解说片段之间的匹配关系,将多个样本文本片段分别匹配到多个样本视频片段,得到多对匹配的样本文本片段和样本视频片段。
[0005]在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。
[0006]在本公开的第四方面,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,计算机程序可由处理器执行以实现第一方面的方法。
[0007]应当理解,本
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
[0008]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
[0009]图1示出了本公开的实施例能够在其中实现的示例环境的示意图;
[0010]图2示出了根据本公开的一些实施例的生成解说视频的一个示例的示意图;
[0011]图3示出了根据本公开的一些实施例的模型训练和应用的示例架构的示意图;
[0012]图4示出了根据本公开的一些实施例的获取训练数据的示例流程的示意图;
[0013]图5示出了根据本公开的一些实施例的解说视频的过程的流程图;
[0014]图6示出了根据本公开的一些实施例的用于生成解说视频的装置的框图;以及
[0015]图7示出了能够实施本公开的多个实施例的电子设备的框图。
具体实施方式
[0016]可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
[0017]例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
[0018]作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
[0019]可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
[0020]可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
[0021]下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0022]需要注意的是,本文中所提供的任何节/子节的标题并不是限制性的。本文通篇描述了各种实施例,并且任何类型的实施例都可以包括在任何节/子节下。此外,在任一节/子节中描述的实施例可以以任何方式与同一节/子节和/或不同节/子节中描述的任何其他实施例相结合。
[0023]在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0024]如本文中所使用的,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联,从而在训练完成后可以针对给定的输入,生成对应的输出。模型的生成可以基于机
器学习技术。深度学习是一种机器学习算法,通过使用多层处理单元来处理输入和提供相应输出。在本文中,“模型”也可以被称为“机器学习模型”、“机器学习网络”或“网络”,这些术语在本文中可互换地使用。一个模型又可以包括不同类型的处理单元或网络。
[0025]如本文中所使用的,“单元”、“操作单元”或“子单元”可以由任何合适结构的机器学习模型或网络组成。如本文中所使用的,一组元素或类似表述可以包括一个或多个这样的元素。例如,“一组卷积单元”可以包括一个或多个卷积单元。
[0026]通常,机器学习大致可以包括三个阶段,即训练阶段、测试阶段和应用阶段(也称为推理阶段)。在训练阶段,给定的模型可以使用大量的训练数据进行训练,不断迭代更新参数值,直到模型能够从训练数据中获得一致的满足预期目标的推理。通过训练,模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。训练后的模型的参数值被确定。在测试阶段,将测试输入应用到训练后的模型,测试模型是否能够提供本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于生成解说视频的方法,包括:提取解说文本中的多个文本片段分别对应的多个文本特征;提取目标视频中的多个视频片段分别对应的多个视频特征;基于所述多个文本特征和所述多个视频特征,确定所述多个文本片段与所述多个视频片段的相似度矩阵,所述相似度矩阵中的每个相似度对应于一对文本片段和视频片段;基于所述相似度矩阵,从所述多个视频片段选择所述多个文本片段各自匹配的一组视频片段;以及基于所述多个文本片段和匹配的所述一组视频片段来生成针对所述目标视频的解说视频。2.根据权利要求1所述的方法,其中选择所述一组视频片段包括:通过对所述相似度矩阵应用动态时间规整DTW来选择所述一组视频片段,所述一组视频片段按在所述目标视频中的出现顺序来排列。3.根据权利要求1所述的方法,其中所述多个文本特征的提取、所述多个视频特征的提取和所述相似度矩阵的确定是利用经训练的机器学习模型来执行的,并且其中所述机器学习模型的训练数据包括多对匹配的样本文本片段和样本视频片段,样本文本片段用于解说匹配的样本视频片段。4.根据权利要求3所述的方法,其中所述训练数据通过以下来获取:从样本目标视频确定与样本解说视频中的多个样本解说片段匹配的多个样本视频片段;确定所述样本解说视频对应的样本解说文本;确定所述样本解说视频中的所述多个样本解说片段与所述样本解说文本中的多个样本文本片段之间的匹配关系;以及基于所述多个样本文本片段与所述多个样本解说片段之间的所述匹配关系,将所述多个样本文本片段分别匹配到所述多个样本视频片段,得到所述多对匹配的样本文本片段和样本视频片段。5.根据权利要求4所述的方法,其中确定所述样本解说文本包括:从所述样本解说视频的字幕和语音中的至少一项识别出候选文本;以及从候选文本过滤出与所述样本目标视频中的字幕和语音中的至少一项相匹配的文本部分,得到所述样本解说文本。6.根据权利要求3所述的方法,其中所述机器学习模型的训练过程包括基于所述多对匹配的样本文本片段和样本视频片段的对比学习。7.根据权利要求1所述的方法,其中提取所述多个视频特征包括:分别提取所述多个视频片段的以下至少一个特征:视觉特征、语音特征、文本特征。8.一种用于生成解说视频的装置,包括:文本特征提取模块,被配置为提取解说文本中的多个文本片段分别对应的多个文本特征;视频特征提取模块,被配置为提取目标视频中的多个视频片段分别对应的多个视频特征;相似度矩阵确定模块,被配置为基于所述多个文本特征和所述多个视频特征,确定所
...

【专利技术属性】
技术研发人员:李颖颖周文
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1