为视频添加音频标注的方法、装置、设备和存储介质制造方法及图纸

技术编号:37353994 阅读:10 留言:0更新日期:2023-04-27 07:04
根据本公开的实施例,提供了为视频添加音频标注的方法、装置、设备和存储介质。该方法包括:呈现视频的一个或多个时间段的指示,该一个或多个时间段被确定为能够用于添加音频的候选时间段;响应于接收到对该一个或多个时间段中的第一时间段的选择,呈现视频中与第一时间段相关联的视频片段的可视化信息;以及接收针对视频片段的输入,输入将被用于生成针对视频片段的音频标注。由此,根据本公开的实施例,能够针对视频快速地添加音频标注,提高音频标注效率。注效率。注效率。

【技术实现步骤摘要】
为视频添加音频标注的方法、装置、设备和存储介质


[0001]本公开的示例实施例总体涉及计算机领域,特别地涉及为视频添加音频标注的方法、装置、设备和计算机可读存储介质。

技术介绍

[0002]各种各样的视频已经成为人们日常生产和生活中的重要组成部分。在一些情况下,为了使观看视频的用户,尤其是视力受到损伤的用户,更加清楚、便捷地了解视频中的非语音(例如,非对白、非旁白)情节,需要为视频添加音频标注。音频标注以语音的方式描述视频中的非语音情节。例如,在为视障人群生产无障碍影视作品时,需要在影视作品中添加这种的音频标注。利用音频标注,用户能够更好的理解视频的内容。

技术实现思路

[0003]在本公开的第一方面,提供了一种为视频添加音频标注的方法。该方法包括:呈现视频的一个或多个时间段的指示,一个或多个时间段被确定为能够用于添加音频的候选时间段;响应于接收到对一个或多个时间段中的第一时间段的选择,呈现视频中与第一时间段相关联的视频片段的可视化信息;以及接收针对视频片段的输入,输入将被用于生成针对视频片段的音频标注。
[0004]在本公开的第二方面,提供了一种用于为视频添加音频标注的装置。该装置包括:时间段确定模块,被配置为呈现视频的一个或多个时间段的指示,一个或多个时间段被确定为能够用于添加音频的候选时间段;可视化信息呈现模块,被配置为响应于接收到对一个或多个时间段中的第一时间段的选择,呈现视频中与第一时间段相关联的视频片段的可视化信息;以及接收模块,被配置为接收针对视频片段的输入,输入将被用于生成针对视频片段的音频标注。
[0005]在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。
[0006]在本公开的第四方面,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,计算机程序可由处理器执行以实现第一方面的方法。
[0007]应当理解,本内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
[0008]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
[0009]图1示出了本公开的实施例能够在其中实现的示例环境的示意图;
[0010]图2示出了根据本公开的一些实施例的为视频添加音频标注的方法的流程图;
[0011]图3示出了根据本公开的一些实施例的用于呈现一个或多个时间段的指示的用户界面的示意图;
[0012]图4示出了根据本公开的一些实施例的用于检测视频中的一个或多个非语音片段的示意图;
[0013]图5示出了根据本公开的一些实施例的用于呈现视频片段的用户界面的示意图;
[0014]图6示出了根据本公开的一些实施例的用于输入与音频标注有关的信息的用户界面的示意图;
[0015]图7示出了根据本公开的一些实施例的用于选择听觉效果的用户界面的示意图;
[0016]图8示出了根据本公开的一些实施例的用于为视频添加音频标注的装置的框图;以及
[0017]图9示出了能够实施本公开的多个实施例的设备的框图。
具体实施方式
[0018]可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
[0019]例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
[0020]作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
[0021]可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
[0022]可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
[0023]下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0024]需要注意的是,本文中所提供的任何节/子节的标题并不是限制性的。本文通篇描述了各种实施例,并且任何类型的实施例都可以包括在任何节/子节下。此外,在任一节/子节中描述的实施例可以以任何方式与同一节/子节和/或不同节/子节中描述的任何其他实施例相结合。
[0025]在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实
施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0026]如本文中所使用的,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联,从而在训练完成后可以针对给定的输入,生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法,通过使用多层处理单元来处理输入和提供相应输出。在本文中,“模型”也可以被称为“机器学习模型”、“机器学习网络”或“网络”,这些术语在本文中可互换地使用。一个模型又可以包括不同类型的处理单元或网络。
[0027]如前文所简要提及的,在一些情况下,需要对视频(例如,电影、电视剧等)添加音频标注。为此需要先创作出用于描述视频中的非对白、非旁白情节的旁白底稿(简称为底稿)。传统上,存在两种制作底稿的方案。在一种方案中,由标注者查找视频中非对白、非旁白的情节,然后根据这些情节的播放时间段(又称为可插入底稿的时间段),将底稿的内容输入在文档、表格中,从而实现对视频的标注。在另一种方案中,标注者通过使用专业转件,将底稿转化为针对视频的标注。例如,利用视频剪辑软件的字幕功能编辑底稿的内容,后期同样使用剪辑软件按照底稿进行配音。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种为视频添加音频标注的方法,包括:呈现视频的一个或多个时间段的指示,所述一个或多个时间段被确定为能够用于添加音频标注的候选时间段;响应于接收到对所述一个或多个时间段中的第一时间段的选择,呈现所述视频中与所述第一时间段相关联的视频片段的可视化信息;以及接收针对所述视频片段的输入,所述输入将被用于生成针对所述视频片段的音频标注。2.根据权利要求1所述的方法,还包括:将所述输入中的文本信息转换为语音信息;以及至少部分地基于所述语音信息来生成针对所述视频片段的所述音频标注。3.根据权利要求1所述的方法,还包括:呈现多个候选听觉效果的指示,所述多个候选听觉效果用于生成针对所述视频片段的所述音频标注;接收对所述多个候选听觉效果之一的选择;以及呈现基于所述输入生成的具有所选择的听觉效果的音频片段,所述音频片段作为针对所述视频片段的所述音频标注的候选。4.根据权利要求1所述的方法,还包括:检测所述视频中的一个或多个非语音片段,所述非语音片段中包含的语音的量低于预定阈值;以及基于所述一个或多个非语音片段,来确定所述一个或多个时间段。5.根据权利要求1所述的方法,其中所述视频片段起始于所述第一时间段的开始,并且终止于第二时间段的开始,所述第二时间段在所述一个或多个时间段中紧邻在所述第一时间段之后。6.根据权利要求1所述的方法,其中呈现视频的一...

【专利技术属性】
技术研发人员:王聪陈天峰林义圣马泽君
申请(专利权)人:脸萌有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1