一种视频文案信息的生成方法及装置制造方法及图纸

技术编号:21629532 阅读:42 留言:0更新日期:2019-07-17 11:17
本申请实施方式公开了一种视频文案信息的生成方法及装置,其中,所述方法包括:获取目标视频的音频信息,所述音频信息包括所述目标视频中的背景音乐、环境音、语音信息中的至少一种;对所述音频信息进行识别,以从所述音频信息中提取所述目标视频的特征信息;其中,所述特征信息用于表征所述目标视频对应的情绪类型、发声者、发声内容中的至少一种;基于所述特征信息,生成所述目标视频的视频文案信息。本申请提供的技术方案,能够提高视频文案信息的生成效率。

A Method and Device for Generating Video Text Information

【技术实现步骤摘要】
一种视频文案信息的生成方法及装置
本申请涉及互联网
,特别涉及一种视频文案信息的生成方法及装置。
技术介绍
随着互联网技术的不断发展,涌现出越来越多的视频播放平台。由于视频播放平台中的视频数量通常较大,为了方便用户查找感兴趣的视频,目前的视频播放平台通常会对热门视频制作“视频看点”。该“视频看点”可以是原视频中节选或者剪辑的一小段视频内容,这一小段视频内容中可以体现原视频中具有代表性的视频画面。目前,视频播放平台通常会对视频看点附加一个视频文案信息,该视频文案信息可以用简短的语句概括视频看点的主要内容,从而可以让用户更加直观地对视频内容进行判断。视频文案信息通常会由视频的上传者或者视频播放网站的管理人员进行人工设置。视频文案信息的设置人员可以快速浏览视频看点的具体内容,然后根据浏览的内容构思出相对应的文案。然而,这种通过人工设置视频文案信息的方式,不仅会浪费较多的人力资源,还会使得视频文案信息生成的效率较低。
技术实现思路
本申请实施方式的目的是提供一种视频文案信息的生成方法及装置,能够提高视频文案信息的生成效率。为实现上述目的,本申请实施方式提供一种视频文案信息的生成方法,所述方法包括:获取目标视频的音频信息,所述音频信息包括所述目标视频中的背景音乐、环境音、语音信息中的至少一种;对所述音频信息进行识别,以从所述音频信息中提取所述目标视频的特征信息;其中,所述特征信息用于表征所述目标视频对应的情绪类型、发声者、发声内容中的至少一种;基于所述特征信息,生成所述目标视频的视频文案信息。为实现上述目的,本申请实施方式还提供一种视频文案信息的生成装置,所述装置包括存储器和处理器,所述存储器中存储计算机程序,所述计算机程序被所述处理器执行时,实现以下步骤:获取目标视频的音频信息,所述音频信息包括所述目标视频中的背景音乐、环境音、语音信息中的至少一种;对所述音频信息进行识别,以从所述音频信息中提取所述目标视频的特征信息;其中,所述特征信息用于表征所述目标视频对应的情绪类型、发声者、发声内容中的至少一种;基于所述特征信息,生成所述目标视频的视频文案信息。由上可见,本申请提供的技术方案,可以对目标视频的音频信息进行分析。在音频信息中可以包含背景音乐、环境音以及人物的语音信息。其中,背景音乐可以表明目标视频的情绪类型。例如,欢快的背景音乐可以表明目标视频中展示的内容为轻松愉快类型的。环境音可以表明目标视频中的观众等人群的反映。例如,发出爆笑的环境音可以表明目标视频中的话题能够使人愉悦。人物的语音信息则可以反映目标视频的主要内容。例如,某个人花费大量的时间在讲述育儿心得,那么该目标视频的内容很可能是关于育儿题材的。这样,通过对目标视频的音频信息进行分析,从而可以对目标视频的情绪类型、发声者以及发声内容等特征信息进行确定。由于这些特征信息能够体现目标视频的实际内容,因此根据确定出的这些特征信息生成的视频文案信息也能更好地贴近目标视频的实际内容。并且,语音识别的技术可以应用于计算机中,从而可以通过机器识别的方法自动生成目标视频的视频文案信息,不仅节省了大量的人力资源,还能提高视频文案信息的生成效率。附图说明为了更清楚地说明本申请实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施方式中视频文案信息的生成方法流程图;图2为本申请实施方式中视频文案信息的生成示意图;图3为本申请实施方式中视频文案信息的生成装置的结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都应当属于本申请保护的范围。本申请提供一种视频文案信息的生成方法,所述方法可以应用于具备数据处理功能的终端设备中。所述终端设备例如可以是台式电脑、笔记本电脑、平板电脑、工作站等。请参阅图1,所述视频文案信息的生成方法可以包括以下步骤。S1:获取目标视频的音频信息,所述音频信息包括所述目标视频中的背景音乐、环境音、语音信息中的至少一种。在本实施方式中,所述目标视频可以是播放时间较短,并且具备明显主题的视频。例如,所述目标视频可以是从综艺节目中节选出的一个场景,在该场景中一个嘉宾在向现场观众讲述育儿过程中的一则趣事。在本实施方式中吗,所述目标视频中可以具备画面信息和音频信息,所述音频信息中可以包括所述目标视频中所发出的各种声音。例如,所述音频信息中可以包括所述目标视频中的背景音乐、环境音以及语音信息中的至少一种。具体地,所述背景音乐可以表明目标视频的情绪类型。例如,欢快的背景音乐可以表明目标视频中展示的内容为轻松愉快类型的。环境音可以表明目标视频中的观众等人群的反映。例如,发出爆笑的环境音可以表明目标视频中的话题能够使人愉悦。人物的语音信息则可以反映目标视频的主要内容。例如,某个人花费大量的时间在讲述育儿心得,那么该目标视频的内容很可能是关于育儿题材的。在本实施方式中,可以借助于当前比较成熟的音频转换工具(例如格式工厂、千千静听等),将目标视频转换为指定格式的音频文件,从而可以从所述目标视频中提取相应的音频信息。此外,在实际应用中,为了区分不同类型的音频信息,可以从所述目标视频的音轨中提取相应的音频信息。具体地,所述目标视频在录制时,不同类型的声音可以由不同的收音设备进行录制。例如,人物的语音信息可以通过人物使用的麦克风进行收音,而背景音乐则可以由现场弹奏背景音乐的乐队使用的麦克风进行收音,观众所发出的环境音则可以由处于观众区域的麦克风进行收音。多个不同的麦克风收集到不同类型的声音之后,可以将这些声音按照画面播放的时间轴进行同步,从而形成声音和画面同步的目标视频。在所述目标视频中,由不同麦克风收集的声音可以处于不同的音轨中。例如,所述目标视频中的背景音乐、环境音以及语音信息分别由各自的麦克风进行收音,那么在所述目标视频中可以具备三条音轨,这三条音轨分别用于承载背景音乐、环境音以及语音信息。这样,所述目标视频包括至少两条音轨,所述至少两条音轨各自表征的音频信息互不相同。为了保证每种类型的声音的纯净度,可以从各个音轨中提取相应的音频信息。按照这种方式提取出的音频信息便可以不受其它声音的干扰。S3:对所述音频信息进行识别,以从所述音频信息中提取所述目标视频的特征信息;其中,所述特征信息用于表征所述目标视频对应的情绪类型、发声者、发声内容中的至少一种。在本实施方式中,可以对提取出的音频信息进行识别,从而可以从所述音频信息中提取所述目标视频的特征信息。具体地,针对不同的音频信息,可以采用不同的识别技术,提取得到的特征信息也可以不同。在一个实施方式中,若所述音频信息为所述目标视频中的背景音乐和/或环境音时,可以从所述音频信息中识别指定特征。其中,所述指定特征可以是与音乐相关的特征。例如,所述指本文档来自技高网
...

【技术保护点】
1.一种视频文案信息的生成方法,其特征在于,所述方法包括:获取目标视频的音频信息,所述音频信息包括所述目标视频中的背景音乐、环境音、语音信息中的至少一种;对所述音频信息进行识别,以从所述音频信息中提取所述目标视频的特征信息;其中,所述特征信息用于表征所述目标视频对应的情绪类型、发声者、发声内容中的至少一种;基于所述特征信息,生成所述目标视频的视频文案信息。

【技术特征摘要】
1.一种视频文案信息的生成方法,其特征在于,所述方法包括:获取目标视频的音频信息,所述音频信息包括所述目标视频中的背景音乐、环境音、语音信息中的至少一种;对所述音频信息进行识别,以从所述音频信息中提取所述目标视频的特征信息;其中,所述特征信息用于表征所述目标视频对应的情绪类型、发声者、发声内容中的至少一种;基于所述特征信息,生成所述目标视频的视频文案信息。2.根据权利要求1所述的方法,其特征在于,所述目标视频包括至少两条音轨,所述至少两条音轨各自表征的音频信息互不相同;相应地,获取目标视频的音频信息包括:从所述目标视频的音轨中提取相应的音频信息。3.根据权利要求1所述的方法,其特征在于,当所述音频信息包括所述目标视频中的背景音乐和/或环境音时,从所述音频信息中提取所述目标视频的特征信息包括:从所述音频信息中识别指定特征,并根据识别出的所述指定特征,构建所述音频信息的特征向量;其中,所述指定特征包括响度、音调、音色、节奏、速度中的至少一种;将所述特征向量输入指定情感模型,得到所述特征向量对应的情绪类型,并将得到的所述情绪类型作为所述目标视频的特征信息。4.根据权利要求3所述的方法,其特征在于,根据识别出的所述指定特征,构建所述音频信息的特征向量包括:确定识别出的所述指定特征的特征值,并将所述特征值作为特征向量中的元素,构建所述音频信息的特征向量。5.根据权利要求4所述的方法,其特征在于,在确定识别出的所述指定特征的特征值之后,所述方法还包括:将所述特征值转换至指定度量域中,得到所述特征值在所述指定度量域中的程度值;相应地,构建所述音频信息的特征向量包括:将所述特征值在所述指定度量域中的程度值作为特征向量中的元素,构建所述音频信息的特征向量。6.根据权利要求4所述的方法,其特征在于,在确定识别出的所述指定特征的特征值之后,所述方法还包括:根据所述指定特征的类型,为所述指定特征的特征值设置权重系数;相应地,在将所述特征向量输入指定情感模型时,所述方法还包括:将所述特征向量以及所述特征向量中特征值的权重系数共同输入所述指定情感模型。7.根据权利要求1所述的方法,其特征在于,当所述音频信息包括所述目标视频中的语音信息时,从所述音频信息中提取所述目标视频的特征信息包括:从当前发声者的语音信息中识别具备指定句式的语句,其中,识别出的所述语句中包括用于表征人员称谓的词汇;将所述词汇表征的人员称谓作为下一个发声者的称谓,并将所述下一个发声者的称谓作为所述目标视频的特征信息。8.根据权利要求7所述的方法,其特征在于,在将所述词汇表征的人员称谓作为下一个发...

【专利技术属性】
技术研发人员:王往
申请(专利权)人:优酷网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1