一种直播场景识别方法及装置制造方法及图纸

技术编号:22060751 阅读:24 留言:0更新日期:2019-09-07 18:09
本发明专利技术实施例提供了一种直播场景识别方法及装置,其中应用于服务器的所述方法包括:获取待识别直播视频,所述待识别直播视频包括:同一时间戳下的不同维度的待识别直播视频,所述维度包括:图像帧的图像参数维度、音频帧的音频参数维度、主播的情绪状态维度及弹幕的语义表达情绪维度中两个以上的维度;将所述待识别直播视频作为已训练模型的输入,通过所述已训练模型,输出直播场景的已标注目标直播场景类别,其中,所述已训练模型是基于直播场景的训练样本集训练得到的,所述直播场景的训练样本集包括:已标注直播场景类别。这样可针对待识别直播视频为观众更准确地识别直播场景,为后期与直播场景相关的其他服务提供依据。

A Method and Device for Live Scene Recognition

【技术实现步骤摘要】
一种直播场景识别方法及装置
本专利技术涉及视频处理
,特别是涉及一种直播场景识别方法及装置。
技术介绍
随着互联网的广泛普及,通过互联网可以更好地为用户提供所需的个性化服务,因此我们需要掌握互联网络的情况。一般互联网络通过各式各样的应用场景,为用户提供服务,比如网络直播。当前提供网络直播的各大网络直播平台的直播内容基本完全是由主播与观众进行互动,而网络直播平台在网络直播过程中,与观众之间很少形成有效互动。因此,目前网络直播平台很难根据直播内容针对性地为观众提供更好的服务。
技术实现思路
本专利技术实施例的目的在于提供一种直播场景识别方法及装置,用以解决现有技术中网络直播平台很难根据直播内容针对性地为观众提供更好的服务的技术问题。具体技术方案如下:第一方面,本专利技术实施提供了一种直播场景识别方法,应用于服务器,所述方法包括:获取待识别直播视频,所述待识别直播视频包括:同一时间戳下的不同维度的待识别直播视频,所述维度包括:图像帧的图像参数维度、音频帧的音频参数维度、主播的情绪状态维度及弹幕的语义表达情绪维度中两个以上的维度;将所述待识别直播视频作为已训练模型的输入,通过所述已训练模型,输出直播场景的已标注目标直播场景类别,其中,所述已训练模型是基于直播场景的训练样本集训练得到的,所述直播场景的训练样本集包括:已标注直播场景类别。进一步的,所述将所述待识别直播视频作为已训练模型的输入,通过所述已训练模型,输出直播场景的已标注目标直播场景类别,包括:将所述待识别直播视频作为已训练预定类别模型的输入,通过所述已训练预定类别模型,输出各维度已标注的目标预定类别,其中,所述已训练预定类别模型是基于各维度训练样本集训练得到的,所述各维度训练样本集分别包括:已标注预定类别的图像帧、音频帧、主播情绪状态的主播图像帧、语义表达情绪的弹幕信息,以及所述各维度训练样本集各自的维度;将各维度已标注的目标预定类别,作为已训练直播场景模型的输入,通过所述已训练直播场景模型,输出直播场景的已标注目标直播场景类别,其中,所述已训练直播场景模型是基于直播场景的训练样本集训练得到的,所述直播场景的训练样本集包括:已标注直播场景类别的已标注预定类别以及所述已标注直播场景类别。进一步的,所述已训练预定类别模型包括:预定类别的已训练图像模型,通过如下步骤,得到所述已训练图像模型:获取已标注预定类别的预设帧频的图像帧;从所述图像帧中获得图像参数维度,所述图像参数维度包括:亮度、对比度、色彩;将所述图像参数维度、所述已标注预定类别,作为图像参数维度的训练样本集;将所述图像参数维度的训练样本集作为待训练图像模型的输入,利用所述待训练图像模型进行训练,得到所述已训练图像模型。进一步的,所述已训练预定类别模型包括:预定类别的已训练音频模型,通过如下步骤,得到所述已训练音频模型:获取已标注预定类别的音频帧;从所述音频帧中获得音频参数维度,所述音频参数维度包括:音量、音高和音色;将所述音频参数维度、所述已标注预定类别,作为音频参数维度的训练样本集;将所述音频参数维度的训练样本集作为待训练音频模型的输入,利用所述待训练音频模型进行训练,得到所述已训练音频模型。进一步的,所述已训练预定类别模型包括:预定类别的已训练主播模型,通过如下步骤,得到所述已训练主播模型:获取已标注预定类别包含有主播情绪状态的主播视频帧,所述主播情绪状态是通过所述主播的情绪状态维度确定的;从所述主播视频帧,确定主播的情绪状态维度,所述主播的情绪状态维度包括:主播的表情及主播的动作;将所述主播的情绪状态维度、所述已标注预定类别,作为主播的情绪状态维度的训练样本集;将所述主播的情绪状态维度的训练样本集作为待训练主播模型的输入,利用所述待训练主播模型进行训练,得到所述已训练主播模型。进一步的,所述已训练预定类别模型包括:预定类别的已训练弹幕模型,通过如下步骤,得到所述已训练弹幕模型:获取已标注预定类别包含有观众情绪状态的弹幕信息,所述观众情绪状态是通过所述弹幕的语义表达情绪维度确定的;从所述弹幕信息,确定弹幕的语义表达情绪维度,所述弹幕的语义表达情绪维度包括:观众的语义表达情绪的内容以及所述内容出现的频率;将所述弹幕的语义表达情绪维度、所述已标注预定类别,作为弹幕的语义表达情绪维度的训练样本集;将所述弹幕的语义表达情绪维度的训练样本集作为待训练弹幕模型的输入,利用所述待训练弹幕模型进行训练,得到所述已训练弹幕模型。进一步的,在所述将所述待识别直播视频作为已训练模型的输入,通过所述已训练模型,输出直播场景的已标注目标直播场景类别之后,所述方法还包括:基于所述已标注目标直播场景类别,按照已标注直播场景类别与渲染内容之间的对应关系,确定所述已标注目标直播场景类别对应的渲染内容,作为目标渲染内容;输出所述目标渲染内容。进一步的,所述输出所述目标渲染内容,包括:输出所述目标渲染内容至终端设备,由所述终端设备通过目标渲染内容,对目标直播场景进行渲染,其中,所述由所述终端设备通过目标渲染内容,对目标直播场景进行渲染,包括:所述目标渲染内容为互动弹幕,在所述目标直播场景中的弹幕层显示所述互动弹幕;或者所述目标渲染内容为声光特效,在所述目标直播场景中播放所述声光特效。进一步的,所述已标注预定类别包括:已标注为主题场景预定类别和/或已标注为场景气氛预定类别;所述已标注直播场景类别包括:已标注直播场景的主题类别和/或已标注直播场景的气氛类别,所述已标注预定类别与所述已标注直播场景类别一一对应。第二方面,本专利技术实施提供了一种直播场景识别装置,应用于服务器,所述装置包括:第一获取模块,用于获取待识别直播视频,所述待识别直播视频包括:同一时间戳下的不同维度的待识别直播视频,所述维度包括:图像帧的图像参数维度、音频帧的音频参数维度、主播的情绪状态维度及弹幕的语义表达情绪维度中两个以上的维度;第一处理模块,用于将所述待识别直播视频作为已训练模型的输入,通过所述已训练模型,输出直播场景的已标注目标直播场景类别,其中,所述已训练模型是基于直播场景的训练样本集训练得到的,所述直播场景的训练样本集包括:已标注直播场景类别。进一步的,所述第一处理模块,用于:将所述待识别直播视频作为已训练预定类别模型的输入,通过所述已训练预定类别模型,输出各维度已标注的目标预定类别,其中,所述已训练预定类别模型是基于各维度训练样本集训练得到的,所述各维度训练样本集分别包括:已标注预定类别的图像帧、音频帧、主播情绪状态的主播图像帧、语义表达情绪的弹幕信息,以及所述各维度训练样本集各自的维度;将各维度已标注的目标预定类别,作为已训练直播场景模型的输入,通过所述已训练直播场景模型,输出直播场景的已标注目标直播场景类别,其中,所述已训练直播场景模型是基于直播场景的训练样本集训练得到的,所述直播场景的训练样本集包括:已标注直播场景类别的已标注预定类别以及所述已标注直播场景类别。进一步的,所述已训练预定类别模型包括:预定类别的已训练图像模型,所述装置还包括:第二处理模块,用于:获取已标注预定类别的预设帧频的图像帧;从所述图像帧中获得图像参数维度,所述图像参数维度包括:亮度、对比度、色彩;将所述图像参数维度、所述已标注预定类别,作为图像参数维度的训练样本集;将所述本文档来自技高网...

【技术保护点】
1.一种直播场景识别方法,其特征在于,应用于服务器,所述方法包括:获取待识别直播视频,所述待识别直播视频包括:同一时间戳下的不同维度的待识别直播视频,所述维度包括:图像帧的图像参数维度、音频帧的音频参数维度、主播的情绪状态维度及弹幕的语义表达情绪维度中两个以上的维度;将所述待识别直播视频作为已训练模型的输入,通过所述已训练模型,输出直播场景的已标注目标直播场景类别,其中,所述已训练模型是基于直播场景的训练样本集训练得到的,所述直播场景的训练样本集包括:已标注直播场景类别。

【技术特征摘要】
1.一种直播场景识别方法,其特征在于,应用于服务器,所述方法包括:获取待识别直播视频,所述待识别直播视频包括:同一时间戳下的不同维度的待识别直播视频,所述维度包括:图像帧的图像参数维度、音频帧的音频参数维度、主播的情绪状态维度及弹幕的语义表达情绪维度中两个以上的维度;将所述待识别直播视频作为已训练模型的输入,通过所述已训练模型,输出直播场景的已标注目标直播场景类别,其中,所述已训练模型是基于直播场景的训练样本集训练得到的,所述直播场景的训练样本集包括:已标注直播场景类别。2.如权利要求1所述的方法,其特征在于,所述将所述待识别直播视频作为已训练模型的输入,通过所述已训练模型,输出直播场景的已标注目标直播场景类别,包括:将所述待识别直播视频作为已训练预定类别模型的输入,通过所述已训练预定类别模型,输出各维度已标注的目标预定类别,其中,所述已训练预定类别模型是基于各维度训练样本集训练得到的,所述各维度训练样本集分别包括:已标注预定类别的图像帧、音频帧、主播情绪状态的主播图像帧、语义表达情绪的弹幕信息,以及所述各维度训练样本集各自的维度;将各维度已标注的目标预定类别,作为已训练直播场景模型的输入,通过所述已训练直播场景模型,输出直播场景的已标注目标直播场景类别,其中,所述已训练直播场景模型是基于直播场景的训练样本集训练得到的,所述直播场景的训练样本集包括:已标注直播场景类别的已标注预定类别以及所述已标注直播场景类别。3.如权利要求2所述的方法,其特征在于,所述已训练预定类别模型包括:预定类别的已训练图像模型,通过如下步骤,得到所述已训练图像模型:获取已标注预定类别的预设帧频的图像帧;从所述图像帧中获得图像参数维度,所述图像参数维度包括:亮度、对比度、色彩;将所述图像参数维度、所述已标注预定类别,作为图像参数维度的训练样本集;将所述图像参数维度的训练样本集作为待训练图像模型的输入,利用所述待训练图像模型进行训练,得到所述已训练图像模型。4.如权利要求2所述的方法,其特征在于,所述已训练预定类别模型包括:预定类别的已训练音频模型,通过如下步骤,得到所述已训练音频模型:获取已标注预定类别的音频帧;从所述音频帧中获得音频参数维度,所述音频参数维度包括:音量、音高和音色;将所述音频参数维度、所述已标注预定类别,作为音频参数维度的训练样本集;将所述音频参数维度的训练样本集作为待训练音频模型的输入,利用所述待训练音频模型进行训练,得到所述已训练音频模型。5.如权利要求2所述的方法,其特征在于,所述已训练预定类别模型包括:预定类别的已训练主播模型,通过如下步骤,得到所述已训练主播模型:获取已标注预定类别包含有主播情绪状态的主播视频帧,所述主播情绪状态是通过所述主播的情绪状态维度确定的;从所述主播视频帧,确定主播的情绪状态维度,所述主播的情绪状态维度包括:主播的表情及主播的动作;将所述主播的情绪状态维度、所述已标注预定类别,作为主播的情绪状态维度的训练样本集;将所述主播的情绪状态维度的训练样本集作为待训练主播模型的输入,利用所述待训练主播模型进行训练,得到所述已训练主播模型。6.如权利要求2所述的方法,其特征在于,所述已训练预定类别模型包括:预定类别的已训练弹幕模型,通过如下步骤,得到所述已训练弹幕模型:获取已标注预定类别包含有观众情绪状态的弹幕信息,所述观众情绪状态是通过所述弹幕的语义表达情绪维度确定的;从所述弹幕信息,确定弹幕的语义表达情绪维度,所述弹幕的语义表达情绪维度包括:观众的语义表达情绪的内容以及所述内容出现的频率;将所述弹幕的语义表达情绪维度、所述已标注预定类别,作为弹幕的语义表达情绪维度的训练样本集;将所述弹幕的语义表达情绪维度的训练样本集作为待训练弹幕模型的输入,利用所述待训练弹幕模型进行训练,得到所述已训练弹幕模型。7.如权利要求1至6任一项所述的方法,其特征在于,在所述将所述待识别直播视频作为已训练模型的输入,通过所述已训练模型,输出直播场景的已标注目标直播场景类别之后,所述方法还包括:基于所述已标注目标直播场景类别,按照已标注直播场景类别与渲染内容之间的对应关系,确定所述已标注目标直播场景类别对应的渲染内容,作为目标渲染内容;输出所述目标渲染内容。8.如权利要求7所述的方法,其特征在于,所述输出所述目标渲染内容,包括:输出所述目标渲染内容至终端设备,由所述终端设备通过目标渲染内容,对目标直播场景进行渲染,其中,所述由所述终端设备通过目标渲染内容,对目标直播场景进行渲染,包括:所述目标渲染内容为互动弹幕,在所述目标直播场景中的弹幕层显示所述互动弹幕;或者所述目标渲染内容为声光特效,在所述目标直播场景中播放所述声光特效。9.如权利要求1至6任一项所述的方法,其特征在于,所述已标注预定类别包括:已标注为主题场景预定类别和/或已标注为场景气氛预定类别;所述已标注直播场景类别包括:已标注直播场景的主题类别和/或已标注直播场景的气氛类别,所述已标注预定类别与所述已标注直播场景类别一一对...

【专利技术属性】
技术研发人员:冯春阳吴金贵
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1