网络直播视频中不良主播的多层次协同识别方法及装置制造方法及图纸

技术编号:21274022 阅读:31 留言:0更新日期:2019-06-06 08:15
本发明专利技术提供了一种网络直播视频中不良主播的多层次协同识别方法及装置,涉及视频处理的技术领域,包括:从目标视频中提取图像样本、弹幕样本和语音样本;根据图像样本、弹幕样本和语音样本分别计算出图像分类序列、语音分类序列和弹幕分类序列;根据D‑S证据理论对图像分类序列、语音分类序列和弹幕分类序列进行融合处理,生成视频分类序列;根据视频分类序列识别出目标视频的行为分类。通过融合图像、语音和弹幕三个识别结果,提高了视频识别的鲁棒性,提高了网络直播视频中主播的不良行为的识别精度。

【技术实现步骤摘要】
网络直播视频中不良主播的多层次协同识别方法及装置
本专利技术涉及视频处理的
,尤其是涉及一种网络直播视频中不良主播的多层次协同识别方法及装置。
技术介绍
传统的网络监管任务主要是针对显性不良行为,而以网络直播为平台的不良主播呈现出高隐蔽性、强暗示性、持续时间较短等,一般来说不良行为大致可以分为封建迷信等几大类,而在每一大类下还有具体的不良行为等级,直播平台根据不同程度的不良行为对主播进行扣分或者查封等不同处罚,这需要在网络直播识别过程中对主播的不良行为进行精准识别。网络视频内容的自动识别通常采用特征提取和分类器相结合的方法,这种方法鲁棒性弱、获取高层语义困难,且只单一识别视频、语音或弹幕文本中的一种信息,导致识别精度低、难以应对内容纷繁复杂的实际应用处理需求。针对现有技术中网络直播视频中不良主播的不良行为识别精度低的问题,目前尚未提出有效解决方案。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种网络直播视频中不良主播的多层次协同识别方法及装置,网络直播视频中不良主播的不良行为识别精度低的技术问题。第一方面,本专利技术实施例提供了一种网络直播视频中不良主播的多层次协同识别方法,包括:从目标视频中提取图像样本、弹幕样本和语音样本;图像样本、弹幕样本和语音样本分别经过第一神经网络、第二神经网络和第三神经网络,分别计算出图像分类序列、语音分类序列和弹幕分类序列;根据D-S证据理论对图像分类序列、语音分类序列和弹幕分类序列进行融合处理,生成视频分类序列;根据视频分类序列识别出目标视频的行为分类。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,根据D-S证据理论对图像分类序列、语音分类序列和弹幕分类序列进行融合处理,生成视频分类序列的步骤,包括:对图像分类序列、语音分类序列和弹幕分类序列进行点积运算,得到点积结果;计算点积结果的范数;将点积结果与范数作商计算,获得视频分类序列。结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,图像样本、弹幕样本和语音样本分别经过第一神经网络、第二神经网络和第三神经网络,分别计算出图像分类序列、语音分类序列和弹幕分类序列的步骤,包括:第一卷积神经网络提取图像样本的图像特征,将图像特征输入第一分类器,计算出图像分类序列;通过第二卷积神经网络提取语音样本的语音特征,将语音特征计输入第二分类器,计算出语音分类序列;通过第三卷积神经网络提取弹幕样本的文本特征,将文本特征输入第三分类器,计算出弹幕分类序列。结合第一方面,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,从目标视频中提取图像样本、弹幕样本和语音样本的步骤,包括:从目标视频中提取多帧图像;从多帧图像中提取关键帧图像,关键帧图像为图像样本;从关键帧图像中提取弹幕样本。结合第一方面的第三种可能的实施方式,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,从多帧图像中提取关键帧图像的步骤,包括:分别计算多帧图像的相关性和熵值;根据相关性最大原则和熵值最大原则,从多帧图像中提取关键帧图像。结合第一方面的第三种可能的实施方式,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,从关键帧图像中提取弹幕样本的步骤,包括:根据word2vec从关键帧图像中提取弹幕文字,并将弹幕文字转化为多个词向量;将多个词向量进行拼接得到弹幕样本。结合第一方面的第三种可能的实施方式,本专利技术实施例提供了第一方面的第六种可能的实施方式,其中,从目标视频中提取图像样本、弹幕样本和语音样本的步骤,还包括:从目标视频中提取语音信号;将语音信号转化为二维频谱图,二维频谱图为语音样本。结合第一方面的第二种可能的实施方式,本专利技术实施例提供了第一方面的第七种可能的实施方式,其中,根据第一卷积神经网络提取图像样本的图像特征的步骤,包括:图像样本经过多层卷积层和多个Inception模块,分别生成多个特征图;将多个特征图通过池化层进行特征融合,生成图像特征。结合第一方面的第七种可能的实施方式,本专利技术实施例提供了第一方面的第八种可能的实施方式,其中,将多个特征图通过全连接层进行特征融合,生成图像特征之后的步骤,包括:对图像特征进行降维处理。第二方面,本专利技术实施例还提供一种网络直播视频中不良主播的多层次协同识别装置,包括:样本提取模块,用于从目标视频中提取图像样本、弹幕样本和语音样本;分类序列获取模块,用于图像样本、弹幕样本和语音样本分别经过第一神经网络、第二神经网络和第三神经网络,分别计算出图像分类序列、语音分类序列和弹幕分类序列;融合模块,用于根据D-S证据理论对图像分类序列、语音分类序列和弹幕分类序列进行融合处理,生成视频分类序列;分类行为提取模块,用于根据视频分类序列识别出目标视频的行为分类。本专利技术实施例带来了以下有益效果:本专利技术实施例提供了一种网络直播视频中不良主播的多层次协同识别方法,包括:从目标视频中提取图像样本、弹幕样本和语音样本;根据图像样本、弹幕样本和语音样本分别计算出图像分类序列、语音分类序列和弹幕分类序列;根据D-S证据理论对图像分类序列、语音分类序列和弹幕分类序列进行融合处理,生成视频分类序列;根据视频分类序列识别出目标视频的行为分类。通过融合图像、语音和弹幕三个识别结果,提高了视频识别的鲁棒性,提高了网络直播视频中主播的不良行为的识别精度。本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图,作详细说明如下。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种网络直播视频中不良主播的多层次协同识别方法流程图;图2为本专利技术实施例提供的一种卷积神经网络框架图;图3为本专利技术实施例提供的另一种卷积神经网络框架图;图4为本专利技术实施例提供的另一种卷积神经网络框架图;图5为本专利技术实施例提供的一种网络直播视频中不良主播的多层次协同识别装置框架图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。目前网络直播视频中主播的不良行为的分类识别只通过图像识别,导致识别精度低,基于此,本专利技术实施例提供的一种网络直播视频中不良主播的多层次协同识别方法及装置,可以提高网络直播视频中不良主播的不良行为识别的精度。为便于对本实施例进行理解,首先对本专利技术实施例所公开的一种网络直播视频中不良主播的多层次协同识别方法进行详细介绍。实施例1如图1所示,为本专利技术实施例提供的一种网络直播视频中不良主播的多层次协同识别方法,该方法包括步骤S101-S104,具体如下:步骤S101,从目标视频中提取图像样本、弹幕样本和语音样本。目标视屏为网络直播视频中一个固定时间段的视频片段,固定时间段越短则识别精度越高且识别的实时性越好本文档来自技高网...

【技术保护点】
1.一种网络直播视频中不良主播的多层次协同识别方法,其特征在于,包括:从目标视频中提取图像样本、弹幕样本和语音样本;所述图像样本、所述弹幕样本和所述语音样本分别经过第一神经网络、第二神经网络和第三神经网络,分别计算出图像分类序列、语音分类序列和弹幕分类序列;根据D‑S证据理论对所述图像分类序列、所述语音分类序列和所述弹幕分类序列进行融合处理,生成视频分类序列;根据所述视频分类序列识别出所述目标视频的行为分类。

【技术特征摘要】
1.一种网络直播视频中不良主播的多层次协同识别方法,其特征在于,包括:从目标视频中提取图像样本、弹幕样本和语音样本;所述图像样本、所述弹幕样本和所述语音样本分别经过第一神经网络、第二神经网络和第三神经网络,分别计算出图像分类序列、语音分类序列和弹幕分类序列;根据D-S证据理论对所述图像分类序列、所述语音分类序列和所述弹幕分类序列进行融合处理,生成视频分类序列;根据所述视频分类序列识别出所述目标视频的行为分类。2.根据权利要求1所述的网络直播视频中不良主播的多层次协同识别方法,其特征在于,所述根据D-S证据理论对所述图像分类序列、所述语音分类序列和所述弹幕分类序列进行融合处理,生成视频分类序列的步骤,包括:对所述图像分类序列、所述语音分类序列和所述弹幕分类序列进行点积运算,得到点积结果;计算所述点积结果的范数;将所述点积结果与所述范数作商计算,获得所述视频分类序列。3.根据权利要求1所述的网络直播视频中不良主播的多层次协同识别方法,其特征在于,所述图像样本、所述弹幕样本和所述语音样本分别经过第一神经网络、第二神经网络和第三神经网络,分别计算出图像分类序列、语音分类序列和弹幕分类序列的步骤,包括:第一卷积神经网络提取所述图像样本的图像特征,将所述图像特征输入第一分类器,计算出所述图像分类序列;通过第二卷积神经网络提取所述语音样本的语音特征,将所述语音特征计输入第二分类器,计算出所述语音分类序列;通过第三卷积神经网络提取所述弹幕样本的文本特征,将所述文本特征输入第三分类器,计算出所述弹幕分类序列。4.根据权利要求1所述的网络直播视频中不良主播的多层次协同识别方法,其特征在于,所述从目标视频中提取图像样本、弹幕样本和语音样本的步骤,包括:从所述目标视频中提取多帧图像;从多帧所述图像中提取关键帧图像,所述关键帧图像为所述图像样本;从所述关键帧图像中提取所述弹幕样本。5.根据权利要求4所述的网络直播视频中不良主...

【专利技术属性】
技术研发人员:张菁李晨豪王立元张辉李嘉锋卓力
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1